Detail publikace
Resources and Benchmarks for Keyword Search in Spoken Audio From Low-Resource Indian Languages
Kesiraju Santosh, Ph.D. (UPGM)
BANKA, R.
KETHIREDDY, R.
Gangashetty Suryakanth V (FIT)
Keyword search, low-resource languages, term-weighted value (TWV)
Tento článek představuje zdroje a srovnávací testy vyvinuté pro vyhledávání podle klíčových slov (KWS) v mluveném zvuku šesti indických jazyků s nízkými zdroji (ze dvou rodin), a to gudžarátštiny, hindštiny, Marathi, Odia, Tamil a Telugu. Současná práce na konstrukci klíčových slov a sestavení srovnávacího měřítka. KWS je inspirována populárním programem IARPA Babel a následnými pracemi na nízkozdrojových systémech. KWS. Klíčová slova jsou konstruována s přihlédnutím k jejich vlastnostem, tj. výskytu, délce a... průměrné zaměnitelnosti a jejich vlivu na hodnotící metriku - term-weighted value (TWV). Využíváme volně dostupných datových sad řeči a zpracováváme je pro vytvoření zdrojů pro KWS, čímž přidáváme hodnotu ke stávajícím řečovým zdrojům. Jsou vytvořeny čtyři systémy KWS založené na ASR a jejich výkonnost je následující analyzovány na všech šesti jazycích s ohledem na tři vlastnosti klíčových slov. Připravená klíčová slova a další související zdroje pro replikaci našich experimentů jsou zpřístupněny veřejnosti. věříme, že analýza bude přínosná i pro ostatní uživatele. a pokyny uvedené v tomto článku pomohou nejen výzkumné komunitě, ale také odborníkům z praxe a odborníkům z praxe. inženýrům při snadném vytváření zdrojů KWS pro novější jazyky, datové sady a scénáře.
@article{BUT182528,
author="NADIMPALLI, V. and KESIRAJU, S. and BANKA, R. and KETHIREDDY, R. and GANGASHETTY, S.",
title="Resources and Benchmarks for Keyword Search in Spoken Audio From Low-Resource Indian Languages",
journal="IEEE Access",
year="2022",
volume="10",
number="2022",
pages="34789--34799",
doi="10.1109/ACCESS.2022.3162854",
issn="2169-3536",
url="https://ieeexplore.ieee.org/document/9743904"
}