Detail publikace

Resources and Benchmarks for Keyword Search in Spoken Audio From Low-Resource Indian Languages

NADIMPALLI, V.; KESIRAJU, S.; BANKA, R.; KETHIREDDY, R.; GANGASHETTY, S. Resources and Benchmarks for Keyword Search in Spoken Audio From Low-Resource Indian Languages. IEEE Access, 2022, vol. 10, no. 2022, p. 34789-34799. ISSN: 2169-3536.
Název česky
Zdroje a srovnání pro vyhledávání klíčových slov v mluveném audiu indických jazyků s malým množstvím zdrojů
Typ
článek v časopise
Jazyk
anglicky
Autoři
NADIMPALLI, V.
Kesiraju Santosh, Ph.D. (UPGM)
BANKA, R.
KETHIREDDY, R.
Gangashetty Suryakanth V (FIT)
URL
Klíčová slova

Keyword search, low-resource languages, term-weighted value (TWV)

Abstrakt

Tento článek představuje zdroje a srovnávací testy vyvinuté pro vyhledávání podle klíčových slov (KWS) v mluveném zvuku šesti indických jazyků s nízkými zdroji (ze dvou rodin), a to gudžarátštiny, hindštiny, Marathi, Odia, Tamil a Telugu. Současná práce na konstrukci klíčových slov a sestavení srovnávacího měřítka. KWS je inspirována populárním programem IARPA Babel a následnými pracemi na nízkozdrojových systémech. KWS. Klíčová slova jsou konstruována s přihlédnutím k jejich vlastnostem, tj. výskytu, délce a... průměrné zaměnitelnosti a jejich vlivu na hodnotící metriku - term-weighted value (TWV). Využíváme volně dostupných datových sad řeči a zpracováváme je pro vytvoření zdrojů pro KWS, čímž přidáváme hodnotu ke stávajícím řečovým zdrojům. Jsou vytvořeny čtyři systémy KWS založené na ASR a jejich výkonnost je následující analyzovány na všech šesti jazycích s ohledem na tři vlastnosti klíčových slov. Připravená klíčová slova a další související zdroje pro replikaci našich experimentů jsou zpřístupněny veřejnosti. věříme, že analýza bude přínosná i pro ostatní uživatele. a pokyny uvedené v tomto článku pomohou nejen výzkumné komunitě, ale také odborníkům z praxe a odborníkům z praxe. inženýrům při snadném vytváření zdrojů KWS pro novější jazyky, datové sady a scénáře.

Rok
2022
Strany
34789–34799
Časopis
IEEE Access, roč. 10, č. 2022, ISSN 2169-3536
DOI
UT WoS
000778878900001
EID Scopus
BibTeX
@article{BUT182528,
  author="NADIMPALLI, V. and KESIRAJU, S. and BANKA, R. and KETHIREDDY, R. and GANGASHETTY, S.",
  title="Resources and Benchmarks for Keyword Search in Spoken Audio From Low-Resource Indian Languages",
  journal="IEEE Access",
  year="2022",
  volume="10",
  number="2022",
  pages="34789--34799",
  doi="10.1109/ACCESS.2022.3162854",
  issn="2169-3536",
  url="https://ieeexplore.ieee.org/document/9743904"
}
Nahoru