Detail publikace

Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units

YUSUF, B.; ČERNOCKÝ, J.; SARAÇLAR, M. Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units. Proceedings of Interspeech 2024. Proceedings of Interspeech. Kos: International Speech Communication Association, 2024. p. 5068-5072. ISSN: 1990-9772.
Název česky
Předtrénování celostního vyhledávání klíčových slov s automaticky určenými akustickými jednotkami
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Yusuf Bolaji (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
SARAÇLAR, M.
URL
Klíčová slova

vyhledávání klíčových slov, detekce mluveného slova, akustika objev jednotky

Abstrakt

End-to-end (E2E) vyhledávání klíčových slov (KWS) se objevilo jako alternativní a doplňkový přístup ke konvenčnímu vyhledávání klíčových slov, který závisí na výstupu systémů automatického rozpoznávání řeči (ASR). I když metody E2E značně zjednodušují KWS pipeline, obecně mají horší výkon než jejich protějšky založené na ASR, které mohou těžit z předtrénování s nepřepisovanými daty. V této práci navrhujeme metodu pro předtrénování E2E KWS systémů s nepřepisovanými daty, která zahrnuje použití akustického objevu jednotek (AUD) k získání diskrétních jednotek pro nepřepisovaná data a následné učení lokalizovat sekvence takových jednotek v řeči. Provádíme experimenty napříč jazyky a systémy AUD: ukazujeme, že jemné vyladění takového modelu výrazně překonává model trénovaný od nuly a zlepšení výkonu obecně koreluje s kvalitou systému AUD používaného pro předtrénování.

Rok
2024
Strany
5068–5072
Časopis
Proceedings of Interspeech, roč. 2024, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2024
Vydavatel
International Speech Communication Association
Místo
Kos
DOI
BibTeX
@inproceedings{BUT193671,
  author="YUSUF, B. and ČERNOCKÝ, J. and SARAÇLAR, M.",
  title="Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units",
  booktitle="Proceedings of Interspeech 2024",
  year="2024",
  journal="Proceedings of Interspeech",
  volume="2024",
  number="9",
  pages="5068--5072",
  publisher="International Speech Communication Association",
  address="Kos",
  doi="10.21437/Interspeech.2024-1713",
  issn="1990-9772",
  url="https://www.isca-archive.org/interspeech_2024/yusuf24b_interspeech.pdf"
}
Nahoru