Detail publikace
Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units
vyhledávání klíčových slov, detekce mluveného slova, akustika objev jednotky
End-to-end (E2E) vyhledávání klíčových slov (KWS) se objevilo jako alternativní a doplňkový přístup ke konvenčnímu vyhledávání klíčových slov, který závisí na výstupu systémů automatického rozpoznávání řeči (ASR). I když metody E2E značně zjednodušují KWS pipeline, obecně mají horší výkon než jejich protějšky založené na ASR, které mohou těžit z předtrénování s nepřepisovanými daty. V této práci navrhujeme metodu pro předtrénování E2E KWS systémů s nepřepisovanými daty, která zahrnuje použití akustického objevu jednotek (AUD) k získání diskrétních jednotek pro nepřepisovaná data a následné učení lokalizovat sekvence takových jednotek v řeči. Provádíme experimenty napříč jazyky a systémy AUD: ukazujeme, že jemné vyladění takového modelu výrazně překonává model trénovaný od nuly a zlepšení výkonu obecně koreluje s kvalitou systému AUD používaného pro předtrénování.
@inproceedings{BUT193671,
author="YUSUF, B. and ČERNOCKÝ, J. and SARAÇLAR, M.",
title="Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units",
booktitle="Proceedings of Interspeech 2024",
year="2024",
journal="Proceedings of Interspeech",
volume="2024",
number="9",
pages="5068--5072",
publisher="International Speech Communication Association",
address="Kos",
doi="10.21437/Interspeech.2024-1713",
issn="1990-9772",
url="https://www.isca-archive.org/interspeech_2024/yusuf24b_interspeech.pdf"
}