Detail publikace
Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Ondel Yang Lucas Antoine Francois, Mgr., Ph.D. (UPSAC)
Švec Ján, Ing. (FIT VUT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
V typických systémech rozpoznávání řeči s více mluvčími předpovídá akustický model založený na neuronové síti posteriory senonového stavu pro každého mluvčího. Ty jsou později použity dekodérem s jedním mluvčím, který je aplikován na každý výstupní proud specifický pro mluvčí samostatně. V této práci tvrdíme, že takové schéma není optimální a navrhujeme principiální řešení, které dekóduje všechny mluvčí společně. Upravujeme akustický model tak, aby predikoval posteriory společného stavu pro všechny mluvčí, což umožňuje síti vyjádřit nejistotu ohledně přiřazení částí řečového signálu mluvčím. Využíváme společný dekodér, který dokáže využít tuto nejistotu spolu s vyššími jazykovými informacemi. Za tímto účelem znovu navštívíme dekódovací algoritmy používané ve faktoriálních generativních modelech v raných systémech rozpoznávání řeči s více mluvčími. Na rozdíl od těchto raných prací nahrazujeme akustický model GMM za DNN, který poskytuje větší modelovací výkon a zjednodušuje část dedukce. Demonstrujeme výhodu společného dekódování v důkazu koncepčních experimentů na smíšeném datovém souboru TIDIGITS.
@INPROCEEDINGS{FITPUB12852, author = "Martin Kocour and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Francois Antoine Lucas Yang Ondel and J\'{a}n \v{S}vec and Marc Delcroix and Tsubasa Ochiai and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model", pages = "4955--4959", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", number = 9, year = 2022, location = "Incheon, KR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2022-10406", language = "english", url = "https://www.fit.vut.cz/research/publication/12852" }