Detail publikace
Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model
Žmolíková Kateřina, Ing., Ph.D. (FIT)
ONDEL YANG, L.
Švec Ján, Ing. (UPGM)
Delcroix Marc (FIT)
OCHIAI, T.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Multi-talker speech recognition, Permutation invariant training, Factorial Hidden Markov models
V typických systémech rozpoznávání řeči s více mluvčími předpovídá akustický model založený na neuronové síti posteriory senonového stavu pro každého mluvčího. Ty jsou později použity dekodérem s jedním mluvčím, který je aplikován na každý výstupní proud specifický pro mluvčí samostatně. V této práci tvrdíme, že takové schéma není optimální a navrhujeme principiální řešení, které dekóduje všechny mluvčí společně. Upravujeme akustický model tak, aby predikoval posteriory společného stavu pro všechny mluvčí, což umožňuje síti vyjádřit nejistotu ohledně přiřazení částí řečového signálu mluvčím. Využíváme společný dekodér, který dokáže využít tuto nejistotu spolu s vyššími jazykovými informacemi. Za tímto účelem znovu navštívíme dekódovací algoritmy používané ve faktoriálních generativních modelech v raných systémech rozpoznávání řeči s více mluvčími. Na rozdíl od těchto raných prací nahrazujeme akustický model GMM za DNN, který poskytuje větší modelovací výkon a zjednodušuje část dedukce. Demonstrujeme výhodu společného dekódování v důkazu koncepčních experimentů na smíšeném datovém souboru TIDIGITS.
@inproceedings{BUT179827,
author="KOCOUR, M. and ŽMOLÍKOVÁ, K. and ONDEL YANG, L. and ŠVEC, J. and DELCROIX, M. and OCHIAI, T. and BURGET, L. and ČERNOCKÝ, J.",
title="Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2022",
journal="Proceedings of Interspeech",
number="9",
pages="4955--4959",
publisher="International Speech Communication Association",
address="Incheon",
doi="10.21437/Interspeech.2022-10406",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/kocour22_interspeech.pdf"
}