Detail publikace

Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model

KOCOUR, M.; ŽMOLÍKOVÁ, K.; ONDEL YANG, L.; ŠVEC, J.; DELCROIX, M.; OCHIAI, T.; BURGET, L.; ČERNOCKÝ, J. Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Incheon: International Speech Communication Association, 2022. p. 4955-4959. ISSN: 1990-9772.
Název česky
Návrat k rozpoznávání řeči více mluvčích založenému na společném dekódování s DNN akustickým modelem
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Multi-talker speech recognition, Permutation invariant training, Factorial Hidden Markov models

Abstrakt

V typických systémech rozpoznávání řeči s více mluvčími předpovídá akustický model založený na neuronové síti posteriory senonového stavu pro každého mluvčího. Ty jsou později použity dekodérem s jedním mluvčím, který je aplikován na každý výstupní proud specifický pro mluvčí samostatně. V této práci tvrdíme, že takové schéma není optimální a navrhujeme principiální řešení, které dekóduje všechny mluvčí společně. Upravujeme akustický model tak, aby predikoval posteriory společného stavu pro všechny mluvčí, což umožňuje síti vyjádřit nejistotu ohledně přiřazení částí řečového signálu mluvčím. Využíváme společný dekodér, který dokáže využít tuto nejistotu spolu s vyššími jazykovými informacemi. Za tímto účelem znovu navštívíme dekódovací algoritmy používané ve faktoriálních generativních modelech v raných systémech rozpoznávání řeči s více mluvčími. Na rozdíl od těchto raných prací nahrazujeme akustický model GMM za DNN, který poskytuje větší modelovací výkon a zjednodušuje část dedukce. Demonstrujeme výhodu společného dekódování v důkazu koncepčních experimentů na smíšeném datovém souboru TIDIGITS.

Rok
2022
Strany
4955–4959
Časopis
Proceedings of Interspeech, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Incheon
DOI
UT WoS
000900724505027
EID Scopus
BibTeX
@inproceedings{BUT179827,
  author="KOCOUR, M. and ŽMOLÍKOVÁ, K. and ONDEL YANG, L. and ŠVEC, J. and DELCROIX, M. and OCHIAI, T. and BURGET, L. and ČERNOCKÝ, J.",
  title="Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2022",
  journal="Proceedings of Interspeech",
  number="9",
  pages="4955--4959",
  publisher="International Speech Communication Association",
  address="Incheon",
  doi="10.21437/Interspeech.2022-10406",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/kocour22_interspeech.pdf"
}
Nahoru