Detail publikace

Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model

KOCOUR Martin, ŽMOLÍKOVÁ Kateřina, ONDEL Yang Lucas Antoine Francois, ŠVEC Ján, DELCROIX Marc, OCHIAI Tsubasa, BURGET Lukáš a ČERNOCKÝ Jan. Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 4955-4959. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2022/kocour22_interspeech.pdf

Název česky

Návrat k rozpoznávání řeči více mluvčích založenému na společném dekódování s DNN akustickým modelem

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Kocour Martin, Ing. (UPGM FIT VUT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Ondel Yang Lucas Antoine Francois, Mgr., Ph.D. (UPSAC)
Švec Ján, Ing. (FIT VUT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)

URL

Abstrakt

V typických systémech rozpoznávání řeči s více mluvčími předpovídá akustický model založený na neuronové síti posteriory senonového stavu pro každého mluvčího. Ty jsou později použity dekodérem s jedním mluvčím, který je aplikován na každý výstupní proud specifický pro mluvčí samostatně. V této práci tvrdíme, že takové schéma není optimální a navrhujeme principiální řešení, které dekóduje všechny mluvčí společně. Upravujeme akustický model tak, aby predikoval posteriory společného stavu pro všechny mluvčí, což umožňuje síti vyjádřit nejistotu ohledně přiřazení částí řečového signálu mluvčím. Využíváme společný dekodér, který dokáže využít tuto nejistotu spolu s vyššími jazykovými informacemi. Za tímto účelem znovu navštívíme dekódovací algoritmy používané ve faktoriálních generativních modelech v raných systémech rozpoznávání řeči s více mluvčími. Na rozdíl od těchto raných prací nahrazujeme akustický model GMM za DNN, který poskytuje větší modelovací výkon a zjednodušuje část dedukce. Demonstrujeme výhodu společného dekódování v důkazu koncepčních experimentů na smíšeném datovém souboru TIDIGITS.

Rok

2022

Strany

4955-4959

Časopis

Proceedings of Interspeech - on-line, č. 9, ISSN 1990-9772

Sborník

Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH

Konference

Interspeech Conference, Incheon, KR

Vydavatel

International Speech Communication Association

Místo

Incheon, KR

DOI

10.21437/Interspeech.2022-10406

UT WoS

000900724505027

EID Scopus

2-s2.0-85140088159

BibTeX

@INPROCEEDINGS{FITPUB12852,
   author = "Martin Kocour and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Francois Antoine Lucas Yang Ondel and J\'{a}n \v{S}vec and Marc Delcroix and Tsubasa Ochiai and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model",
   pages = "4955--4959",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   number = 9,
   year = 2022,
   location = "Incheon, KR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2022-10406",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12852"
}