Detail publikace

Bayesian phonotactic language model for acoustic unit discovery

ONDEL YANG, L.; BURGET, L.; ČERNOCKÝ, J.; KESIRAJU, S. Bayesian phonotactic language model for acoustic unit discovery. In Proceedings of ICASSP 2017. New Orleans: IEEE Signal Processing Society, 2017. p. 5750-5754. ISBN: 978-1-5090-4117-6.
Název česky
Bayesovský fonotaktický jazykový model pro automatické hledání řečových jednotek
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Bayesian non-parametric, Variational Bayes, acoustic unit discovery

Abstrakt

Nedávné práce na Acoustic Unit Discovery (AUD) vedly k vývoji neparametrického Bayesovského modelu telefonní smyčky, kde se předpokládá, že před pravděpodobností telefonních jednotek se bude odebírat vzorek z Dirichletova procesu (DP). V této práci navrhujeme vylepšit tento model začleněním Hierarchického Pitman-Yorova bigramového jazykového modelu na přechody jednotek. Tento nový model využívá fonotaktické kontextové informace, ale předpokládá pevný počet jednotek. Abychom toto omezení napravili, nejprve vyškolíme model DP phoneloop pro odvození počtu jednotek, pak se bigramová telefonní smyčka inicializuje z telefonní smyčky DP a trénuje se až do sbližování jejích parametrů. Výsledky ukazují absolutní zlepšení o 1-2% v metrice Normalized Mutual Information (NMI). Dále ukazujeme, že v kombinaci s funkcí Multilingual Bottleneck (MBN) model přináší stejný nebo vyšší NMI jako anglický telefonní rozpoznávač trénovaný na TIMIT.

Rok
2017
Strany
5750–5754
Sborník
Proceedings of ICASSP 2017
Konference
42nd IEEE International Conference on Acoustics, Speech and Signal Processing, New Orleans, USA, US
ISBN
978-1-5090-4117-6
Vydavatel
IEEE Signal Processing Society
Místo
New Orleans
DOI
UT WoS
000414286205182
EID Scopus
BibTeX
@inproceedings{BUT144452,
  author="Lucas Antoine Francois {Ondel} and Lukáš {Burget} and Jan {Černocký} and Santosh {Kesiraju}",
  title="Bayesian phonotactic language model for acoustic unit discovery",
  booktitle="Proceedings of ICASSP 2017",
  year="2017",
  pages="5750--5754",
  publisher="IEEE Signal Processing Society",
  address="New Orleans",
  doi="10.1109/ICASSP.2017.7953258",
  isbn="978-1-5090-4117-6",
  url="https://www.fit.vut.cz/research/publication/11472/"
}
Nahoru