Detail publikace
BUT OpenSAT 2017 speech recognition system
Baskar Murali Karthick, Ing., Ph.D.
Szőke Igor, Ing., Ph.D. (UPGM)
Malenovský Vladimír, Ing., Ph.D. (UPGM)
Veselý Karel, Ing., Ph.D. (UPGM)
Grézl František, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
speech recognition, multilingual training, BLSTM, data augmentation, robustness
Článek pojednává o VUT systému rozpoznávání řeči pro OpenSAT 2017 evaluace, které proběhly pro dvě domény: Low Resourced Languages and Public Safety Communications. První doména byla náročná kvůli nedostatku tréninkových dat, proto byly pro trénink BLSTM použity vícejazyčné přístupy a byly použity nedávno publikované sítě Residual Memory Networks vyžadující méně tréninkových dat. Kombinace obou přístupů vedla k vynikajícímu výkonu. Druhá doména byla náročná kvůli nahrávání v extrémních podmínkách: specifický kanál, reproduktor ve stresu, vysoká úroveň šumu. Proces získávání dat byl velmi důležitý pro dosažení přiměřeně dobrého výkonu.
@inproceedings{BUT155099,
author="Martin {Karafiát} and Murali Karthick {Baskar} and Igor {Szőke} and Vladimír {Malenovský} and Karel {Veselý} and František {Grézl} and Lukáš {Burget} and Jan {Černocký}",
title="BUT OpenSAT 2017 speech recognition system",
booktitle="Proceedings of Interspeech 2018",
year="2018",
journal="Proceedings of Interspeech",
volume="2018",
number="9",
pages="2638--2642",
publisher="International Speech Communication Association",
address="Hyderabad",
doi="10.21437/Interspeech.2018-2457",
issn="1990-9772",
url="https://www.isca-speech.org/archive/Interspeech_2018/abstracts/2457.html"
}