Detail publikace
BUT System for CHiME-6 Challenge
Kocour Martin, Ing. (UPGM)
Landini Federico Nicolás (UPGM)
Beneš Karel, Ing. (UPGM)
Karafiát Martin, Ing., Ph.D. (UPGM)
Vydana Hari Krishna
Lozano Díez Alicia, Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Baskar Murali Karthick, Ing., Ph.D.
Švec Ján, Ing. (UPGM)
Mošner Ladislav, Ing. (UPGM)
Malenovský Vladimír, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Yusuf Bolaji (UPGM)
Novotný Ondřej, Ing., Ph.D.
Grézl František, Ing., Ph.D. (UPGM)
Szőke Igor, Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
diarization, neural network, acoustic model, language model, enhancement
Tento dokument popisuje snahy VUT v Brně při vývoji systému pro výzvu CHiME-6 s nahrávkami na večerní párty [1]. Naše experimenty se týkají jak diarizace, tak rozpoznávání řeči součástí systému. Pro diarizaci používáme VBx framework, který používá Bayesovský skrytý Markovův model s vlastními převody na x-vektorech. Pro akustické modelování zkoumáme různé podskupiny dat pro trénink, různé architektury neuronových sítí, diskriminační trénink, robustnější i-vektory a semi-supervidovaný trénink na Vox-Celeb datech. Kromě toho provádíme experimenty s jazykovým modelem založeným na neuronové síti a zkoumáme, jak překonat malou velikost textového korpusu a začlenit kontext napříč segmenty. Při fúzování našich nejlepších systémů dosahujeme 41,21% / 42,55% WER na trati 1 pro vývoj, respektive 55,15% / 69,04% na trati 2 pro vývoj a hodnocení.
@inproceedings{BUT164067,
author="Kateřina {Žmolíková} and Martin {Kocour} and Federico Nicolás {Landini} and Karel {Beneš} and Martin {Karafiát} and Hari Krishna {Vydana} and Alicia {Lozano Díez} and Oldřich {Plchot} and Murali Karthick {Baskar} and Ján {Švec} and Ladislav {Mošner} and Vladimír {Malenovský} and Lukáš {Burget} and Bolaji {Yusuf} and Ondřej {Novotný} and František {Grézl} and Igor {Szőke} and Jan {Černocký}",
title="BUT System for CHiME-6 Challenge",
booktitle="Proceedings of CHiME 2020 Virtual Workshop",
year="2020",
pages="1--3",
publisher="University of Sheffield",
address="Barcelona",
doi="10.21437/CHiME.2020-13",
url="https://www.isca-speech.org/archive/CHiME_2020/pdfs/CHiME_2020_paper_zmolikova.pdf"
}