Detail publikace
Analysis of X-Vectors for Low-Resource Speech Recognition
Veselý Karel, Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Profant Ján, Ing.
Nytra Jiří, Bc.
HLAVÁČEK, M.
Pavlíček Tomáš, Ing.
speech recognition, adaptation, x-vectors, data augmentation, robustness
Příspěvek představuje studii použitelnosti x-vektorů pro adaptaci systémů automatického rozpoznávání řeči (ASR). X-vektory jsou založeny na vložení řečníků na základě neuronových sítí (NN), které byly nedávno navrženy v rozpoznávání řečníků (SR). Rychle nahradily běžné i-vektory a staly se novou nejmodernější technikou. Zde je stejný přístup přijat pro ASR s nadějí na podobný výsledek. Všechny experimenty byly provedeny na ASR pro nejnovější vyhodnocení IARPA MATERIÁLU běžící na paštštinu. Přes x% absolutní zlepšení bylo pozorováno u x-vektorů oproti tradičním i-vektorům, i když x-vektorový extraktor nebyl trénován na cílová paštštinová data.
Podpořeno z projektu Ministerstva vnitra České republiky Robustní zpracování nahrávek pro operativu a bezpečnost (ROZKAZ), č. VJ01010108
@inproceedings{BUT175794,
author="KARAFIÁT, M. and VESELÝ, K. and ČERNOCKÝ, J. and PROFANT, J. and NYTRA, J. and HLAVÁČEK, M. and PAVLÍČEK, T.",
title="Analysis of X-Vectors for Low-Resource Speech Recognition",
booktitle="ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
year="2021",
pages="6998--7002",
publisher="IEEE Signal Processing Society",
address="Toronto, Ontario",
doi="10.1109/ICASSP39728.2021.9414725",
isbn="978-1-7281-7605-5",
url="https://www.fit.vut.cz/research/publication/12525/"
}