Detail publikace
Comparison of wav2vec 2.0 models on three speech processing tasks
Šmíd Luboš, Ing., Ph.D.
Karafiát Martin, Ing., Ph.D. (UPGM)
Kunešová Marie, Ing., Ph.D.
detekce změny řečníka;detekce řečové aktivity;detekce překrývající se
řeči;wav2vec 2.0
Současným nejmodernějším přístupem k řešení různých úloh zpracování řeči je
"sequence-to-sequence" model založený na mechanismu self-attention, známý jako
ečových dat a následně doladěn pro konkrétní úlohu. Data použitá pro trénování
a doladění, spolu s velikostí transformerového modelu, hrají zásadní roli v obou
těc avšak lze očekávat, že použití realističtějších dat nahraných za různých
akustických podmínek by mohlo přinést výhody. Není však zcela jasné, jak velký
rozdíl toto ách zpracování řeči: detekce změny řečníka, detekce řečové aktivity
a detekce překrývající se řeči, a testujeme je na čtyřech reálných datasetech
konverzační řeči. ch ze stejného datasetu, nebo na uměle vytvořených trénovacích
datech z korpusu LibriSpeech. Naše výsledky naznačují, že bohatší data, která
jsou více podobná doméně úloh, přinášejí lepší výkon než větší model.
@article{BUT193586,
author="Zbyněk {Zajíc} and Luboš {Šmíd} and Martin {Karafiát} and Marie {Kunešová}",
title="Comparison of wav2vec 2.0 models on three speech processing tasks",
journal="International Journal of Speech Technology",
year="2024",
volume="27",
number="4",
pages="847--859",
doi="10.1007/s10772-024-10140-6",
issn="1572-8110",
url="https://link.springer.com/article/10.1007/s10772-024-10140-6"
}