Detail publikace

Comparison of wav2vec 2.0 models on three speech processing tasks

KUNEŠOVÁ, M.; ZAJÍC, Z.; ŠMÍDL, L.; KARAFIÁT, M. Comparison of wav2vec 2.0 models on three speech processing tasks. International Journal of Speech Technology, 2024, vol. 27, no. 4, p. 847-859. ISSN: 1572-8110.
Název česky
Srovnání modelů wav2vec 2.0 na třech úlohách zpracování řeči
Typ
článek v časopise
Jazyk
anglicky
Autoři
Zajíc Zbyněk, Ing., Ph.D.
Šmíd Luboš, Ing., Ph.D.
Karafiát Martin, Ing., Ph.D. (UPGM)
Kunešová Marie, Ing., Ph.D.
URL
Klíčová slova

detekce změny řečníka;detekce řečové aktivity;detekce překrývající se
řeči;wav2vec 2.0

Abstrakt

Současným nejmodernějším přístupem k řešení různých úloh zpracování řeči je
"sequence-to-sequence" model založený na mechanismu self-attention, známý jako
ečových dat a následně doladěn pro konkrétní úlohu. Data použitá pro trénování
a doladění, spolu s velikostí transformerového modelu, hrají zásadní roli v obou
těc avšak lze očekávat, že použití realističtějších dat nahraných za různých
akustických podmínek by mohlo přinést výhody. Není však zcela jasné, jak velký
rozdíl toto ách zpracování řeči: detekce změny řečníka, detekce řečové aktivity
a detekce překrývající se řeči, a testujeme je na čtyřech reálných datasetech
konverzační řeči. ch ze stejného datasetu, nebo na uměle vytvořených trénovacích
datech z korpusu LibriSpeech. Naše výsledky naznačují, že bohatší data, která
jsou více podobná doméně úloh, přinášejí lepší výkon než větší model.

Rok
2024
Strany
847–859
Časopis
International Journal of Speech Technology, roč. 27, č. 4, ISSN 1572-8110
DOI
EID Scopus
BibTeX
@article{BUT193586,
  author="Zbyněk {Zajíc} and Luboš {Šmíd} and Martin {Karafiát} and Marie {Kunešová}",
  title="Comparison of wav2vec 2.0 models on three speech processing tasks",
  journal="International Journal of Speech Technology",
  year="2024",
  volume="27",
  number="4",
  pages="847--859",
  doi="10.1007/s10772-024-10140-6",
  issn="1572-8110",
  url="https://link.springer.com/article/10.1007/s10772-024-10140-6"
}
Soubory
Nahoru