Detail publikace

Comparison of wav2vec 2.0 models on three speech processing tasks

KUNEŠOVÁ, M.; ZAJÍC, Z.; ŠMÍDL, L.; KARAFIÁT, M. Comparison of wav2vec 2.0 models on three speech processing tasks. International Journal of Speech Technology, 2024, vol. 27, no. 4, p. 847-859. ISSN: 1572-8110.

Název česky

Srovnání modelů wav2vec 2.0 na třech úlohách zpracování řeči

Typ

článek v časopise

Jazyk

anglicky

Autoři

Zajíc Zbyněk, Ing., Ph.D.
Šmíd Luboš, Ing., Ph.D.
Karafiát Martin, Ing., Ph.D. (UPGM)
Kunešová Marie, Ing., Ph.D.

URL

Klíčová slova

detekce změny řečníka;detekce řečové aktivity;detekce překrývající se
řeči;wav2vec 2.0

Abstrakt

Současným nejmodernějším přístupem k řešení různých úloh zpracování řeči je
"sequence-to-sequence" model založený na mechanismu self-attention, známý jako
ečových dat a následně doladěn pro konkrétní úlohu. Data použitá pro trénování
a doladění, spolu s velikostí transformerového modelu, hrají zásadní roli v obou
těc avšak lze očekávat, že použití realističtějších dat nahraných za různých
akustických podmínek by mohlo přinést výhody. Není však zcela jasné, jak velký
rozdíl toto ách zpracování řeči: detekce změny řečníka, detekce řečové aktivity
a detekce překrývající se řeči, a testujeme je na čtyřech reálných datasetech
konverzační řeči. ch ze stejného datasetu, nebo na uměle vytvořených trénovacích
datech z korpusu LibriSpeech. Naše výsledky naznačují, že bohatší data, která
jsou více podobná doméně úloh, přinášejí lepší výkon než větší model.

Rok

2024

Strany

847–859

Časopis

International Journal of Speech Technology, roč. 27, č. 4, ISSN 1572-8110

DOI

10.1007/s10772-024-10140-6

EID Scopus

2-s2.0-85206375991

BibTeX

@article{BUT193586,
  author="Zbyněk {Zajíc} and Luboš {Šmíd} and Martin {Karafiát} and Marie {Kunešová}",
  title="Comparison of wav2vec 2.0 models on three speech processing tasks",
  journal="International Journal of Speech Technology",
  year="2024",
  volume="27",
  number="4",
  pages="847--859",
  doi="10.1007/s10772-024-10140-6",
  issn="1572-8110",
  url="https://link.springer.com/article/10.1007/s10772-024-10140-6"
}

Soubory

pdf kunesova_springer_2024_s10772-024-10140-6.pdf 1 MB