Detail publikace

Speaker adaptation for Wav2vec2 based dysarthric ASR

BASKAR, M.; HERZIG, T.; NGUYEN, D.; DIEZ SÁNCHEZ, M.; POLZEHL, T.; BURGET, L.; ČERNOCKÝ, J. Speaker adaptation for Wav2vec2 based dysarthric ASR. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Incheon: International Speech Communication Association, 2022. p. 3403-3407. ISSN: 1990-9772.
Název česky
Adaptace na mluvčího pro rozpoznávání dysartrické řeči založené na Wav2vec2
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Baskar Murali Karthick, Ing., Ph.D.
Herzig Tim
Nguyen Diana
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Polzehl Tim
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
URL
Klíčová slova

Dysarthria, self-supervision, ASR, wav2vec2, fMLLR, xvectors, speaker adaptation

Abstrakt

Dysartrické rozpoznávání řeči představuje velké problémy kvůli nedostatku trénovacích dat a velkému nesouladu v charakteristikách mluvčích. Nedávné systémy ASR těžily ze snadno dostupných předtrénovaných modelů, jako je wav2vec2, aby zlepšily výkon rozpoznávání. Adaptace mluvčího pomocí fMLLR a xvectors poskytla velké zisky pro dysartrickou řeč s velmi malým množstvím adaptačních dat. Nicméně integrace wav2vec2 s funkcemi fMLLR nebo xvectors během jemného ladění wav2vec2 je ještě třeba prozkoumat. V této práci navrhujeme jednoduchou adaptační síť pro jemné doladění wav2vec2 pomocí funkcí fMLLR. Adaptační síť je také flexibilní, aby zvládla další adaptivní funkce mluvčích, jako jsou xvectors. Experimentální analýza ukazuje stabilní zlepšení pomocí našeho navrhovaného přístupu napříč všemi úrovněmi závažnosti poškození a dosahuje 57,72 % WER pro vysokou závažnost v datové sadě UASpeech. Provedli jsme také experimenty na německém datovém souboru, abychom prokázali konzistenci našeho navrhovaného přístupu napříč různými doménami.

Rok
2022
Strany
3403–3407
Časopis
Proceedings of Interspeech, roč. 9, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Incheon
DOI
UT WoS
000900724503114
EID Scopus
BibTeX
@inproceedings{BUT179866,
  author="Murali Karthick {Baskar} and Tim {Herzig} and Diana {Nguyen} and Mireia {Diez Sánchez} and Tim {Polzehl} and Lukáš {Burget} and Jan {Černocký}",
  title="Speaker adaptation for Wav2vec2 based dysarthric ASR",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2022",
  journal="Proceedings of Interspeech",
  volume="9",
  number="9",
  pages="3403--3407",
  publisher="International Speech Communication Association",
  address="Incheon",
  doi="10.21437/Interspeech.2022-10896",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/baskar22b_interspeech.pdf"
}
Nahoru