Detail publikace

Reducing Domain mismatch in Self-supervised speech pre-training

BASKAR, M.; ROSENBERG, A.; RAMABHADRAN, B.; ZHANG, Y. Reducing Domain mismatch in Self-supervised speech pre-training. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Incheon: International Speech Communication Association, 2022. p. 3028-3032. ISSN: 1990-9772.
Název česky
Snížení nesouladu domén v samoučicích se předtrénováných modelech řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Baskar Murali Karthick, Ing., Ph.D.
Rosenberg Andrew
Ramabhadran Bhuvana
Zhang Yu
URL
Klíčová slova

Self-supervision, Wav2vec2, pretraining, Data selection, Domain mismatch, asr, speech recognition

Abstrakt

Metody maskovaného modelování řeči (MSM), jako je wav2vec2 nebo w2v-BERT, se učí reprezentace přes rámce řeči, které jsou náhodně maskovány v rámci promluvy. I když tyto metody zlepšují výkon systémů automatického rozpoznávání řeči (ASR), mají jedno hlavní omezení. Zacházejí se všemi vzorky řeči bez dozoru se stejnou váhou, což brání učení, protože ne všechny vzorky mají relevantní informace k tomu, aby se naučily smysluplné reprezentace. V této práci se tomuto omezení věnujeme. Navrhujeme ask2mask (ATM), nový přístup k zaměření na konkrétní vzorky během předtréninku MSM. ATM využívá externí model ASR nebo skórovací zařízení ke zvážení nekontrolovaných vstupních vzorků provedením jemnozrnného výběru dat. ATM provádí maskování vysoce spolehlivých vstupních snímků, jak je vybral hodnotitel. To umožňuje modelu naučit se smysluplné reprezentace. Provádíme dolaďovací experimenty na dvou dobře porovnaných korpusech: LibriSpeech (odpovídající předtréninkovým datům) a AMI a CHiME-6 (neodpovídající předtréninkovým datům). Výsledky potvrzují účinnost ATM na výrazné zlepšení rozpoznávacího výkonu za neshodných podmínek, přičemž stále poskytují mírná zlepšení za shodných podmínek.

Rok
2022
Strany
3028–3032
Časopis
Proceedings of Interspeech, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Incheon
DOI
UT WoS
000900724503040
EID Scopus
BibTeX
@inproceedings{BUT179828,
  author="Murali Karthick {Baskar} and Andrew {Rosenberg} and Bhuvana {Ramabhadran} and Yu {Zhang}",
  title="Reducing Domain mismatch in Self-supervised speech pre-training",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2022",
  journal="Proceedings of Interspeech",
  number="9",
  pages="3028--3032",
  publisher="International Speech Communication Association",
  address="Incheon",
  doi="10.21437/Interspeech.2022-736",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/baskar22_interspeech.pdf"
}
Nahoru