Detail publikace

Ask2Mask: Guided Data Selection for Masked Speech Modeling

BASKAR, M.; ROSENBERG, A.; RAMABHADRAN, B.; ZHANG, Y.; MORENO, P. Ask2Mask: Guided Data Selection for Masked Speech Modeling. IEEE J-STSP, 2022, vol. 16, no. 6, p. 1357-1366. ISSN: 1932-4553.
Název česky
Ask2Mask: Řízený výběr dat pro modelování uměle maskované řeči
Typ
článek v časopise
Jazyk
anglicky
Autoři
Baskar Murali Karthick, Ing., Ph.D.
Rosenberg Andrew
Ramabhadran Bhuvana
Zhang Yu
Moreno Pedro (FIT)
URL
Klíčová slova

Guided Data Selection, Masked Speech Modeling

Abstrakt

Metody modelování maskované řeči (MSM), jako např. wav2vec2 nebo w2v-BERT se učí reprezentaci nad řečovými snímky. které jsou náhodně maskovány v rámci výpovědi. Zatímco tyto metody zlepšují výkon automatického rozpoznávání řeči (ASR). mají však jedno zásadní omezení. Zacházejí se všemi neřízenými se stejnou váhou, což brání učení, protože ne všechny vzorky mají relevantní informace pro učení smysluplných reprezentací. V této práci se tímto omezením zabýváme. Navrhujeme ask2mask (ATM), nový přístup, který se zaměřuje na konkrétní vzorky. během předběžného tréninku MSM. ATM využívá externí model ASR nebo skórujícího k vážení nesupervisovaných vstupních vzorků ve dvou různých dvěma způsoby: 1) Jemný výběr dat se provádí maskováním nad vysoce důvěryhodnými vstupními snímky, které vybral skórující. To umožňuje modelu naučit se smysluplné reprezentace. 2) ATM je dále rozšířen tak, aby se soustředil na úroveň výpovědí pomocí vážení konečné ztráty MSM skóre důvěryhodnosti na úrovni výroku. Provádíme experimenty jemného doladění na dvou dobře srovnatelných korpusech: LibriSpeech (odpovídající předtréninkovým datům) a Commonvoice, TED-LIUM, AMI a CHiME-6 (neodpovídají předtréninkovým datům). dat). Výsledky potvrzují účinnost ATM na výrazně vyšší úrovni, než jaká je v současné době. zlepšuje výkonnost rozpoznávání při neshodných údajích v podmínkách (až o 11,6 % oproti publikovaným výsledkům a až o 2,5 % oproti publikovaným výsledkům) 4,46 % oproti naší interní základní úrovni), přičemž stále přináší mírné v odpovídajících podmínkách.

Rok
2022
Strany
1357–1366
Časopis
IEEE J-STSP, roč. 16, č. 6, ISSN 1932-4553
DOI
UT WoS
000870301500019
EID Scopus
BibTeX
@article{BUT182529,
  author="Murali Karthick {Baskar} and Andrew {Rosenberg} and Bhuvana {Ramabhadran} and Yu {Zhang} and Pedro {Moreno}",
  title="Ask2Mask: Guided Data Selection for Masked Speech Modeling",
  journal="IEEE J-STSP",
  year="2022",
  volume="16",
  number="6",
  pages="1357--1366",
  doi="10.1109/JSTSP.2022.3186162",
  issn="1932-4553",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9806175"
}
Nahoru