Detail publikace
Ask2Mask: Guided Data Selection for Masked Speech Modeling
Rosenberg Andrew
Ramabhadran Bhuvana
Zhang Yu
Moreno Pedro (FIT)
Guided Data Selection, Masked Speech Modeling
Metody modelování maskované řeči (MSM), jako např. wav2vec2 nebo w2v-BERT se učí reprezentaci nad řečovými snímky. které jsou náhodně maskovány v rámci výpovědi. Zatímco tyto metody zlepšují výkon automatického rozpoznávání řeči (ASR). mají však jedno zásadní omezení. Zacházejí se všemi neřízenými se stejnou váhou, což brání učení, protože ne všechny vzorky mají relevantní informace pro učení smysluplných reprezentací. V této práci se tímto omezením zabýváme. Navrhujeme ask2mask (ATM), nový přístup, který se zaměřuje na konkrétní vzorky. během předběžného tréninku MSM. ATM využívá externí model ASR nebo skórujícího k vážení nesupervisovaných vstupních vzorků ve dvou různých dvěma způsoby: 1) Jemný výběr dat se provádí maskováním nad vysoce důvěryhodnými vstupními snímky, které vybral skórující. To umožňuje modelu naučit se smysluplné reprezentace. 2) ATM je dále rozšířen tak, aby se soustředil na úroveň výpovědí pomocí vážení konečné ztráty MSM skóre důvěryhodnosti na úrovni výroku. Provádíme experimenty jemného doladění na dvou dobře srovnatelných korpusech: LibriSpeech (odpovídající předtréninkovým datům) a Commonvoice, TED-LIUM, AMI a CHiME-6 (neodpovídají předtréninkovým datům). dat). Výsledky potvrzují účinnost ATM na výrazně vyšší úrovni, než jaká je v současné době. zlepšuje výkonnost rozpoznávání při neshodných údajích v podmínkách (až o 11,6 % oproti publikovaným výsledkům a až o 2,5 % oproti publikovaným výsledkům) 4,46 % oproti naší interní základní úrovni), přičemž stále přináší mírné v odpovídajících podmínkách.
@article{BUT182529,
author="Murali Karthick {Baskar} and Andrew {Rosenberg} and Bhuvana {Ramabhadran} and Yu {Zhang} and Pedro {Moreno}",
title="Ask2Mask: Guided Data Selection for Masked Speech Modeling",
journal="IEEE J-STSP",
year="2022",
volume="16",
number="6",
pages="1357--1366",
doi="10.1109/JSTSP.2022.3186162",
issn="1932-4553",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9806175"
}