Detail publikace
Text Augmentation for Language Models in High Error Recognition Scenario
data augmentation, error simulation, language modeling, automatic speech recognition
V tomto článku prozkoumáme několik strategií augmentace dat pro trénování jazykových modelů pro rozpoznávání řeči. Porovnáváme augmentaci na základě globální statistiky chyb s jednou založenou na unigramové statistice chyb ASR a s vyhlazením štítků a jeho vzorkovanou variantou. Kromě toho zkoumáme stabilitu a prediktivní sílu zmatenosti odhadovanou na rozšířených datech. Navzdory tomu, že je triviální, augmentace řízená globální mírou substituce, delece a vkládání dosahuje nejlepších výsledků. Na druhou stranu, i když je související míra zmatenosti stabilní, neposkytuje lepší předpověď konečné míry chyb než ta vanilková. Naše nejlepší schéma augmentace zvyšuje zlepšení WER z druhého průchodu z 1,1 % na 1,9 % absolutně při výzvě CHiMe-6.
@inproceedings{BUT175841,
author="Karel {Beneš} and Lukáš {Burget}",
title="Text Augmentation for Language Models in High Error Recognition Scenario",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2021",
journal="Proceedings of Interspeech",
volume="2021",
number="8",
pages="1872--1876",
publisher="International Speech Communication Association",
address="Brno",
doi="10.21437/Interspeech.2021-627",
issn="1990-9772",
url="https://www.isca-speech.org/archive/interspeech_2021/benes21_interspeech.html"
}