Detail publikace

Spelling-Aware Word-Based End-to-End ASR

EGOROVA, E.; VYDANA, H.; BURGET, L.; ČERNOCKÝ, J. Spelling-Aware Word-Based End-to-End ASR. IEEE SIGNAL PROCESSING LETTERS, 2022, vol. 29, no. 29, p. 1729-1733. ISSN: 1558-2361.
Název česky
End-to-End systém pro rozpoznávání řeči založený na slovech beroucí v úvahu jejich hláskování
Typ
článek v časopise
Jazyk
anglicky
Autoři
Egorova Ekaterina, Ing., Ph.D.
Vydana Hari Krishna
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
URL
Klíčová slova

end-to-end, ASR, OOV, Listen Attend and Spell architecture

Abstrakt

Navrhujeme novou end-to-end architekturu pro automatické rozpoznávání řeči, která rozšiřuje paradigma poslechu, účasti a hláskování (LAS). Zatímco hlavní síť pro předpovídání slov je trénována k předpovídání slov, sekundární síť pravopisu je optimalizována k předpovídání pravopisu slov z vnitřních reprezentací hlavní sítě (např. vložení slov nebo kontextové vektory z modulu pozornosti). Ukazujeme, že toto společné školení zlepšuje chybovost slov v systému založeném na slovech a umožňuje řešení dalších úkolů, jako je detekce a obnova slov mimo slovní zásobu. Testy se provádějí na datové sadě LibriSpeech sestávající z 1000 hodin čtené řeči.

Rok
2022
Strany
1729–1733
Časopis
IEEE SIGNAL PROCESSING LETTERS, roč. 29, č. 29, ISSN 1558-2361
DOI
UT WoS
000842088200001
EID Scopus
BibTeX
@article{BUT178877,
  author="Ekaterina {Egorova} and Hari Krishna {Vydana} and Lukáš {Burget} and Jan {Černocký}",
  title="Spelling-Aware Word-Based End-to-End ASR",
  journal="IEEE SIGNAL PROCESSING LETTERS",
  year="2022",
  volume="29",
  number="29",
  pages="1729--1733",
  doi="10.1109/LSP.2022.3192199",
  issn="1558-2361",
  url="https://ieeexplore.ieee.org/document/9833231"
}
Nahoru