Detail publikace

Contextual Biasing Methods for Improving Rare Word Detection in Automatic Speech Recognition

BHATTACHARJEE, M.; NIGMATULINA, I.; PRASAD, A.; RANGAPPA, P.; MADIKERI, S.; MOTLÍČEK, P.; HELMKE, H.; KLEINERT, M. Contextual Biasing Methods for Improving Rare Word Detection in Automatic Speech Recognition. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 12652-12656. ISBN: 979-8-3503-4485-1.
Název česky
Metody kontextového ovlivnění pro zlepšení detekce neobvyklých slov v automatickém rozpoznávání řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
BHATTACHARJEE, M.
NIGMATULINA, I.
Prasad Amrutha (UPGM)
RANGAPPA, P.
Madikeri Srikanth
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
HELMKE, H.
KLEINERT, M.
URL
Klíčová slova

Automatic speech recognition, air traffic control, domain adaptation, contextual
biasing, rare word recognition

Abstrakt

Ve specializovaných oblastech, jako je řízení letového provozu (ATC), je
pozoruhodným problémem při přenášení nasazeného systému automatického
rozpoznávání řeči (ASR) z jednoho letiště na druhé změna v sadě klíčových slov,
která musí být v novém prostředí přesně detekována. . Obvykle se taková slova
vyskytují v trénovacích datech omezeně, takže je nepraktické znovu trénovat
systém ASR. Tento článek zkoumá inovativní techniky posilování slov pro zlepšení
míry detekce takových vzácných slov v hypotézách ASR pro doménu ATC. Jsou
zkoumány dva akustické modely: hybridní model CNN-TDNNF trénovaný od nuly
a předem trénovaný model XLSR založený na wav2vec2 doladěný na společném datovém
souboru ATC. Slovo boosting se provádí třemi způsoby. Nejprve je prozkoumána
metoda přidávání slov mimo slovní zásobu. Za druhé se zkoumá G-boosting, který
upravuje jazykový model před vytvořením dekódovacího grafu. Za třetí, zesílení se
provádí za chodu během dekódování pomocí mřížkového re-scoringu. Výsledky
naznačují, že metoda G-boosting funguje nejlépe a poskytuje přibližně 30-43%
relativní zlepšení ve vybavování zesílených slov. Navíc je dosaženo relativního
zlepšení až o 48 % při kombinaci G-boostingu a mřížkového rescoringu.

Rok
2024
Strany
12652–12656
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
Mezinárodní konference o akustice řeči..., Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
EID Scopus
BibTeX
@inproceedings{BUT193355,
  author="BHATTACHARJEE, M. and NIGMATULINA, I. and PRASAD, A. and RANGAPPA, P. and MADIKERI, S. and MOTLÍČEK, P. and HELMKE, H. and KLEINERT, M.",
  title="Contextual Biasing Methods for Improving Rare Word Detection in Automatic Speech Recognition",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="12652--12656",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10447465",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10447465"
}
Soubory
Nahoru