Detail publikace

Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems

BENEŠ, K.; KOCOUR, M.; BURGET, L. Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11276-11280. ISBN: 979-8-3503-4485-1.
Název česky
Hystoc: Generování konfidencí slov pro fúzi end-to-end systémů ASR
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

confidences measures, system fusion, end-toend systems, automatic speech recognition

Abstrakt

End-to-end (e2e) systémy si v poslední době získaly širokou oblibu v automatickém rozpoznávání řeči. Tyto systémy však obecně neposkytují dobře kalibrované spolehlivosti na úrovni slov. V tomto článku navrhujeme Hystoc, jednoduchou metodu pro získání spolehlivosti na úrovni slov ze skóre na úrovni hypotéz. Hystoc je postup iterativního zarovnání, který mění hypotézy z n-nejlepšího výstupu systému ASR na síť zmatení. Nakonec jsou spolehlivosti na úrovni slov získány jako pozdější pravděpodobnosti v jednotlivých přihrádkách sítě zmatků. Ukázali jsme, že Hystoc poskytuje spolehlivosti, která dobře koreluje s přesností hypotézy ASR. Dále jsme ukázali, že použití Hystoc ve fúzi více systémů e2e ASR zvyšuje zisky z fúze až o 1 % WER absolutně na španělském datovém souboru RTVE2020. Nakonec experimentujeme s použitím Hystoc pro přímou fúzi n-nejlepších výstupů z více systémů, ale při fúzi velmi podobných systémů dosahujeme pouze malých zisků.

Rok
2024
Strany
11276–11280
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
EID Scopus
BibTeX
@inproceedings{BUT189696,
  author="Karel {Beneš} and Martin {Kocour} and Lukáš {Burget}",
  title="Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11276--11280",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446739",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446739"
}
Nahoru