Detail publikace

Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems

BENEŠ, K.; KOCOUR, M.; BURGET, L. Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11276-11280. ISBN: 979-8-3503-4485-1.

Název česky

Hystoc: Generování konfidencí slov pro fúzi end-to-end systémů ASR

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Beneš Karel, Ing. (UPGM)
Kocour Martin, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446739

Klíčová slova

confidences measures, system fusion, end-toend systems, automatic speech recognition

Abstrakt

End-to-end (e2e) systémy si v poslední době získaly širokou oblibu v automatickém rozpoznávání řeči. Tyto systémy však obecně neposkytují dobře kalibrované spolehlivosti na úrovni slov. V tomto článku navrhujeme Hystoc, jednoduchou metodu pro získání spolehlivosti na úrovni slov ze skóre na úrovni hypotéz. Hystoc je postup iterativního zarovnání, který mění hypotézy z n-nejlepšího výstupu systému ASR na síť zmatení. Nakonec jsou spolehlivosti na úrovni slov získány jako pozdější pravděpodobnosti v jednotlivých přihrádkách sítě zmatků. Ukázali jsme, že Hystoc poskytuje spolehlivosti, která dobře koreluje s přesností hypotézy ASR. Dále jsme ukázali, že použití Hystoc ve fúzi více systémů e2e ASR zvyšuje zisky z fúze až o 1 % WER absolutně na španělském datovém souboru RTVE2020. Nakonec experimentujeme s použitím Hystoc pro přímou fúzi n-nejlepších výstupů z více systémů, ale při fúzi velmi podobných systémů dosahujeme pouze malých zisků.

Rok

2024

Strany

11276–11280

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

ISBN

979-8-3503-4485-1

Vydavatel

IEEE Signal Processing Society

Místo

Seoul

DOI

10.1109/ICASSP48485.2024.10446739

EID Scopus

2-s2.0-85195423309

BibTeX

@inproceedings{BUT189696,
  author="Karel {Beneš} and Martin {Kocour} and Lukáš {Burget}",
  title="Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11276--11280",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446739",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446739"
}