Detail publikace
Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems
confidences measures, system fusion, end-toend systems, automatic speech recognition
End-to-end (e2e) systémy si v poslední době získaly širokou oblibu v automatickém rozpoznávání řeči. Tyto systémy však obecně neposkytují dobře kalibrované spolehlivosti na úrovni slov. V tomto článku navrhujeme Hystoc, jednoduchou metodu pro získání spolehlivosti na úrovni slov ze skóre na úrovni hypotéz. Hystoc je postup iterativního zarovnání, který mění hypotézy z n-nejlepšího výstupu systému ASR na síť zmatení. Nakonec jsou spolehlivosti na úrovni slov získány jako pozdější pravděpodobnosti v jednotlivých přihrádkách sítě zmatků. Ukázali jsme, že Hystoc poskytuje spolehlivosti, která dobře koreluje s přesností hypotézy ASR. Dále jsme ukázali, že použití Hystoc ve fúzi více systémů e2e ASR zvyšuje zisky z fúze až o 1 % WER absolutně na španělském datovém souboru RTVE2020. Nakonec experimentujeme s použitím Hystoc pro přímou fúzi n-nejlepších výstupů z více systémů, ale při fúzi velmi podobných systémů dosahujeme pouze malých zisků.
@inproceedings{BUT189696,
author="Karel {Beneš} and Martin {Kocour} and Lukáš {Burget}",
title="Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems",
booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
year="2024",
pages="11276--11280",
publisher="IEEE Signal Processing Society",
address="Seoul",
doi="10.1109/ICASSP48485.2024.10446739",
isbn="979-8-3503-4485-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446739"
}