Detail publikace

Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition

HORI Takaaki, KOCOUR Martin, HAIDER Adnan, MCDERMOTT Erik a ZHUANG Xiaodan. Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition. In: Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025, s. 1-5. ISBN 979-8-3503-6874-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10890391
Název česky
Delayed Fusion: Integrace rozsáhlých jazykových modelů do prvního průchodu dekódování v end-to-end rozpoznávání řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Hori Takaaki (MERL)
Kocour Martin, Ing. (UPGM FIT VUT)
Haider Adnan (DongU)
Mcdermott Erik (Apple)
Zhuang Xiaodan (Apple)
URL
Klíčová slova

rozpoznávání řeči, model velkého jazyka, dekódování, zpožděná fúze

Abstrakt

Tento článek představuje efektivní dekódovací přístup pro end-to-end automatické rozpoznávání řeči (E2E-ASR) s rozsáhlými jazykovými modely (LLM). Ačkoli je mělká fúze nejběžnějším přístupem k začlenění jazykových modelů do dekódování E2E-ASR, čelíme s LLM dvěma praktickým problémům. (1) Inference LLM je výpočetně náročná. (2) Mezi modelem ASR a LLM může existovat nesoulad ve slovní zásobě. Abychom tento nesoulad vyřešili, musíme model ASR a/nebo LLM přetrénovat, což je v nejlepším případě časově náročné a v mnoha případech neproveditelné. Navrhujeme zpožděnou fúzi, která aplikuje skóre LLM na hypotézy ASR se zpožděním během dekódování a umožňuje snadnější použití předtrénovaných LLM v úlohách ASR. Tato metoda může snížit nejen počet hypotéz skórovaných LLM, ale také počet volání inference LLM. Umožňuje také přetokenizaci hypotéz ASR během dekódování, pokud ASR a LLM používají různé tokenizace. Ukazujeme, že zpožděná fúze poskytuje vylepšenou rychlost a přesnost dekódování ve srovnání s mělkou fúzí a N-best přeskórováním s využitím korpusu LibriHeavy ASR a tří veřejných LLM, OpenLLaMA 3B a 7B a Mistral 7B.

Rok
2025
Strany
1-5
Sborník
Proceedings of ICASSP 2025
Konference
ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Biometric Council
Místo
Hyderabad, IN
DOI
BibTeX
@INPROCEEDINGS{FITPUB13523,
   author = "Takaaki Hori and Martin Kocour and Adnan Haider and Erik Mcdermott and Xiaodan Zhuang",
   title = "Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2025",
   year = 2025,
   location = "Hyderabad, IN",
   publisher = "IEEE Biometric Council",
   ISBN = "979-8-3503-6874-1",
   doi = "10.1109/ICASSP49660.2025.10890391",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13523"
}
Nahoru