Detail publikace

Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition

HORI Takaaki, KOCOUR Martin, HAIDER Adnan, MCDERMOTT Erik a ZHUANG Xiaodan. Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition. In: Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025, s. 1-5. ISBN 979-8-3503-6874-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10890391

Název česky

Delayed Fusion: Integrace rozsáhlých jazykových modelů do prvního průchodu dekódování v end-to-end rozpoznávání řeči

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Hori Takaaki (MERL)
Kocour Martin, Ing. (UPGM FIT VUT)
Haider Adnan (DongU)
Mcdermott Erik (Apple)
Zhuang Xiaodan (Apple)

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10890391

Klíčová slova

rozpoznávání řeči, model velkého jazyka, dekódování, zpožděná fúze

Abstrakt

Tento článek představuje efektivní dekódovací přístup pro end-to-end automatické rozpoznávání řeči (E2E-ASR) s rozsáhlými jazykovými modely (LLM). Ačkoli je mělká fúze nejběžnějším přístupem k začlenění jazykových modelů do dekódování E2E-ASR, čelíme s LLM dvěma praktickým problémům. (1) Inference LLM je výpočetně náročná. (2) Mezi modelem ASR a LLM může existovat nesoulad ve slovní zásobě. Abychom tento nesoulad vyřešili, musíme model ASR a/nebo LLM přetrénovat, což je v nejlepším případě časově náročné a v mnoha případech neproveditelné. Navrhujeme zpožděnou fúzi, která aplikuje skóre LLM na hypotézy ASR se zpožděním během dekódování a umožňuje snadnější použití předtrénovaných LLM v úlohách ASR. Tato metoda může snížit nejen počet hypotéz skórovaných LLM, ale také počet volání inference LLM. Umožňuje také přetokenizaci hypotéz ASR během dekódování, pokud ASR a LLM používají různé tokenizace. Ukazujeme, že zpožděná fúze poskytuje vylepšenou rychlost a přesnost dekódování ve srovnání s mělkou fúzí a N-best přeskórováním s využitím korpusu LibriHeavy ASR a tří veřejných LLM, OpenLLaMA 3B a 7B a Mistral 7B.

Rok

2025

Strany

1-5

Sborník

Proceedings of ICASSP 2025

Konference

ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing, Hyderabad, IN

ISBN

979-8-3503-6874-1

Vydavatel

IEEE Biometric Council

Místo

Hyderabad, IN

DOI

10.1109/ICASSP49660.2025.10890391

BibTeX

@INPROCEEDINGS{FITPUB13523,
   author = "Takaaki Hori and Martin Kocour and Adnan Haider and Erik Mcdermott and Xiaodan Zhuang",
   title = "Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2025",
   year = 2025,
   location = "Hyderabad, IN",
   publisher = "IEEE Biometric Council",
   ISBN = "979-8-3503-6874-1",
   doi = "10.1109/ICASSP49660.2025.10890391",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13523"
}