Detail publikace
Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition
Kocour Martin, Ing. (UPGM FIT VUT)
Haider Adnan (DongU)
Mcdermott Erik (Apple)
Zhuang Xiaodan (Apple)
rozpoznávání řeči, model velkého jazyka, dekódování, zpožděná fúze
Tento článek představuje efektivní dekódovací přístup pro end-to-end automatické rozpoznávání řeči (E2E-ASR) s rozsáhlými jazykovými modely (LLM). Ačkoli je mělká fúze nejběžnějším přístupem k začlenění jazykových modelů do dekódování E2E-ASR, čelíme s LLM dvěma praktickým problémům. (1) Inference LLM je výpočetně náročná. (2) Mezi modelem ASR a LLM může existovat nesoulad ve slovní zásobě. Abychom tento nesoulad vyřešili, musíme model ASR a/nebo LLM přetrénovat, což je v nejlepším případě časově náročné a v mnoha případech neproveditelné. Navrhujeme zpožděnou fúzi, která aplikuje skóre LLM na hypotézy ASR se zpožděním během dekódování a umožňuje snadnější použití předtrénovaných LLM v úlohách ASR. Tato metoda může snížit nejen počet hypotéz skórovaných LLM, ale také počet volání inference LLM. Umožňuje také přetokenizaci hypotéz ASR během dekódování, pokud ASR a LLM používají různé tokenizace. Ukazujeme, že zpožděná fúze poskytuje vylepšenou rychlost a přesnost dekódování ve srovnání s mělkou fúzí a N-best přeskórováním s využitím korpusu LibriHeavy ASR a tří veřejných LLM, OpenLLaMA 3B a 7B a Mistral 7B.
@INPROCEEDINGS{FITPUB13523, author = "Takaaki Hori and Martin Kocour and Adnan Haider and Erik Mcdermott and Xiaodan Zhuang", title = "Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition", pages = "1--5", booktitle = "Proceedings of ICASSP 2025", year = 2025, location = "Hyderabad, IN", publisher = "IEEE Biometric Council", ISBN = "979-8-3503-6874-1", doi = "10.1109/ICASSP49660.2025.10890391", language = "english", url = "https://www.fit.vut.cz/research/publication/13523" }