Detail publikace
Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models
rozpoznávání řeči s nízkou latencí, spekulativní rozpoznávání řeči, jazykový
model předpony, adaptace na nízké úrovni
Tento článek se zabývá spekulativním rozpoznáváním řeči (SSR), kde zmocňujeme
konvenční automatické rozpoznávání řeči (ASR) se spekulačními schopnostmi, což
umožňuje rozpoznávači předběhnout zvuk. Zavádíme metriku pro měření výkonu SSR
a navrhujeme model, který provádí SSR kombinací systému ASR založeného na
RNN-Transducer s jazykovým modelem s audioprefixy (LM). Systém ASR přepisuje
probíhající zvuk a dodává výsledné přepisy spolu s předponou závislou na zvuku do
LM, který spekuluje o pravděpodobných dokončeních přepisů. Experimentujeme
s různými soubory dat ASR, které ukazují účinnost naší metody a proveditelnost
SSR jako metody snížení latence ASR.
@inproceedings{BUT193739,
author="YUSUF, B. and BASKAR, M. and ROSENBERG, A. and RAMABHADRAN, B.",
title="Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models",
booktitle="Proceedings of Interspeech 2024",
year="2024",
journal="Proceedings of Interspeech",
volume="2024",
number="9",
pages="792--796",
publisher="International Speech Communication Association",
address="Kos",
doi="10.21437/Interspeech.2024-298",
issn="1990-9772",
url="https://www.isca-archive.org/interspeech_2024/yusuf24_interspeech.pdf"
}