Detail publikace

Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models

YUSUF, B.; BASKAR, M.; ROSENBERG, A.; RAMABHADRAN, B. Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models. In Proceedings of Interspeech 2024. Proceedings of Interspeech. Kos: International Speech Communication Association, 2024. p. 792-796. ISSN: 1990-9772.
Název česky
Spekulativní rozpoznávání řeči pomocí low-rank adaptace jazykových modelů prefixovanch audiem
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Yusuf Bolaji (UPGM)
BASKAR, M.
Rosenberg Andrew
Ramabhadran Bhuvana
URL
Klíčová slova

rozpoznávání řeči s nízkou latencí, spekulativní rozpoznávání řeči, jazykový
model předpony, adaptace na nízké úrovni

Abstrakt

Tento článek se zabývá spekulativním rozpoznáváním řeči (SSR), kde zmocňujeme
konvenční automatické rozpoznávání řeči (ASR) se spekulačními schopnostmi, což
umožňuje rozpoznávači předběhnout zvuk. Zavádíme metriku pro měření výkonu SSR
a navrhujeme model, který provádí SSR kombinací systému ASR založeného na
RNN-Transducer s jazykovým modelem s audioprefixy (LM). Systém ASR přepisuje
probíhající zvuk a dodává výsledné přepisy spolu s předponou závislou na zvuku do
LM, který spekuluje o pravděpodobných dokončeních přepisů. Experimentujeme
s různými soubory dat ASR, které ukazují účinnost naší metody a proveditelnost
SSR jako metody snížení latence ASR.

Rok
2024
Strany
792–796
Časopis
Proceedings of Interspeech, roč. 2024, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2024
Konference
Interspeech Conference, Kos, GR
Vydavatel
International Speech Communication Association
Místo
Kos
DOI
EID Scopus
BibTeX
@inproceedings{BUT193739,
  author="YUSUF, B. and BASKAR, M. and ROSENBERG, A. and RAMABHADRAN, B.",
  title="Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models",
  booktitle="Proceedings of Interspeech 2024",
  year="2024",
  journal="Proceedings of Interspeech",
  volume="2024",
  number="9",
  pages="792--796",
  publisher="International Speech Communication Association",
  address="Kos",
  doi="10.21437/Interspeech.2024-298",
  issn="1990-9772",
  url="https://www.isca-archive.org/interspeech_2024/yusuf24_interspeech.pdf"
}
Soubory
Nahoru