Detail publikace

Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks

VILLATORO-TELLO, E.; MADIKERI, S.; ZULUAGA-GOMEZ, J.; SHARMA, B.; SARFJOO, S.; NIGMATULINA, I.; MOTLÍČEK, P.; IVANOV, V.; GANAPATHIRAJU, A. Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Rhodes Island: IEEE Signal Processing Society, 2023. p. 1-5. ISBN: 978-1-7281-6327-7.

Název česky

Efektivita textové, akustické a mřížkové reprezentace v úlohách porozumění mluvené řeči

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

VILLATORO-TELLO, E.
Madikeri Srikanth (FIT)
ZULUAGA-GOMEZ, J.
SHARMA, B.
Sarfjoo Seyyed Saeed
NIGMATULINA, I.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
IVANOV, V.
GANAPATHIRAJU, A.

URL

Klíčová slova

Speech Recognition, Human-computer Interaction, Spoken Language Understanding, Word Consensus Networks, Cross-modal Attention

Abstrakt

V tomto článku provádíme vyčerpávající hodnocení různých reprezentací, abychom se vypořádali s problémem klasifikace záměrů v nastavení porozumění mluvené řeči (SLU). Pro provádění úlohy detekce záměru SLU srovnáváme tři typy systémů: 1) textový, 2) mřížkový a nový 3) multimodální přístup. Naše práce poskytuje komplexní analýzu toho, jaký by mohl být dosažitelný výkon různých nejmodernějších systémů SLU za různých okolností, např. automaticky vs. ručně generované přepisy. Systémy hodnotíme na veřejně dostupném korpusu zdrojů mluveného jazyka SLURP. Naše výsledky ukazují, že použití bohatších forem výstupů automatického rozpoznávání řeči (ASR), jmenovitě word-consensus-networks, umožňuje systému SLU zlepšit se ve srovnání s 1-nejlepším nastavením (5,5% relativní zlepšení). Nicméně, crossmodální přístupy, tj. učení z akustického a textového vkládání, dosahují výkonu podobnému nastavení oracle, relativní zlepšení o 17,8 % oproti 1-nejlepší konfiguraci, což je doporučená alternativa k překonání omezení práce s automaticky generovanými přepisy.

Rok

2023

Strany

1–5

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

ISBN

978-1-7281-6327-7

Vydavatel

IEEE Signal Processing Society

Místo

Rhodes Island

DOI

10.1109/ICASSP49357.2023.10095168

EID Scopus

2-s2.0-85177587537

BibTeX

@inproceedings{BUT187787,
  author="VILLATORO-TELLO, E. and MADIKERI, S. and ZULUAGA-GOMEZ, J. and SHARMA, B. and SARFJOO, S. and NIGMATULINA, I. and MOTLÍČEK, P. and IVANOV, V. and GANAPATHIRAJU, A.",
  title="Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2023",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Rhodes Island",
  doi="10.1109/ICASSP49357.2023.10095168",
  isbn="978-1-7281-6327-7",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10095168"
}