Detail publikace

Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks

VILLATORO-TELLO, E.; MADIKERI, S.; ZULUAGA-GOMEZ, J.; SHARMA, B.; SARFJOO, S.; NIGMATULINA, I.; MOTLÍČEK, P.; IVANOV, V.; GANAPATHIRAJU, A. Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Rhodes Island: IEEE Signal Processing Society, 2023. p. 1-5. ISBN: 978-1-7281-6327-7.
Název česky
Efektivita textové, akustické a mřížkové reprezentace v úlohách porozumění mluvené řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
VILLATORO-TELLO, E.
Madikeri Srikanth (FIT)
ZULUAGA-GOMEZ, J.
SHARMA, B.
Sarfjoo Seyyed Saeed
NIGMATULINA, I.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
IVANOV, V.
GANAPATHIRAJU, A.
URL
Klíčová slova

Speech Recognition, Human-computer Interaction, Spoken Language Understanding, Word Consensus Networks, Cross-modal Attention

Abstrakt

V tomto článku provádíme vyčerpávající hodnocení různých reprezentací, abychom se vypořádali s problémem klasifikace záměrů v nastavení porozumění mluvené řeči (SLU). Pro provádění úlohy detekce záměru SLU srovnáváme tři typy systémů: 1) textový, 2) mřížkový a nový 3) multimodální přístup. Naše práce poskytuje komplexní analýzu toho, jaký by mohl být dosažitelný výkon různých nejmodernějších systémů SLU za různých okolností, např. automaticky vs. ručně generované přepisy. Systémy hodnotíme na veřejně dostupném korpusu zdrojů mluveného jazyka SLURP. Naše výsledky ukazují, že použití bohatších forem výstupů automatického rozpoznávání řeči (ASR), jmenovitě word-consensus-networks, umožňuje systému SLU zlepšit se ve srovnání s 1-nejlepším nastavením (5,5% relativní zlepšení). Nicméně, crossmodální přístupy, tj. učení z akustického a textového vkládání, dosahují výkonu podobnému nastavení oracle, relativní zlepšení o 17,8 % oproti 1-nejlepší konfiguraci, což je doporučená alternativa k překonání omezení práce s automaticky generovanými přepisy.

Rok
2023
Strany
1–5
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
978-1-7281-6327-7
Vydavatel
IEEE Signal Processing Society
Místo
Rhodes Island
DOI
EID Scopus
BibTeX
@inproceedings{BUT187787,
  author="VILLATORO-TELLO, E. and MADIKERI, S. and ZULUAGA-GOMEZ, J. and SHARMA, B. and SARFJOO, S. and NIGMATULINA, I. and MOTLÍČEK, P. and IVANOV, V. and GANAPATHIRAJU, A.",
  title="Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2023",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Rhodes Island",
  doi="10.1109/ICASSP49357.2023.10095168",
  isbn="978-1-7281-6327-7",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10095168"
}
Nahoru