Detail publikace
Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks
Madikeri Srikanth (IDIAP)
Zuluaga-Gomez Juan (IDIAP)
Sharma Bidisha ()
Sarfjoo Seyyed Saeed (IDIAP)
Nigmatulina Iuliia (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Ivanov Alexei V. ()
Ganapathiraju Aravind ()
V tomto článku provádíme vyčerpávající hodnocení různých reprezentací, abychom se vypořádali s problémem klasifikace záměrů v nastavení porozumění mluvené řeči (SLU). Pro provádění úlohy detekce záměru SLU srovnáváme tři typy systémů: 1) textový, 2) mřížkový a nový 3) multimodální přístup. Naše práce poskytuje komplexní analýzu toho, jaký by mohl být dosažitelný výkon různých nejmodernějších systémů SLU za různých okolností, např. automaticky vs. ručně generované přepisy. Systémy hodnotíme na veřejně dostupném korpusu zdrojů mluveného jazyka SLURP. Naše výsledky ukazují, že použití bohatších forem výstupů automatického rozpoznávání řeči (ASR), jmenovitě word-consensus-networks, umožňuje systému SLU zlepšit se ve srovnání s 1-nejlepším nastavením (5,5% relativní zlepšení). Nicméně, crossmodální přístupy, tj. učení z akustického a textového vkládání, dosahují výkonu podobnému nastavení oracle, relativní zlepšení o 17,8 % oproti 1-nejlepší konfiguraci, což je doporučená alternativa k překonání omezení práce s automaticky generovanými přepisy.
@INPROCEEDINGS{FITPUB13158, author = "Esa\'{u} Villatoro-tello and Srikanth Madikeri and Juan Zuluaga-Gomez and Bidisha Sharma and Saeed Seyyed Sarfjoo and Iuliia Nigmatulina and Petr Motl\'{i}\v{c}ek and V. Alexei Ivanov and Aravind Ganapathiraju", title = "Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks", pages = "1--5", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2023, location = "Rhodes Island, GR", publisher = "IEEE Signal Processing Society", ISBN = "978-1-7281-6327-7", doi = "10.1109/ICASSP49357.2023.10095168", language = "english", url = "https://www.fit.vut.cz/research/publication/13158" }