Detail publikace

Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing

KAKOUROS, S.; STAFYLAKIS, T.; MOŠNER, L.; BURGET, L. Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing. In Proceedings of ICASSP 2023. Rhodes Island: IEEE Signal Processing Society, 2023. p. 1-5. ISBN: 978-1-7281-6327-7.
Název česky
Rozpoznávání emocí z řeči pomocí samoučících modelů s využitím attention korelací mezi kanály a vyhlazování značek
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
KAKOUROS, S.
Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
URL
Klíčová slova

emotion recognition, self-supervised features, iemocap, hubert, wavlm, wav2vec 2.0

Abstrakt

Při rozpoznávání emocí z řeči narážíme na dva běžné problémy: jak optimálně zachytit emoci relevantní informace z řečového signálu a jak nejlépe kvantifikovat nebo kategorizovat hlučné subjektivní značky emocí. Předtrénované reprezentace s vlastním dohledem mohou robustně zachytit informace z řeči, což umožňuje nejmodernější výsledky v mnoha následných úlohách, včetně rozpoznávání emocí. Je však třeba zvážit lepší způsoby agregace informací v průběhu času, protože relevantní informace o emocích se pravděpodobně objeví po kouscích a ne jednotně napříč signálem. U značek musíme vzít v úvahu, že existuje značná míra šumu, který pochází ze subjektivních lidských anotací. V tomto článku navrhujeme nový přístup k pozornému sdružování založenému na korelacích mezi koeficienty reprezentace v kombinaci s vyhlazováním značek, což je metoda, jejímž cílem je snížit spolehlivost klasifikátoru na trénovacích značkách. Vyhodnocujeme námi navržený přístup na srovnávacím datovém souboru IEMOCAP a prokazujeme vysoký výkon, který převyšuje výkon v literatuře. Kód pro reprodukci výsledků je k dispozici na github.com/skakouros/s3prl_attentive_correlation.

Rok
2023
Strany
1–5
Sborník
Proceedings of ICASSP 2023
ISBN
978-1-7281-6327-7
Vydavatel
IEEE Signal Processing Society
Místo
Rhodes Island
DOI
EID Scopus
BibTeX
@inproceedings{BUT185201,
  author="KAKOUROS, S. and STAFYLAKIS, T. and MOŠNER, L. and BURGET, L.",
  title="Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing",
  booktitle="Proceedings of ICASSP 2023",
  year="2023",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Rhodes Island",
  doi="10.1109/ICASSP49357.2023.10094673",
  isbn="978-1-7281-6327-7",
  url="https://ieeexplore.ieee.org/document/10094673"
}
Nahoru