Detail publikace

Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing

KAKOUROS, S.; STAFYLAKIS, T.; MOŠNER, L.; BURGET, L. Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing. In Proceedings of ICASSP 2023. Rhodes Island: IEEE Signal Processing Society, 2023. p. 1-5. ISBN: 978-1-7281-6327-7.

Název česky

Rozpoznávání emocí z řeči pomocí samoučících modelů s využitím attention korelací mezi kanály a vyhlazování značek

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

KAKOUROS, S.
Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

Klíčová slova

emotion recognition, self-supervised features, iemocap, hubert, wavlm, wav2vec 2.0

Abstrakt

Při rozpoznávání emocí z řeči narážíme na dva běžné problémy: jak optimálně zachytit emoci relevantní informace z řečového signálu a jak nejlépe kvantifikovat nebo kategorizovat hlučné subjektivní značky emocí. Předtrénované reprezentace s vlastním dohledem mohou robustně zachytit informace z řeči, což umožňuje nejmodernější výsledky v mnoha následných úlohách, včetně rozpoznávání emocí. Je však třeba zvážit lepší způsoby agregace informací v průběhu času, protože relevantní informace o emocích se pravděpodobně objeví po kouscích a ne jednotně napříč signálem. U značek musíme vzít v úvahu, že existuje značná míra šumu, který pochází ze subjektivních lidských anotací. V tomto článku navrhujeme nový přístup k pozornému sdružování založenému na korelacích mezi koeficienty reprezentace v kombinaci s vyhlazováním značek, což je metoda, jejímž cílem je snížit spolehlivost klasifikátoru na trénovacích značkách. Vyhodnocujeme námi navržený přístup na srovnávacím datovém souboru IEMOCAP a prokazujeme vysoký výkon, který převyšuje výkon v literatuře. Kód pro reprodukci výsledků je k dispozici na github.com/skakouros/s3prl_attentive_correlation.

Rok

2023

Strany

1–5

Sborník

Proceedings of ICASSP 2023

ISBN

978-1-7281-6327-7

Vydavatel

IEEE Signal Processing Society

Místo

Rhodes Island

DOI

10.1109/ICASSP49357.2023.10094673

EID Scopus

2-s2.0-85171251163

BibTeX

@inproceedings{BUT185201,
  author="KAKOUROS, S. and STAFYLAKIS, T. and MOŠNER, L. and BURGET, L.",
  title="Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing",
  booktitle="Proceedings of ICASSP 2023",
  year="2023",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Rhodes Island",
  doi="10.1109/ICASSP49357.2023.10094673",
  isbn="978-1-7281-6327-7",
  url="https://ieeexplore.ieee.org/document/10094673"
}