Detail publikace
Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing
emotion recognition, self-supervised features, iemocap, hubert, wavlm, wav2vec 2.0
Při rozpoznávání emocí z řeči narážíme na dva běžné problémy: jak optimálně zachytit emoci relevantní informace z řečového signálu a jak nejlépe kvantifikovat nebo kategorizovat hlučné subjektivní značky emocí. Předtrénované reprezentace s vlastním dohledem mohou robustně zachytit informace z řeči, což umožňuje nejmodernější výsledky v mnoha následných úlohách, včetně rozpoznávání emocí. Je však třeba zvážit lepší způsoby agregace informací v průběhu času, protože relevantní informace o emocích se pravděpodobně objeví po kouscích a ne jednotně napříč signálem. U značek musíme vzít v úvahu, že existuje značná míra šumu, který pochází ze subjektivních lidských anotací. V tomto článku navrhujeme nový přístup k pozornému sdružování založenému na korelacích mezi koeficienty reprezentace v kombinaci s vyhlazováním značek, což je metoda, jejímž cílem je snížit spolehlivost klasifikátoru na trénovacích značkách. Vyhodnocujeme námi navržený přístup na srovnávacím datovém souboru IEMOCAP a prokazujeme vysoký výkon, který převyšuje výkon v literatuře. Kód pro reprodukci výsledků je k dispozici na github.com/skakouros/s3prl_attentive_correlation.
@inproceedings{BUT185201,
author="KAKOUROS, S. and STAFYLAKIS, T. and MOŠNER, L. and BURGET, L.",
title="Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing",
booktitle="Proceedings of ICASSP 2023",
year="2023",
pages="1--5",
publisher="IEEE Signal Processing Society",
address="Rhodes Island",
doi="10.1109/ICASSP49357.2023.10094673",
isbn="978-1-7281-6327-7",
url="https://ieeexplore.ieee.org/document/10094673"
}