Detail publikace
Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations
Mošner Ladislav, Ing. (UPGM)
KAKOUROS, S.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Speaker identification, speaker verification, emotion recognition, self-supervised models
Samostatné učení reprezentací řeči z velkého množství neoznačených dat umožnilo dosáhnout nejlepších výsledků v několika úlohách zpracování řeči. K agregaci těchto reprezentací řeči v čase se obvykle přistupuje pomocí popisné statistiky, a to zejména pomocí statistik prvního a druhého řádu koeficientů reprezentace. V tomto článku zkoumáme alternativní způsob získávání informací o mluvčím a emocích ze samoučících se natrénovaných modelů, který je založen na korelacích mezi koeficienty reprezentací - korelační sdružování. Ukazujeme zlepšení oproti průměrnému sdružování a další přínosy, když se metody sdružování kombinují prostřednictvím fúze. Kód je k dispozici na adrese github.com/Lamomal/s3prl_correlation. Translated with www.DeepL.com/Translator (free version)
@inproceedings{BUT185160,
author="STAFYLAKIS, T. and MOŠNER, L. and KAKOUROS, S. and PLCHOT, O. and BURGET, L. and ČERNOCKÝ, J.",
title="Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations",
booktitle="2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
year="2023",
pages="1136--1143",
publisher="IEEE Signal Processing Society",
address="Doha",
doi="10.1109/SLT54892.2023.10023345",
isbn="978-1-6654-7189-3",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10023345"
}