Detail publikace

Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations

STAFYLAKIS, T.; MOŠNER, L.; KAKOUROS, S.; PLCHOT, O.; BURGET, L.; ČERNOCKÝ, J. Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations. In 2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023. p. 1136-1143. ISBN: 978-1-6654-7189-3.
Název česky
Extrakce informací o mluvčím a emocích ze self-supervised modelů řeči pomocí korelace po kanálech
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Speaker identification, speaker verification, emotion recognition, self-supervised models

Abstrakt

Samostatné učení reprezentací řeči z velkého množství neoznačených dat umožnilo dosáhnout nejlepších výsledků v několika úlohách zpracování řeči. K agregaci těchto reprezentací řeči v čase se obvykle přistupuje pomocí popisné statistiky, a to zejména pomocí statistik prvního a druhého řádu koeficientů reprezentace. V tomto článku zkoumáme alternativní způsob získávání informací o mluvčím a emocích ze samoučících se natrénovaných modelů, který je založen na korelacích mezi koeficienty reprezentací - korelační sdružování. Ukazujeme zlepšení oproti průměrnému sdružování a další přínosy, když se metody sdružování kombinují prostřednictvím fúze. Kód je k dispozici na adrese github.com/Lamomal/s3prl_correlation. Translated with www.DeepL.com/Translator (free version)

Rok
2023
Strany
1136–1143
Sborník
2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings
Konference
2022 IEEE Konference o technologii mluveného jazyka (SLT), Doha, QA
ISBN
978-1-6654-7189-3
Vydavatel
IEEE Signal Processing Society
Místo
Doha
DOI
UT WoS
000968851900153
EID Scopus
BibTeX
@inproceedings{BUT185160,
  author="STAFYLAKIS, T. and MOŠNER, L. and KAKOUROS, S. and PLCHOT, O. and BURGET, L. and ČERNOCKÝ, J.",
  title="Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations",
  booktitle="2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
  year="2023",
  pages="1136--1143",
  publisher="IEEE Signal Processing Society",
  address="Doha",
  doi="10.1109/SLT54892.2023.10023345",
  isbn="978-1-6654-7189-3",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10023345"
}
Nahoru