Detail publikace

Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations

STAFYLAKIS, T.; MOŠNER, L.; KAKOUROS, S.; PLCHOT, O.; BURGET, L.; ČERNOCKÝ, J. Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations. In 2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023. p. 1136-1143. ISBN: 978-1-6654-7189-3.

Název česky

Extrakce informací o mluvčím a emocích ze self-supervised modelů řeči pomocí korelace po kanálech

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
KAKOUROS, S.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

Speaker identification, speaker verification, emotion recognition, self-supervised models

Abstrakt

Samostatné učení reprezentací řeči z velkého množství neoznačených dat umožnilo dosáhnout nejlepších výsledků v několika úlohách zpracování řeči. K agregaci těchto reprezentací řeči v čase se obvykle přistupuje pomocí popisné statistiky, a to zejména pomocí statistik prvního a druhého řádu koeficientů reprezentace. V tomto článku zkoumáme alternativní způsob získávání informací o mluvčím a emocích ze samoučících se natrénovaných modelů, který je založen na korelacích mezi koeficienty reprezentací - korelační sdružování. Ukazujeme zlepšení oproti průměrnému sdružování a další přínosy, když se metody sdružování kombinují prostřednictvím fúze. Kód je k dispozici na adrese github.com/Lamomal/s3prl_correlation. Translated with www.DeepL.com/Translator (free version)

Rok

2023

Strany

1136–1143

Sborník

2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings

Konference

2022 IEEE Konference o technologii mluveného jazyka (SLT), Doha, QA

ISBN

978-1-6654-7189-3

Vydavatel

IEEE Signal Processing Society

Místo

Doha

DOI

10.1109/SLT54892.2023.10023345

UT WoS

000968851900153

EID Scopus

2-s2.0-85144287715

BibTeX

@inproceedings{BUT185160,
  author="STAFYLAKIS, T. and MOŠNER, L. and KAKOUROS, S. and PLCHOT, O. and BURGET, L. and ČERNOCKÝ, J.",
  title="Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations",
  booktitle="2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
  year="2023",
  pages="1136--1143",
  publisher="IEEE Signal Processing Society",
  address="Doha",
  doi="10.1109/SLT54892.2023.10023345",
  isbn="978-1-6654-7189-3",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10023345"
}