Detail publikace

Analysis of impact of emotions on target speech extraction and speech separation

ŠVEC, J.; ŽMOLÍKOVÁ, K.; KOCOUR, M.; DELCROIX, M.; OCHIAI, T.; MOŠNER, L.; ČERNOCKÝ, J. Analysis of impact of emotions on target speech extraction and speech separation. In Proceedings of The 17th International Workshop on Acoustic Signal Enhancement (IWAENC 2022). Bamberg: IEEE Signal Processing Society, 2022. p. 1-5. ISBN: 978-1-6654-6867-1.
Název česky
Analýza vlivu emocí na extrakci řeči cílového mluvčího a na separaci řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

target speech extraction, SpeakerBeam, speech separation, Conv-TasNet, emotion

Abstrakt

V poslední době výkon slepé separace řeči (BSS) a cíl Extrakce řeči (TSE) značně pokročily. Většina prací, se však zaměřuje na relativně dobře kontrolované podmínky, např. čtený projev. V realističtějších situacích se může výkon zhoršit. Jedním z faktorů způsobujících takovou degradaci může být vnitřní variabilita mluvčího, jako jsou emoce, vyskytující se běžně v realistickém mluvený projev. V tomto článku zkoumáme vliv emocí na TSE a BSS. Vytváříme nový testovací datový soubor emocionálních směsí pro hodnocení TSE a BSS. Tato datová sada kombinuje LibriSpeech a Ryerson Audio-Visual Database of Emotional Speech a Song (RAVDESS). Prostřednictvím řízených experimentů můžeme analyzovat dopad různých emocí na výkon BSS a TSE. Pozorujeme, že BSS je relativně odolná vůči emocím, zatímco TSE, což vyžaduje identifikaci a extrakci řeči cíleného mluvčího, je mnohem citlivější na emoce. Na srovnávací experimenty ověření mluvčího ukazujeme, že identifikování cíleného řečníka může být zvláště náročné při jednání s emocionálními problémy mluveného projevu. Pomocí našich zjištění nastíníme potenciální budoucí směry což by mohlo zlepšit odolnost systémů BSS a TSE k emocionální řeči.

Rok
2022
Strany
1–5
Sborník
Proceedings of The 17th International Workshop on Acoustic Signal Enhancement (IWAENC 2022)
ISBN
978-1-6654-6867-1
Vydavatel
IEEE Signal Processing Society
Místo
Bamberg
DOI
UT WoS
000934046400024
EID Scopus
BibTeX
@inproceedings{BUT179868,
  author="ŠVEC, J. and ŽMOLÍKOVÁ, K. and KOCOUR, M. and DELCROIX, M. and OCHIAI, T. and MOŠNER, L. and ČERNOCKÝ, J.",
  title="Analysis of impact of emotions on target speech extraction and speech separation",
  booktitle="Proceedings of The 17th International Workshop on Acoustic Signal Enhancement (IWAENC 2022)",
  year="2022",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Bamberg",
  doi="10.1109/IWAENC53105.2022.9914718",
  isbn="978-1-6654-6867-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9914718"
}
Nahoru