Detail publikace

Probing Self-Supervised Learning Models With Target Speech Extraction

PENG, J.; DELCROIX, M.; OCHIAI, T.; ASHIHARA, T.; PLCHOT, O.; ARAKI, S.; ČERNOCKÝ, J. Probing Self-Supervised Learning Models With Target Speech Extraction. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 535-539. ISBN: 979-8-3503-7451-3.
Název česky
Testování modelů získaných samoučením na úloze extrakce řeči cílového mluvčího
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Peng Junyi (UPGM)
Delcroix Marc
OCHIAI, T.
ASHIHARA, T.
Plchot Oldřich, Ing., Ph.D. (UPGM)
ARAKI, S.
Černocký Jan, prof. Dr. Ing. (UPGM)
URL
Klíčová slova

Target speech extraction, self-supervised learning, SUPERB

Abstrakt

Rozsáhlé pre-trained self-supervised learning (SSL) modely ukázaly pozoruhodný
pokrok v úlohách souvisejících s řečí. Využití těchto modelů ve složitých
scénářích pro více mluvčích, jako je extrahování cílového mluvčího ve směsi, však
musí být ještě plně vyhodnoceno. V tomto článku představujeme cílovou extrakci
řeči (TSE) jako nový následný úkol k vyhodnocení schopností extrakce příznaků
předem trénovaných modelů SSL. TSE jednoznačně vyžaduje jak identifikaci
mluvčího, tak separaci řeči, čímž se odlišuje od ostatních úloh při hodnocení
Universal PERformance Benchmark (SUPERB) zpracování řeči. Konkrétně navrhujeme
následný model TSE složený ze dvou odlehčených modulů orientovaných na úkoly
založené na stejném zmrazeném modelu SSL. Jeden modul funguje jako kodér mluvčího
pro získávání informací o cílovém mluvčím z promluvy při zápisu, zatímco druhý
modul odhaduje masku cílového mluvčího pro extrahování jeho řeči ze směsi.
Experimentální výsledky na souborech dat Libri2mix odhalují relevanci úlohy TSE
downstream pro testování modelů SSL, protože její výkon nelze jednoduše odvodit
z jiných souvisejících úloh, jako je verifikace a separace mluvčích.

Rok
2024
Strany
535–539
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
Mezinárodní konference o akustice řeči..., Seoul, KR
ISBN
979-8-3503-7451-3
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
EID Scopus
BibTeX
@inproceedings{BUT189780,
  author="PENG, J. and DELCROIX, M. and OCHIAI, T. and ASHIHARA, T. and PLCHOT, O. and ARAKI, S. and ČERNOCKÝ, J.",
  title="Probing Self-Supervised Learning Models With Target Speech Extraction",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="535--539",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSPW62465.2024.10627502",
  isbn="979-8-3503-7451-3",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10627502"
}
Soubory
Nahoru