Detail publikace

TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models

PENG, J.; ASHIHARA, T.; DELCROIX, M.; OCHIAI, T.; PLCHOT, O.; ARAKI, S.; ČERNOCKÝ, J. TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.
Název česky
TS-SUPERB: Sada dat a experimentů ověření zpracování řeči cílového mluvčího pomocí modelů řeči získaných samoučením
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Peng Junyi (UPGM)
ASHIHARA, T.
Delcroix Marc (FIT)
OCHIAI, T.
Plchot Oldřich, Ing., Ph.D. (UPGM)
ARAKI, S.
Černocký Jan, prof. Dr. Ing. (UPGM)
URL
Klíčová slova

Samostudium, proces mluvení cílového mluvčího, rozpoznávání řeči, vylepšení řeči,
detekce hlasové aktivity

Abstrakt

Modely samoučícího se učení (SSL) výrazně pokročily v úlohách zpracování řeči
a bylo navrženo několik benchmarků, které by ověřily jejich účinnost. Předchozí
benchmarky se však primárně zaměřovaly na scénáře s jedním mluvčím, s menším
zkoumáním úloh s cílovým mluvčím v hlučných podmínkách s více mluvčími - což je
náročnější, ale praktičtější případ. V tomto článku představujeme univerzální
benchmark výkonu zpracování řeči cílovým mluvčím (TS-SUPERB), který zahrnuje
čtyři široce uznávané úlohy zpracování řeči cílového mluvčího, které vyžadují
identifikaci cílového mluvčího a extrakci informací ze směsi řeči. V našem
benchmarku se vkládání mluvčího extrahované z řeči registrované v systému používá
jako vodítko pro podmínění následných modelů. Výsledek benchmarku odhaluje
důležitost hodnocení modelů SSL ve scénářích s cílovým mluvčím a ukazuje, že
výkon nelze snadno odvodit ze souvisejících úloh s jedním mluvčím. Navíc pomocí
jednotného cílového kodéru řeči založeného na SSL, který se skládá z kodéru
mluvčího a extrakčního modulu, zkoumáme také společnou optimalizaci napříč úkoly
TS s cílem využít vzájemné informace a demonstrovat její efektivitu.

Rok
2025
Strany
1–5
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
25. konference ICASSP 2025, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Signal Processing Society
Místo
Hyderabad
DOI
EID Scopus
BibTeX
@inproceedings{BUT198051,
  author="PENG, J. and ASHIHARA, T. and DELCROIX, M. and OCHIAI, T. and PLCHOT, O. and ARAKI, S. and ČERNOCKÝ, J.",
  title="TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2025",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10887574",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887574"
}
Soubory
Nahoru