Detail publikace

TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models

PENG Junyi, ASHIHARA Takanori, DELCROIX Marc, OCHIAI Tsubasa, PLCHOT Oldřich, ARAKI Shoko a ČERNOCKÝ Jan. TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models. In: Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025, s. 1-5. ISBN 979-8-3503-6874-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887574
Název česky
TS-SUPERB: Sada dat a experimentů ověření zpracování řeči cílového mluvčího pomocí modelů řeči získaných samoučením
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Ashihara Takanori (NTT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Araki Shoko (NTT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Klíčová slova

Samostudium, proces mluvení cílového mluvčího, rozpoznávání řeči, vylepšení řeči, detekce hlasové aktivity

Abstrakt

Modely samoučícího se učení (SSL) výrazně pokročily v úlohách zpracování řeči a bylo navrženo několik benchmarků, které by ověřily jejich účinnost. Předchozí benchmarky se však primárně zaměřovaly na scénáře s jedním mluvčím, s menším zkoumáním úloh s cílovým mluvčím v hlučných podmínkách s více mluvčími - což je náročnější, ale praktičtější případ. V tomto článku představujeme univerzální benchmark výkonu zpracování řeči cílovým mluvčím (TS-SUPERB), který zahrnuje čtyři široce uznávané úlohy zpracování řeči cílového mluvčího, které vyžadují identifikaci cílového mluvčího a extrakci informací ze směsi řeči. V našem benchmarku se vkládání mluvčího extrahované z řeči registrované v systému používá jako vodítko pro podmínění následných modelů. Výsledek benchmarku odhaluje důležitost hodnocení modelů SSL ve scénářích s cílovým mluvčím a ukazuje, že výkon nelze snadno odvodit ze souvisejících úloh s jedním mluvčím. Navíc pomocí jednotného cílového kodéru řeči založeného na SSL, který se skládá z kodéru mluvčího a extrakčního modulu, zkoumáme také společnou optimalizaci napříč úkoly TS s cílem využít vzájemné informace a demonstrovat její efektivitu.

Rok
2025
Strany
1-5
Sborník
Proceedings of ICASSP 2025
Konference
ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Biometric Council
Místo
Hyderabad, IN
DOI
BibTeX
@INPROCEEDINGS{FITPUB13522,
   author = "Junyi Peng and Takanori Ashihara and Marc Delcroix and Tsubasa Ochiai and Old\v{r}ich Plchot and Shoko Araki and Jan \v{C}ernock\'{y}",
   title = "TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2025",
   year = 2025,
   location = "Hyderabad, IN",
   publisher = "IEEE Biometric Council",
   ISBN = "979-8-3503-6874-1",
   doi = "10.1109/ICASSP49660.2025.10887574",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13522"
}
Nahoru