Detail publikace
TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models
Ashihara Takanori (NTT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Araki Shoko (NTT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Samostudium, proces mluvení cílového mluvčího, rozpoznávání řeči, vylepšení řeči, detekce hlasové aktivity
Modely samoučícího se učení (SSL) výrazně pokročily v úlohách zpracování řeči a bylo navrženo několik benchmarků, které by ověřily jejich účinnost. Předchozí benchmarky se však primárně zaměřovaly na scénáře s jedním mluvčím, s menším zkoumáním úloh s cílovým mluvčím v hlučných podmínkách s více mluvčími - což je náročnější, ale praktičtější případ. V tomto článku představujeme univerzální benchmark výkonu zpracování řeči cílovým mluvčím (TS-SUPERB), který zahrnuje čtyři široce uznávané úlohy zpracování řeči cílového mluvčího, které vyžadují identifikaci cílového mluvčího a extrakci informací ze směsi řeči. V našem benchmarku se vkládání mluvčího extrahované z řeči registrované v systému používá jako vodítko pro podmínění následných modelů. Výsledek benchmarku odhaluje důležitost hodnocení modelů SSL ve scénářích s cílovým mluvčím a ukazuje, že výkon nelze snadno odvodit ze souvisejících úloh s jedním mluvčím. Navíc pomocí jednotného cílového kodéru řeči založeného na SSL, který se skládá z kodéru mluvčího a extrakčního modulu, zkoumáme také společnou optimalizaci napříč úkoly TS s cílem využít vzájemné informace a demonstrovat její efektivitu.
@INPROCEEDINGS{FITPUB13522, author = "Junyi Peng and Takanori Ashihara and Marc Delcroix and Tsubasa Ochiai and Old\v{r}ich Plchot and Shoko Araki and Jan \v{C}ernock\'{y}", title = "TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models", pages = "1--5", booktitle = "Proceedings of ICASSP 2025", year = 2025, location = "Hyderabad, IN", publisher = "IEEE Biometric Council", ISBN = "979-8-3503-6874-1", doi = "10.1109/ICASSP49660.2025.10887574", language = "english", url = "https://www.fit.vut.cz/research/publication/13522" }