Detail publikace

TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models

PENG Junyi, ASHIHARA Takanori, DELCROIX Marc, OCHIAI Tsubasa, PLCHOT Oldřich, ARAKI Shoko a ČERNOCKÝ Jan. TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models. In: Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025, s. 1-5. ISBN 979-8-3503-6874-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887574

Název česky

TS-SUPERB: Sada dat a experimentů ověření zpracování řeči cílového mluvčího pomocí modelů řeči získaných samoučením

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Ashihara Takanori (NTT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Araki Shoko (NTT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887574

Klíčová slova

Samostudium, proces mluvení cílového mluvčího, rozpoznávání řeči, vylepšení řeči, detekce hlasové aktivity

Abstrakt

Modely samoučícího se učení (SSL) výrazně pokročily v úlohách zpracování řeči a bylo navrženo několik benchmarků, které by ověřily jejich účinnost. Předchozí benchmarky se však primárně zaměřovaly na scénáře s jedním mluvčím, s menším zkoumáním úloh s cílovým mluvčím v hlučných podmínkách s více mluvčími - což je náročnější, ale praktičtější případ. V tomto článku představujeme univerzální benchmark výkonu zpracování řeči cílovým mluvčím (TS-SUPERB), který zahrnuje čtyři široce uznávané úlohy zpracování řeči cílového mluvčího, které vyžadují identifikaci cílového mluvčího a extrakci informací ze směsi řeči. V našem benchmarku se vkládání mluvčího extrahované z řeči registrované v systému používá jako vodítko pro podmínění následných modelů. Výsledek benchmarku odhaluje důležitost hodnocení modelů SSL ve scénářích s cílovým mluvčím a ukazuje, že výkon nelze snadno odvodit ze souvisejících úloh s jedním mluvčím. Navíc pomocí jednotného cílového kodéru řeči založeného na SSL, který se skládá z kodéru mluvčího a extrakčního modulu, zkoumáme také společnou optimalizaci napříč úkoly TS s cílem využít vzájemné informace a demonstrovat její efektivitu.

Rok

2025

Strany

1-5

Sborník

Proceedings of ICASSP 2025

Konference

ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing, Hyderabad, IN

ISBN

979-8-3503-6874-1

Vydavatel

IEEE Biometric Council

Místo

Hyderabad, IN

DOI

10.1109/ICASSP49660.2025.10887574

BibTeX

@INPROCEEDINGS{FITPUB13522,
   author = "Junyi Peng and Takanori Ashihara and Marc Delcroix and Tsubasa Ochiai and Old\v{r}ich Plchot and Shoko Araki and Jan \v{C}ernock\'{y}",
   title = "TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2025",
   year = 2025,
   location = "Hyderabad, IN",
   publisher = "IEEE Biometric Council",
   ISBN = "979-8-3503-6874-1",
   doi = "10.1109/ICASSP49660.2025.10887574",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13522"
}