Detail publikace

Target Speech Extraction with Pre-Trained Self-Supervised Learning Models

PENG Junyi, DELCROIX Marc, OCHIAI Tsubasa, PLCHOT Oldřich, ARAKI Shoko a ČERNOCKÝ Jan. Target Speech Extraction with Pre-Trained Self-Supervised Learning Models. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024, s. 10421-10425. ISBN 979-8-3503-4485-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10448315
Název česky
Extrakce řeči cílového mluvčího pomocí předtrénovaných modelů získaných samoučením
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Araki Shoko (NTT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Předtrénované modely samořízeného učení (SSL) dosáhly pozoruhodného úspěchu v různých řečových úlohách. Jejich potenciál v cílové extrakci řeči (TSE) však nebyl plně využit. TSE si klade za cíl extrahovat řeč cílového mluvčího ve směsi řízené zápisovými promluvami. Předtrénované modely SSL využíváme ke dvěma účelům v rámci TSE, tj. ke zpracování vstupní směsi a odvození vložení reproduktorů z registrace. V tomto článku se zaměřujeme na to, jak efektivně používat modely SSL pro TSE. Nejprve zavádíme nový downstream úkol TSE podle principů SUPERB. Tento jednoduchý experiment ukazuje potenciál modelů SSL pro TSE, ale výkon extrakce zůstává daleko za současným stavem techniky. Poté rozšiřujeme výkonnou architekturu TSE začleněním dvou modulů na bázi SSL: Adaptive Input Enhancer (AIE) a kodéru mluvčích. Konkrétně navrhovaný AIE využívá přechodné reprezentace z kodéru CNN úpravou časového rozlišení kodéru CNN a bloků transformátoru pomocí progresivního převzorkování, zachycující jak jemnozrnné, tak hierarchické rysy. Naše metoda překonává současné systémy TSE a dosahuje zlepšení SI-SDR o 14,0 dB na LibriMix. Navíc můžeme ještě zlepšit výkon o 0,7 dB jemným doladěním celého modelu včetně parametrů modelu SSL.

Rok
2024
Strany
10421-10425
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2024 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul, KR
DOI
BibTeX
@INPROCEEDINGS{FITPUB13275,
   author = "Junyi Peng and Marc Delcroix and Tsubasa Ochiai and Old\v{r}ich Plchot and Shoko Araki and Jan \v{C}ernock\'{y}",
   title = "Target Speech Extraction with Pre-Trained Self-Supervised Learning Models",
   pages = "10421--10425",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2024,
   location = "Seoul, KR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "979-8-3503-4485-1",
   doi = "10.1109/ICASSP48485.2024.10448315",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13275"
}
Nahoru