Detail publikace
Target Speech Extraction with Pre-Trained Self-Supervised Learning Models
Delcroix Marc (FIT)
OCHIAI, T.
Plchot Oldřich, Ing., Ph.D. (UPGM)
ARAKI, S.
Černocký Jan, prof. Dr. Ing. (UPGM)
Target speech extraction, pre-trained models, self-supervised learning, feature aggregation
Předtrénované modely samořízeného učení (SSL) dosáhly pozoruhodného úspěchu v různých řečových úlohách. Jejich potenciál v cílové extrakci řeči (TSE) však nebyl plně využit. TSE si klade za cíl extrahovat řeč cílového mluvčího ve směsi řízené zápisovými promluvami. Předtrénované modely SSL využíváme ke dvěma účelům v rámci TSE, tj. ke zpracování vstupní směsi a odvození vložení reproduktorů z registrace. V tomto článku se zaměřujeme na to, jak efektivně používat modely SSL pro TSE. Nejprve zavádíme nový downstream úkol TSE podle principů SUPERB. Tento jednoduchý experiment ukazuje potenciál modelů SSL pro TSE, ale výkon extrakce zůstává daleko za současným stavem techniky. Poté rozšiřujeme výkonnou architekturu TSE začleněním dvou modulů na bázi SSL: Adaptive Input Enhancer (AIE) a kodéru mluvčích. Konkrétně navrhovaný AIE využívá přechodné reprezentace z kodéru CNN úpravou časového rozlišení kodéru CNN a bloků transformátoru pomocí progresivního převzorkování, zachycující jak jemnozrnné, tak hierarchické rysy. Naše metoda překonává současné systémy TSE a dosahuje zlepšení SI-SDR o 14,0 dB na LibriMix. Navíc můžeme ještě zlepšit výkon o 0,7 dB jemným doladěním celého modelu včetně parametrů modelu SSL.
@inproceedings{BUT189779,
author="PENG, J. and DELCROIX, M. and OCHIAI, T. and PLCHOT, O. and ARAKI, S. and ČERNOCKÝ, J.",
title="Target Speech Extraction with Pre-Trained Self-Supervised Learning Models",
booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
year="2024",
pages="10421--10425",
publisher="IEEE Signal Processing Society",
address="Seoul",
doi="10.1109/ICASSP48485.2024.10448315",
isbn="979-8-3503-4485-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10448315"
}