Detail publikace

Target Speech Extraction with Pre-Trained Self-Supervised Learning Models

PENG, J.; DELCROIX, M.; OCHIAI, T.; PLCHOT, O.; ARAKI, S.; ČERNOCKÝ, J. Target Speech Extraction with Pre-Trained Self-Supervised Learning Models. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 10421-10425. ISBN: 979-8-3503-4485-1.
Název česky
Extrakce řeči cílového mluvčího pomocí předtrénovaných modelů získaných samoučením
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Target speech extraction, pre-trained models, self-supervised learning, feature aggregation

Abstrakt

Předtrénované modely samořízeného učení (SSL) dosáhly pozoruhodného úspěchu v různých řečových úlohách. Jejich potenciál v cílové extrakci řeči (TSE) však nebyl plně využit. TSE si klade za cíl extrahovat řeč cílového mluvčího ve směsi řízené zápisovými promluvami. Předtrénované modely SSL využíváme ke dvěma účelům v rámci TSE, tj. ke zpracování vstupní směsi a odvození vložení reproduktorů z registrace. V tomto článku se zaměřujeme na to, jak efektivně používat modely SSL pro TSE. Nejprve zavádíme nový downstream úkol TSE podle principů SUPERB. Tento jednoduchý experiment ukazuje potenciál modelů SSL pro TSE, ale výkon extrakce zůstává daleko za současným stavem techniky. Poté rozšiřujeme výkonnou architekturu TSE začleněním dvou modulů na bázi SSL: Adaptive Input Enhancer (AIE) a kodéru mluvčích. Konkrétně navrhovaný AIE využívá přechodné reprezentace z kodéru CNN úpravou časového rozlišení kodéru CNN a bloků transformátoru pomocí progresivního převzorkování, zachycující jak jemnozrnné, tak hierarchické rysy. Naše metoda překonává současné systémy TSE a dosahuje zlepšení SI-SDR o 14,0 dB na LibriMix. Navíc můžeme ještě zlepšit výkon o 0,7 dB jemným doladěním celého modelu včetně parametrů modelu SSL.

Rok
2024
Strany
10421–10425
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
BibTeX
@inproceedings{BUT189779,
  author="PENG, J. and DELCROIX, M. and OCHIAI, T. and PLCHOT, O. and ARAKI, S. and ČERNOCKÝ, J.",
  title="Target Speech Extraction with Pre-Trained Self-Supervised Learning Models",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="10421--10425",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10448315",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10448315"
}
Soubory
Nahoru