Detail publikace

Target Speech Extraction with Pre-Trained Self-Supervised Learning Models

PENG, J.; DELCROIX, M.; OCHIAI, T.; PLCHOT, O.; ARAKI, S.; ČERNOCKÝ, J. Target Speech Extraction with Pre-Trained Self-Supervised Learning Models. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 10421-10425. ISBN: 979-8-3503-4485-1.

Název česky

Extrakce řeči cílového mluvčího pomocí předtrénovaných modelů získaných samoučením

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Peng Junyi (UPGM)
Delcroix Marc (FIT)
OCHIAI, T.
Plchot Oldřich, Ing., Ph.D. (UPGM)
ARAKI, S.
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

Target speech extraction, pre-trained models, self-supervised learning, feature aggregation

Abstrakt

Předtrénované modely samořízeného učení (SSL) dosáhly pozoruhodného úspěchu v různých řečových úlohách. Jejich potenciál v cílové extrakci řeči (TSE) však nebyl plně využit. TSE si klade za cíl extrahovat řeč cílového mluvčího ve směsi řízené zápisovými promluvami. Předtrénované modely SSL využíváme ke dvěma účelům v rámci TSE, tj. ke zpracování vstupní směsi a odvození vložení reproduktorů z registrace. V tomto článku se zaměřujeme na to, jak efektivně používat modely SSL pro TSE. Nejprve zavádíme nový downstream úkol TSE podle principů SUPERB. Tento jednoduchý experiment ukazuje potenciál modelů SSL pro TSE, ale výkon extrakce zůstává daleko za současným stavem techniky. Poté rozšiřujeme výkonnou architekturu TSE začleněním dvou modulů na bázi SSL: Adaptive Input Enhancer (AIE) a kodéru mluvčích. Konkrétně navrhovaný AIE využívá přechodné reprezentace z kodéru CNN úpravou časového rozlišení kodéru CNN a bloků transformátoru pomocí progresivního převzorkování, zachycující jak jemnozrnné, tak hierarchické rysy. Naše metoda překonává současné systémy TSE a dosahuje zlepšení SI-SDR o 14,0 dB na LibriMix. Navíc můžeme ještě zlepšit výkon o 0,7 dB jemným doladěním celého modelu včetně parametrů modelu SSL.

Rok

2024

Strany

10421–10425

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

ISBN

979-8-3503-4485-1

Vydavatel

IEEE Signal Processing Society

Místo

Seoul

DOI

10.1109/ICASSP48485.2024.10448315

BibTeX

@inproceedings{BUT189779,
  author="PENG, J. and DELCROIX, M. and OCHIAI, T. and PLCHOT, O. and ARAKI, S. and ČERNOCKÝ, J.",
  title="Target Speech Extraction with Pre-Trained Self-Supervised Learning Models",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="10421--10425",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10448315",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10448315"
}

Soubory

pdf peng_icassp2024_Target_Speech_Extraction_with_Pre-Trained.pdf 2 MB