Detail publikace

DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction

HAN, J.; LONG, Y.; BURGET, L.; ČERNOCKÝ, J. DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022. p. 7292-7296. ISBN: 978-1-6654-0540-9.
Název česky
DPCCN: Hustě propojená pyramidální komplexní konvoluční síť pro robustní separaci a extrakci řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

DPCCN, Mixture-Remix, cross-domain, speech separation, unsupervised target speech extraction

Abstrakt

V posledních letech byla navržena řada metod separace řeči v time-domain. Většina z nich je však velmi citlivá na prostředí a na úlohy k pokrytí široké domény. V tomhle článku, z hlediska časově-frekvenční domény navrhujeme hustě propojený pyramidový komplex konvoluční sítě, tzv DPCCN, za účelem zlepšení robustnosti separace řeči za komplikovaných podmínek. Dále zobecňujeme DPCCN na cílenou extrakci řeči (TSE) integrací nového speciálně navrženého kodér mluvčího. Kromě toho také zkoumáme robustnost DPCCN na úkoly TSE mezi doménami bez dohledu. Přístup za pomoci Mix-Remixu je navržen k přizpůsobení akustických charakteristik cílové domény pro jemné doladění modelu zdroje. Hodnotíme navržené metody nejen za hlučných a dozvukových podmínek v doméně, ale také v čistých, ale mezidoménových podmínkách. Výsledky ukazují, že pro separace a extrakce řeči, systémy založené na DPCCN dosáhují výrazně lepšího výkonu a robustnosti než v současnosti dominující metody v časové oblasti, zejména pro crossdoménové úlohy. Zejména jsme zjistili, že jemné ladění Mixture-Remix s DPCCN výrazně překonává TD-SpeakerBeam pro TSE mezi doménami bez dohledu, se zlepšením SISNR přibližně o 3,5 dB na testovací sadě cílové domény, bez jakéhokoli výkonu zdrojové domény degradace.

Rok
2022
Strany
7292–7296
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore
DOI
UT WoS
000864187907119
EID Scopus
BibTeX
@inproceedings{BUT178382,
  author="Jiangyu {Han} and Yanhua {Long} and Lukáš {Burget} and Jan {Černocký}",
  title="DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2022",
  pages="7292--7296",
  publisher="IEEE Signal Processing Society",
  address="Singapore",
  doi="10.1109/ICASSP43922.2022.9747340",
  isbn="978-1-6654-0540-9",
  url="https://ieeexplore.ieee.org/document/9747340"
}
Nahoru