Detail publikace

Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation

ŽMOLÍKOVÁ, K.; DELCROIX, M.; BURGET, L.; NAKATANI, T.; ČERNOCKÝ, J. Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation. In 2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings. Shenzhen - virtual: IEEE Signal Processing Society, 2021. p. 889-896. ISBN: 978-1-7281-7066-4.
Název česky
Integrace variačního autoenkodéru a prostorového shlukování pro adaptivní multikanálovou neurální separaci řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Vícekanálová separace řeči, variační automatický kodér, prostorové shlukování, DOLPHIN

Abstrakt

V tomto příspěvku navrhujeme metodu kombinující variační autoenkodérový model řeči s přístupem prostorového klastrování pro vícekanálové oddělení řeči. Výhoda integrace prostorového shlukování se spektrálním modelem byla ukázána v několika pracích. Jako spektrální model předchozí práce používaly buď faktoriální generativní modely smíšené řeči, nebo diskriminační neuronové sítě. V naší práci kombinujeme silné stránky obou přístupů, budováním faktoriálního modelu založeného na generativní neuronové síti, variačním autoenkodéru. Tím můžeme využít modelovací sílu neuronových sítí, ale zároveň zachovat strukturovaný model. Takový model může být výhodný při přizpůsobování se novým hlukovým podmínkám, protože je třeba upravit pouze hlukovou část modelu. Experimentálně ukazujeme, že náš model výrazně překonává předchozí faktoriální model založený na Gaussově smíšeném modelu (DOLPHIN), funguje srovnatelně s integrací tréninku invariantního permutací s prostorovým shlukováním a umožňuje nám snadno se přizpůsobit novým hlukovým podmínkám.

Rok
2021
Strany
889–896
Sborník
2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings
ISBN
978-1-7281-7066-4
Vydavatel
IEEE Signal Processing Society
Místo
Shenzhen - virtual
DOI
UT WoS
000663633300121
EID Scopus
BibTeX
@inproceedings{BUT175809,
  author="Kateřina {Žmolíková} and Marc {Delcroix} and Lukáš {Burget} and Tomohiro {Nakatani} and Jan {Černocký}",
  title="Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation",
  booktitle="2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings",
  year="2021",
  pages="889--896",
  publisher="IEEE Signal Processing Society",
  address="Shenzhen - virtual",
  doi="10.1109/SLT48900.2021.9383612",
  isbn="978-1-7281-7066-4",
  url="https://ieeexplore.ieee.org/document/9383612"
}
Nahoru