Detail publikace
Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation
Delcroix Marc (FIT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Nakatani Tomohiro (FIT)
Černocký Jan, prof. Dr. Ing. (UPGM)
Vícekanálová separace řeči, variační automatický kodér, prostorové shlukování, DOLPHIN
V tomto příspěvku navrhujeme metodu kombinující variační autoenkodérový model řeči s přístupem prostorového klastrování pro vícekanálové oddělení řeči. Výhoda integrace prostorového shlukování se spektrálním modelem byla ukázána v několika pracích. Jako spektrální model předchozí práce používaly buď faktoriální generativní modely smíšené řeči, nebo diskriminační neuronové sítě. V naší práci kombinujeme silné stránky obou přístupů, budováním faktoriálního modelu založeného na generativní neuronové síti, variačním autoenkodéru. Tím můžeme využít modelovací sílu neuronových sítí, ale zároveň zachovat strukturovaný model. Takový model může být výhodný při přizpůsobování se novým hlukovým podmínkám, protože je třeba upravit pouze hlukovou část modelu. Experimentálně ukazujeme, že náš model výrazně překonává předchozí faktoriální model založený na Gaussově smíšeném modelu (DOLPHIN), funguje srovnatelně s integrací tréninku invariantního permutací s prostorovým shlukováním a umožňuje nám snadno se přizpůsobit novým hlukovým podmínkám.
@inproceedings{BUT175809,
author="Kateřina {Žmolíková} and Marc {Delcroix} and Lukáš {Burget} and Tomohiro {Nakatani} and Jan {Černocký}",
title="Integration of Variational Autoencoder and Spatial Clustering for Adaptive Multi-Channel Neural Speech Separation",
booktitle="2021 IEEE Spoken Language Technology Workshop, SLT 2021 - Proceedings",
year="2021",
pages="889--896",
publisher="IEEE Signal Processing Society",
address="Shenzhen - virtual",
doi="10.1109/SLT48900.2021.9383612",
isbn="978-1-7281-7066-4",
url="https://ieeexplore.ieee.org/document/9383612"
}