Detail publikace
Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction
Delcroix Marc (FIT)
Kinoshita Keisuke (FIT)
Higuchi Takuya (FIT)
Ogawa Atsunori (FIT)
Nakatani Tomohiro (FIT)
speaker extraction, speaker adaptive neural network, multi-speaker speech recognition, speaker representation learning, beamforming
V poslední době schémata využívající hluboké neuronové sítě (DNN) pro extrakci řeči od šumového pozorování prokázaly velký potenciál pro automatické rozpoznávání řeči odolné proti šumu. Tato schémata však nejsou vhodná, pokud rušivým šumem je jiný reproduktor. Abychom mohli extrahovat cílový reproduktor ze směsi reproduktorů, nedávno jsme navrhli informovat neuronovou síť pomocí informací reproduktorů extrahovaných z adaptační výpovědi od stejného reproduktoru. V naší předchozí práci jsme prozkoumali způsoby, jak informovat síť o řečníkovi a zjistili, že pro tento úkol je vhodný přístup adaptivní vrstvy reproduktoru. V našich experimentech jsme použili funkce reproduktorů navržené pro úkoly rozpoznávání reproduktorů jako další informace o reproduktorech, které nemusí být optimální pro úkol extrakce reproduktorů. V tomto příspěvku navrhujeme použití schématu shrnutí sekvencí, které umožní naučit se reprezentaci reproduktorů společně se sítí. Kromě toho rozšiřujeme předchozí experimenty, abychom demonstrovali potenciál naší navrhované metody jako rozhraní pro rozpoznávání řeči a prozkoumali vliv dalšího šumu na výkon metody.
@inproceedings{BUT144503,
author="Kateřina {Žmolíková} and Marc {Delcroix} and Keisuke {Kinoshita} and Takuya {Higuchi} and Atsunori {Ogawa} and Tomohiro {Nakatani}",
title="Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction",
booktitle="Proceedings of ASRU 2017",
year="2017",
pages="8--15",
publisher="IEEE Signal Processing Society",
address="Okinawa",
doi="10.1109/ASRU.2017.8268910",
isbn="978-1-5090-4788-8",
url="http://www.fit.vutbr.cz/research/groups/speech/publi/2017/zmolikova_asru2017.pdf"
}