Detail publikace

Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction

ŽMOLÍKOVÁ, K.; DELCROIX, M.; KINOSHITA, K.; HIGUCHI, T.; OGAWA, A.; NAKATANI, T. Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction. In Proceedings of ASRU 2017. Okinawa: IEEE Signal Processing Society, 2017. p. 8-15. ISBN: 978-1-5090-4788-8.
Název česky
Učení reprezentací řečníků pro vícekanálovou extrakci jednoho řečníka založenou na neuronových sítích
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

speaker extraction, speaker adaptive neural network, multi-speaker speech recognition, speaker representation learning, beamforming

Abstrakt

V poslední době schémata využívající hluboké neuronové sítě (DNN) pro extrakci řeči od šumového pozorování prokázaly velký potenciál pro automatické rozpoznávání řeči odolné proti šumu. Tato schémata však nejsou vhodná, pokud rušivým šumem je jiný reproduktor. Abychom mohli extrahovat cílový reproduktor ze směsi reproduktorů, nedávno jsme navrhli informovat neuronovou síť pomocí informací reproduktorů extrahovaných z adaptační výpovědi od stejného reproduktoru. V naší předchozí práci jsme prozkoumali způsoby, jak informovat síť o řečníkovi a zjistili, že pro tento úkol je vhodný přístup adaptivní vrstvy reproduktoru. V našich experimentech jsme použili funkce reproduktorů navržené pro úkoly rozpoznávání reproduktorů jako další informace o reproduktorech, které nemusí být optimální pro úkol extrakce reproduktorů. V tomto příspěvku navrhujeme použití schématu shrnutí sekvencí, které umožní naučit se reprezentaci reproduktorů společně se sítí. Kromě toho rozšiřujeme předchozí experimenty, abychom demonstrovali potenciál naší navrhované metody jako rozhraní pro rozpoznávání řeči a prozkoumali vliv dalšího šumu na výkon metody.

Rok
2017
Strany
8–15
Sborník
Proceedings of ASRU 2017
ISBN
978-1-5090-4788-8
Vydavatel
IEEE Signal Processing Society
Místo
Okinawa
DOI
UT WoS
000426066100002
EID Scopus
BibTeX
@inproceedings{BUT144503,
  author="Kateřina {Žmolíková} and Marc {Delcroix} and Keisuke {Kinoshita} and Takuya {Higuchi} and Atsunori {Ogawa} and Tomohiro {Nakatani}",
  title="Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction",
  booktitle="Proceedings of ASRU 2017",
  year="2017",
  pages="8--15",
  publisher="IEEE Signal Processing Society",
  address="Okinawa",
  doi="10.1109/ASRU.2017.8268910",
  isbn="978-1-5090-4788-8",
  url="http://www.fit.vutbr.cz/research/groups/speech/publi/2017/zmolikova_asru2017.pdf"
}
Nahoru