Detail publikace

Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction

ŽMOLÍKOVÁ, K.; DELCROIX, M.; KINOSHITA, K.; HIGUCHI, T.; OGAWA, A.; NAKATANI, T. Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction. In Proceedings of ASRU 2017. Okinawa: IEEE Signal Processing Society, 2017. p. 8-15. ISBN: 978-1-5090-4788-8.

Název česky

Učení reprezentací řečníků pro vícekanálovou extrakci jednoho řečníka založenou na neuronových sítích

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Žmolíková Kateřina, Ing., Ph.D. (FIT)
Delcroix Marc (FIT)
Kinoshita Keisuke (FIT)
Higuchi Takuya (FIT)
Ogawa Atsunori (FIT)
Nakatani Tomohiro (FIT)

URL

http://www.fit.vutbr.cz/research/groups/speech/publi/2017/zmolikova_asru2017.pdf

Klíčová slova

speaker extraction, speaker adaptive neural network, multi-speaker speech recognition, speaker representation learning, beamforming

Abstrakt

V poslední době schémata využívající hluboké neuronové sítě (DNN) pro extrakci řeči od šumového pozorování prokázaly velký potenciál pro automatické rozpoznávání řeči odolné proti šumu. Tato schémata však nejsou vhodná, pokud rušivým šumem je jiný reproduktor. Abychom mohli extrahovat cílový reproduktor ze směsi reproduktorů, nedávno jsme navrhli informovat neuronovou síť pomocí informací reproduktorů extrahovaných z adaptační výpovědi od stejného reproduktoru. V naší předchozí práci jsme prozkoumali způsoby, jak informovat síť o řečníkovi a zjistili, že pro tento úkol je vhodný přístup adaptivní vrstvy reproduktoru. V našich experimentech jsme použili funkce reproduktorů navržené pro úkoly rozpoznávání reproduktorů jako další informace o reproduktorech, které nemusí být optimální pro úkol extrakce reproduktorů. V tomto příspěvku navrhujeme použití schématu shrnutí sekvencí, které umožní naučit se reprezentaci reproduktorů společně se sítí. Kromě toho rozšiřujeme předchozí experimenty, abychom demonstrovali potenciál naší navrhované metody jako rozhraní pro rozpoznávání řeči a prozkoumali vliv dalšího šumu na výkon metody.

Rok

2017

Strany

8–15

Sborník

Proceedings of ASRU 2017

ISBN

978-1-5090-4788-8

Vydavatel

IEEE Signal Processing Society

Místo

Okinawa

DOI

10.1109/ASRU.2017.8268910

UT WoS

000426066100002

EID Scopus

2-s2.0-85050535526

BibTeX

@inproceedings{BUT144503,
  author="Kateřina {Žmolíková} and Marc {Delcroix} and Keisuke {Kinoshita} and Takuya {Higuchi} and Atsunori {Ogawa} and Tomohiro {Nakatani}",
  title="Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction",
  booktitle="Proceedings of ASRU 2017",
  year="2017",
  pages="8--15",
  publisher="IEEE Signal Processing Society",
  address="Okinawa",
  doi="10.1109/ASRU.2017.8268910",
  isbn="978-1-5090-4788-8",
  url="http://www.fit.vutbr.cz/research/groups/speech/publi/2017/zmolikova_asru2017.pdf"
}