Detail publikace
Speaker-aware neural network based beamformer for speaker extraction in speech mixtures
Delcroix Marc (FIT)
Kinoshita Keisuke (FIT)
Higuchi Takuya (FIT)
Ogawa Atsunori (FIT)
Nakatani Tomohiro (FIT)
speaker extraction, speaker-aware neural network, beamforming, mask estimation
Článek pojednává o směrovači paprsku, založeném na neuronové síti, která je poučená o řečníkovi pro extrakci řečníka ze směsi řečových signálů. V této práci se věnujeme problému extrakce jednoho cílového řečníka z vícekanálové směsi řeči. Neuronovou síť používáme k odhadu masek k extrakci cílového řečníka a odvození filtrů paprskových tvarů pomocí těchto masek, podobně jako nedávno navržený přístup k extrakci řeči za přítomnosti šumu. Abychom překonali permutační nejednoznačnost odhadu masky neuronové sítě, která vzniká za přítomnosti více řečníků, navrhujeme informovat neurální síť o cílovém řečníkovi tak, aby se naučil sledovat charakteristiky řečníka prostřednictvím promluvy. Zkoumáme a porovnáváme různé metody předávání informací o řečníkovi do sítě, jako je například závislost jedné vrstvy sítě na charakteristikách řečníka. Experimenty na směsi dvou řečníků ukazují, že navrhované schéma může sledovat a extrahovat cílového řečníka pro uzavřené i otevřené případové sady řečníků.
@inproceedings{BUT144496,
author="Kateřina {Žmolíková} and Marc {Delcroix} and Keisuke {Kinoshita} and Takuya {Higuchi} and Atsunori {Ogawa} and Tomohiro {Nakatani}",
title="Speaker-aware neural network based beamformer for speaker extraction in speech mixtures",
booktitle="Proceedings of Interspeech 2017",
year="2017",
journal="Proceedings of Interspeech",
volume="2017",
number="08",
pages="2655--2659",
publisher="International Speech Communication Association",
address="Stocholm",
doi="10.21437/Interspeech.2017-667",
issn="1990-9772",
url="http://www.isca-speech.org/archive/Interspeech_2017/pdfs/0667.PDF"
}