Detail publikace

Speaker-aware neural network based beamformer for speaker extraction in speech mixtures

ŽMOLÍKOVÁ, K.; DELCROIX, M.; KINOSHITA, K.; HIGUCHI, T.; OGAWA, A.; NAKATANI, T. Speaker-aware neural network based beamformer for speaker extraction in speech mixtures. In Proceedings of Interspeech 2017. Proceedings of Interspeech. Stocholm: International Speech Communication Association, 2017. p. 2655-2659. ISSN: 1990-9772.
Název česky
Směrovač paprsku založený na neuronové síti poučené o řečníkovi pro extrakci řečníka ze směsi řečových signálů
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

speaker extraction, speaker-aware neural network, beamforming, mask estimation

Abstrakt

Článek pojednává o směrovači paprsku, založeném na neuronové síti, která je poučená o řečníkovi pro extrakci řečníka ze směsi řečových signálů. V této práci se věnujeme problému extrakce jednoho cílového řečníka z vícekanálové směsi řeči. Neuronovou síť používáme k odhadu masek k extrakci cílového řečníka a odvození filtrů paprskových tvarů pomocí těchto masek, podobně jako nedávno navržený přístup k extrakci řeči za přítomnosti šumu. Abychom překonali permutační nejednoznačnost odhadu masky neuronové sítě, která vzniká za přítomnosti více řečníků, navrhujeme informovat neurální síť o cílovém řečníkovi tak, aby se naučil sledovat charakteristiky řečníka prostřednictvím promluvy. Zkoumáme a porovnáváme různé metody předávání informací o řečníkovi do sítě, jako je například závislost jedné vrstvy sítě na charakteristikách řečníka. Experimenty na směsi dvou řečníků ukazují, že navrhované schéma může sledovat a extrahovat cílového řečníka pro uzavřené i otevřené případové sady řečníků.

Rok
2017
Strany
2655–2659
Časopis
Proceedings of Interspeech, roč. 2017, č. 08, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2017
Vydavatel
International Speech Communication Association
Místo
Stocholm
DOI
UT WoS
000457505000551
EID Scopus
BibTeX
@inproceedings{BUT144496,
  author="Kateřina {Žmolíková} and Marc {Delcroix} and Keisuke {Kinoshita} and Takuya {Higuchi} and Atsunori {Ogawa} and Tomohiro {Nakatani}",
  title="Speaker-aware neural network based beamformer for speaker extraction in speech mixtures",
  booktitle="Proceedings of Interspeech 2017",
  year="2017",
  journal="Proceedings of Interspeech",
  volume="2017",
  number="08",
  pages="2655--2659",
  publisher="International Speech Communication Association",
  address="Stocholm",
  doi="10.21437/Interspeech.2017-667",
  issn="1990-9772",
  url="http://www.isca-speech.org/archive/Interspeech_2017/pdfs/0667.PDF"
}
Nahoru