Detail publikace

Speaker-aware neural network based beamformer for speaker extraction in speech mixtures

ŽMOLÍKOVÁ, K.; DELCROIX, M.; KINOSHITA, K.; HIGUCHI, T.; OGAWA, A.; NAKATANI, T. Speaker-aware neural network based beamformer for speaker extraction in speech mixtures. In Proceedings of Interspeech 2017. Proceedings of Interspeech. Stocholm: International Speech Communication Association, 2017. p. 2655-2659. ISSN: 1990-9772.

Název česky

Směrovač paprsku založený na neuronové síti poučené o řečníkovi pro extrakci řečníka ze směsi řečových signálů

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Žmolíková Kateřina, Ing., Ph.D. (FIT)
Delcroix Marc (FIT)
Kinoshita Keisuke (FIT)
Higuchi Takuya (FIT)
Ogawa Atsunori (FIT)
Nakatani Tomohiro (FIT)

URL

Klíčová slova

speaker extraction, speaker-aware neural network, beamforming, mask estimation

Abstrakt

Článek pojednává o směrovači paprsku, založeném na neuronové síti, která je poučená o řečníkovi pro extrakci řečníka ze směsi řečových signálů. V této práci se věnujeme problému extrakce jednoho cílového řečníka z vícekanálové směsi řeči. Neuronovou síť používáme k odhadu masek k extrakci cílového řečníka a odvození filtrů paprskových tvarů pomocí těchto masek, podobně jako nedávno navržený přístup k extrakci řeči za přítomnosti šumu. Abychom překonali permutační nejednoznačnost odhadu masky neuronové sítě, která vzniká za přítomnosti více řečníků, navrhujeme informovat neurální síť o cílovém řečníkovi tak, aby se naučil sledovat charakteristiky řečníka prostřednictvím promluvy. Zkoumáme a porovnáváme různé metody předávání informací o řečníkovi do sítě, jako je například závislost jedné vrstvy sítě na charakteristikách řečníka. Experimenty na směsi dvou řečníků ukazují, že navrhované schéma může sledovat a extrahovat cílového řečníka pro uzavřené i otevřené případové sady řečníků.

Rok

2017

Strany

2655–2659

Časopis

Proceedings of Interspeech, roč. 2017, č. 08, ISSN 1990-9772

Sborník

Proceedings of Interspeech 2017

Vydavatel

International Speech Communication Association

Místo

Stocholm

DOI

10.21437/Interspeech.2017-667

UT WoS

000457505000551

EID Scopus

2-s2.0-85034117887

BibTeX

@inproceedings{BUT144496,
  author="Kateřina {Žmolíková} and Marc {Delcroix} and Keisuke {Kinoshita} and Takuya {Higuchi} and Atsunori {Ogawa} and Tomohiro {Nakatani}",
  title="Speaker-aware neural network based beamformer for speaker extraction in speech mixtures",
  booktitle="Proceedings of Interspeech 2017",
  year="2017",
  journal="Proceedings of Interspeech",
  volume="2017",
  number="08",
  pages="2655--2659",
  publisher="International Speech Communication Association",
  address="Stocholm",
  doi="10.21437/Interspeech.2017-667",
  issn="1990-9772",
  url="http://www.isca-speech.org/archive/Interspeech_2017/pdfs/0667.PDF"
}