Detail publikace

SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics

DELCROIX, M.; ŽMOLÍKOVÁ, K.; KINOSHITA, K.; ARAKI, S.; OGAWA, A.; NAKATANI, T. SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics. NTT Technical Review, 2018, vol. 16, no. 11, p. 19-24. ISSN: 1348-3447.

Název česky

SpeakerBeam: Nová technologie hlubokého učení pro extrakci řeči cílového mluvčího na základě jeho hlasových charakteristik

Typ

článek v časopise

Jazyk

anglicky

Autoři

Delcroix Marc (FIT)
Žmolíková Kateřina, Ing., Ph.D. (VZ SPEECH)
Kinoshita Keisuke (FIT)
ARAKI, S.
Ogawa Atsunori (FIT)
Nakatani Tomohiro (FIT)

URL

https://www.ntt-review.jp/archive/ntttechnical.php?contents=ntr201811all.pdf&mode=show_pdf

Klíčová slova

deep learning, target speaker extraction, SpeakerBeam

Abstrakt

V hlučném prostředí, například na koktejlovém večírku, se člověk může soustředit na poslech požadovaného řečníka, schopnost známá jako selektivní sluch. Současné přístupy vyvinuté k realizaci výpočetního selektivního slyšení vyžadují znalost polohy cílového řečníka, což omezuje jejich praktické využití. Tento článek představuje SpeakerBeam, přístup k výpočetnímu selektivnímu slyšení založený na hlubokém učení na základě charakteristik hlasu cílového mluvčího. SpeakerBeam vyžaduje pouze malé množství řečových dat od cílového mluvčího k výpočtu jeho hlasových charakteristik. Poté dokáže extrahovat řeč tohoto mluvčího bez ohledu na jeho polohu nebo počet mluvčích hovořících v pozadí.

Rok

2018

Strany

19–24

Časopis

NTT Technical Review, roč. 16, č. 11, ISSN 1348-3447

EID Scopus

2-s2.0-85057190849

BibTeX

@article{BUT185149,
  author="DELCROIX, M. and ŽMOLÍKOVÁ, K. and KINOSHITA, K. and ARAKI, S. and OGAWA, A. and NAKATANI, T.",
  title="SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics",
  journal="NTT Technical Review",
  year="2018",
  volume="16",
  number="11",
  pages="19--24",
  issn="1348-3447",
  url="https://www.ntt-review.jp/archive/ntttechnical.php?contents=ntr201811all.pdf&mode=show_pdf"
}