Detail publikace

SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics

DELCROIX, M.; ŽMOLÍKOVÁ, K.; KINOSHITA, K.; ARAKI, S.; OGAWA, A.; NAKATANI, T. SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics. NTT Technical Review, 2018, vol. 16, no. 11, p. 19-24. ISSN: 1348-3447.
Název česky
SpeakerBeam: Nová technologie hlubokého učení pro extrakci řeči cílového mluvčího na základě jeho hlasových charakteristik
Typ
článek v časopise
Jazyk
anglicky
Autoři
URL
Klíčová slova

deep learning, target speaker extraction, SpeakerBeam

Abstrakt

V hlučném prostředí, například na koktejlovém večírku, se člověk může soustředit na poslech požadovaného řečníka, schopnost známá jako selektivní sluch. Současné přístupy vyvinuté k realizaci výpočetního selektivního slyšení vyžadují znalost polohy cílového řečníka, což omezuje jejich praktické využití. Tento článek představuje SpeakerBeam, přístup k výpočetnímu selektivnímu slyšení založený na hlubokém učení na základě charakteristik hlasu cílového mluvčího. SpeakerBeam vyžaduje pouze malé množství řečových dat od cílového mluvčího k výpočtu jeho hlasových charakteristik. Poté dokáže extrahovat řeč tohoto mluvčího bez ohledu na jeho polohu nebo počet mluvčích hovořících v pozadí.

Rok
2018
Strany
19–24
Časopis
NTT Technical Review, roč. 16, č. 11, ISSN 1348-3447
EID Scopus
BibTeX
@article{BUT185149,
  author="DELCROIX, M. and ŽMOLÍKOVÁ, K. and KINOSHITA, K. and ARAKI, S. and OGAWA, A. and NAKATANI, T.",
  title="SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics",
  journal="NTT Technical Review",
  year="2018",
  volume="16",
  number="11",
  pages="19--24",
  issn="1348-3447",
  url="https://www.ntt-review.jp/archive/ntttechnical.php?contents=ntr201811all.pdf&mode=show_pdf"
}
Nahoru