Detail publikace
SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics
Žmolíková Kateřina, Ing., Ph.D. (VZ SPEECH)
Kinoshita Keisuke (FIT)
ARAKI, S.
Ogawa Atsunori (FIT)
Nakatani Tomohiro (FIT)
deep learning, target speaker extraction, SpeakerBeam
V hlučném prostředí, například na koktejlovém večírku, se člověk může soustředit na poslech požadovaného řečníka, schopnost známá jako selektivní sluch. Současné přístupy vyvinuté k realizaci výpočetního selektivního slyšení vyžadují znalost polohy cílového řečníka, což omezuje jejich praktické využití. Tento článek představuje SpeakerBeam, přístup k výpočetnímu selektivnímu slyšení založený na hlubokém učení na základě charakteristik hlasu cílového mluvčího. SpeakerBeam vyžaduje pouze malé množství řečových dat od cílového mluvčího k výpočtu jeho hlasových charakteristik. Poté dokáže extrahovat řeč tohoto mluvčího bez ohledu na jeho polohu nebo počet mluvčích hovořících v pozadí.
@article{BUT185149,
author="DELCROIX, M. and ŽMOLÍKOVÁ, K. and KINOSHITA, K. and ARAKI, S. and OGAWA, A. and NAKATANI, T.",
title="SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics",
journal="NTT Technical Review",
year="2018",
volume="16",
number="11",
pages="19--24",
issn="1348-3447",
url="https://www.ntt-review.jp/archive/ntttechnical.php?contents=ntr201811all.pdf&mode=show_pdf"
}