Detail publikace
Neural Target Speech Extraction: An overview
Delcroix Marc (FIT)
OCHIAI, T.
Černocký Jan, prof. Dr. Ing. (UPGM)
Kinoshita Keisuke (FIT)
Yu Dong
neural, speech, extraction
Lidé mohou poslouchat cílového řečníka i v náročných akustických podmínkách, které mají hluk, dozvuk a rušivé reproduktory. Tento jev je známý jako efekt koktejlové párty. Po desetiletí se výzkumníci zaměřovali na přiblížení schopnosti naslouchat lidem. Jedním z kritických problémů je vypořádání se s rušícími řečníky, protože cílové a necílové řečové signály sdílejí podobné vlastnosti, což komplikuje jejich rozlišování. Cílová extrakce řeči/řečníka (TSE) izoluje řečový signál cílového mluvčího od směsi několika mluvčích, s nebo bez šumů a dozvuků, pomocí vodítek, které identifikují mluvčího ve směsi. Takovými vodítky mohou být prostorové vodítko udávající směr cílového mluvčího, video rtů mluvčího a předem nahraný registrační projev, ze kterého lze odvodit hlasové charakteristiky mluvčího. TSE je nově se rozvíjející oblast výzkumu, které se v posledních letech dostalo zvýšené pozornosti, protože nabízí praktický přístup k problému koktejlových večírků a zahrnuje takové aspekty zpracování signálu, jako je zpracování zvuku, obrazu a pole, stejně jako hluboké učení. Tento článek se zaměřuje na nedávné neurální přístupy a představuje hloubkový přehled TSE. Provádíme čtenáře různými hlavními přístupy, zdůrazňujeme podobnosti mezi rámci a diskutujeme o možných budoucích směrech.
@article{BUT185203,
author="ŽMOLÍKOVÁ, K. and DELCROIX, M. and OCHIAI, T. and ČERNOCKÝ, J. and KINOSHITA, K. and YU, D.",
title="Neural Target Speech Extraction: An overview",
journal="IEEE SIGNAL PROCESSING MAGAZINE",
year="2023",
volume="40",
number="3",
pages="8--29",
doi="10.1109/MSP.2023.3240008",
issn="1558-0792",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10113382"
}