Detail publikace

Neural Target Speech Extraction: An overview

ŽMOLÍKOVÁ, K.; DELCROIX, M.; OCHIAI, T.; ČERNOCKÝ, J.; KINOSHITA, K.; YU, D. Neural Target Speech Extraction: An overview. IEEE SIGNAL PROCESSING MAGAZINE, 2023, vol. 40, no. 3, p. 8-29. ISSN: 1558-0792.
Název česky
Neurální extrakce řeči cílového mluvčího: Přehled
Typ
článek v časopise
Jazyk
anglicky
Autoři
URL
Klíčová slova

neural, speech, extraction

Abstrakt

Lidé mohou poslouchat cílového řečníka i v náročných akustických podmínkách, které mají hluk, dozvuk a rušivé reproduktory. Tento jev je známý jako efekt koktejlové párty. Po desetiletí se výzkumníci zaměřovali na přiblížení schopnosti naslouchat lidem. Jedním z kritických problémů je vypořádání se s rušícími řečníky, protože cílové a necílové řečové signály sdílejí podobné vlastnosti, což komplikuje jejich rozlišování. Cílová extrakce řeči/řečníka (TSE) izoluje řečový signál cílového mluvčího od směsi několika mluvčích, s nebo bez šumů a dozvuků, pomocí vodítek, které identifikují mluvčího ve směsi. Takovými vodítky mohou být prostorové vodítko udávající směr cílového mluvčího, video rtů mluvčího a předem nahraný registrační projev, ze kterého lze odvodit hlasové charakteristiky mluvčího. TSE je nově se rozvíjející oblast výzkumu, které se v posledních letech dostalo zvýšené pozornosti, protože nabízí praktický přístup k problému koktejlových večírků a zahrnuje takové aspekty zpracování signálu, jako je zpracování zvuku, obrazu a pole, stejně jako hluboké učení. Tento článek se zaměřuje na nedávné neurální přístupy a představuje hloubkový přehled TSE. Provádíme čtenáře různými hlavními přístupy, zdůrazňujeme podobnosti mezi rámci a diskutujeme o možných budoucích směrech.

Rok
2023
Strany
8–29
Časopis
IEEE SIGNAL PROCESSING MAGAZINE, roč. 40, č. 3, ISSN 1558-0792
DOI
UT WoS
000981974000003
EID Scopus
BibTeX
@article{BUT185203,
  author="ŽMOLÍKOVÁ, K. and DELCROIX, M. and OCHIAI, T. and ČERNOCKÝ, J. and KINOSHITA, K. and YU, D.",
  title="Neural Target Speech Extraction: An overview",
  journal="IEEE SIGNAL PROCESSING MAGAZINE",
  year="2023",
  volume="40",
  number="3",
  pages="8--29",
  doi="10.1109/MSP.2023.3240008",
  issn="1558-0792",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10113382"
}
Nahoru