Detail publikace

Neural Target Speech Extraction: An overview

ŽMOLÍKOVÁ, K.; DELCROIX, M.; OCHIAI, T.; ČERNOCKÝ, J.; KINOSHITA, K.; YU, D. Neural Target Speech Extraction: An overview. IEEE SIGNAL PROCESSING MAGAZINE, 2023, vol. 40, no. 3, p. 8-29. ISSN: 1558-0792.

Název česky

Neurální extrakce řeči cílového mluvčího: Přehled

Typ

článek v časopise

Jazyk

anglicky

Autoři

Žmolíková Kateřina, Ing., Ph.D. (FIT)
Delcroix Marc (FIT)
OCHIAI, T.
Černocký Jan, prof. Dr. Ing. (UPGM)
Kinoshita Keisuke (FIT)
Yu Dong

URL

Klíčová slova

neural, speech, extraction

Abstrakt

Lidé mohou poslouchat cílového řečníka i v náročných akustických podmínkách, které mají hluk, dozvuk a rušivé reproduktory. Tento jev je známý jako efekt koktejlové párty. Po desetiletí se výzkumníci zaměřovali na přiblížení schopnosti naslouchat lidem. Jedním z kritických problémů je vypořádání se s rušícími řečníky, protože cílové a necílové řečové signály sdílejí podobné vlastnosti, což komplikuje jejich rozlišování. Cílová extrakce řeči/řečníka (TSE) izoluje řečový signál cílového mluvčího od směsi několika mluvčích, s nebo bez šumů a dozvuků, pomocí vodítek, které identifikují mluvčího ve směsi. Takovými vodítky mohou být prostorové vodítko udávající směr cílového mluvčího, video rtů mluvčího a předem nahraný registrační projev, ze kterého lze odvodit hlasové charakteristiky mluvčího. TSE je nově se rozvíjející oblast výzkumu, které se v posledních letech dostalo zvýšené pozornosti, protože nabízí praktický přístup k problému koktejlových večírků a zahrnuje takové aspekty zpracování signálu, jako je zpracování zvuku, obrazu a pole, stejně jako hluboké učení. Tento článek se zaměřuje na nedávné neurální přístupy a představuje hloubkový přehled TSE. Provádíme čtenáře různými hlavními přístupy, zdůrazňujeme podobnosti mezi rámci a diskutujeme o možných budoucích směrech.

Rok

2023

Strany

8–29

Časopis

IEEE SIGNAL PROCESSING MAGAZINE, roč. 40, č. 3, ISSN 1558-0792

DOI

10.1109/MSP.2023.3240008

UT WoS

000981974000003

EID Scopus

2-s2.0-85159861514

BibTeX

@article{BUT185203,
  author="ŽMOLÍKOVÁ, K. and DELCROIX, M. and OCHIAI, T. and ČERNOCKÝ, J. and KINOSHITA, K. and YU, D.",
  title="Neural Target Speech Extraction: An overview",
  journal="IEEE SIGNAL PROCESSING MAGAZINE",
  year="2023",
  volume="40",
  number="3",
  pages="8--29",
  doi="10.1109/MSP.2023.3240008",
  issn="1558-0792",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10113382"
}