Detail publikace

Speaker activity driven neural speech extraction

DELCROIX, M.; ŽMOLÍKOVÁ, K.; OCHIAI, T.; KINOSHITA, K.; NAKATANI, T. Speaker activity driven neural speech extraction. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Toronto: IEEE Signal Processing Society, 2021. p. 6099-6103. ISBN: 978-1-7281-7605-5.

Název česky

Neurální extrakce řeči řízená aktivitou řečníka

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Delcroix Marc (FIT)
Žmolíková Kateřina, Ing., Ph.D. (FIT)
OCHIAI, T.
Kinoshita Keisuke (FIT)
Nakatani Tomohiro (FIT)

URL

http://www.fit.vutbr.cz/research/groups/speech/publi/2021/delcroix_icassp2021_2101.05516.pdf PDF

Klíčová slova

Speech extraction, Speaker activity, Speech enhancement, Meeting recognition, Neural network

Abstrakt

Cílová extrakce řeči, která extrahuje řeč cílového řečníka ze směsi užitím pomocného signálu cílového řečníka, se v poslední době těší zvýšenému zájmu. V minulosti byly zkoumány různé pomocné signály, jako předem nahrané promluvy, informace o směru nebo video cílového řečníka. V tomto článku zkoumáme použití informace o aktivitě řečníka jako pomocného signálu pro extrakci řeči založenou na jednokanálové neuronové síti. Navrhujeme neuronovou síť pro extrakci řeči řízenou aktivitou řečníka (ADEnet) a ukazujeme, že dosahuje úspěšnosti srovnatelné s přístupy založenými na předem nahrané promluvě. Dále demonstrujeme potenciál navrhnovaného přístupu po zpracování záznamů schůzek, kde se jako pomocný signál pro ADEnet používá aktivita řečníka získaná z diarizačního systému. Ukazujeme, že tento jednoduchý, ale praktický přístup může úspěšně extrahovat řečníky po diarizaci, což vede ke zlepšení výkonu ASR při použití jednoho mikrofonu, zejména v podmínkách vysokého překrývání, se snížením relativní chybovosti slov až o 25%

Rok

2021

Strany

6099–6103

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

ISBN

978-1-7281-7605-5

Vydavatel

IEEE Signal Processing Society

Místo

Toronto

DOI

10.1109/ICASSP39728.2021.9414998

UT WoS

000704288406074

EID Scopus

2-s2.0-85109793342

BibTeX

@inproceedings{BUT171749,
  author="DELCROIX, M. and ŽMOLÍKOVÁ, K. and OCHIAI, T. and KINOSHITA, K. and NAKATANI, T.",
  title="Speaker activity driven neural speech extraction",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2021",
  pages="6099--6103",
  publisher="IEEE Signal Processing Society",
  address="Toronto",
  doi="10.1109/ICASSP39728.2021.9414998",
  isbn="978-1-7281-7605-5",
  url="https://www.fit.vut.cz/research/publication/12479/"
}