Detail publikace

Speaker activity driven neural speech extraction

DELCROIX, M.; ŽMOLÍKOVÁ, K.; OCHIAI, T.; KINOSHITA, K.; NAKATANI, T. Speaker activity driven neural speech extraction. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Toronto: IEEE Signal Processing Society, 2021. p. 6099-6103. ISBN: 978-1-7281-7605-5.
Název česky
Neurální extrakce řeči řízená aktivitou řečníka
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Speech extraction, Speaker activity, Speech enhancement, Meeting recognition, Neural network

Abstrakt

Cílová extrakce řeči, která extrahuje řeč cílového řečníka ze směsi užitím pomocného signálu cílového řečníka, se v poslední době těší zvýšenému zájmu. V minulosti byly zkoumány různé pomocné signály, jako předem nahrané promluvy, informace o směru nebo video cílového řečníka. V tomto článku zkoumáme použití informace o aktivitě řečníka jako pomocného signálu pro extrakci řeči založenou na jednokanálové neuronové síti. Navrhujeme neuronovou síť pro extrakci řeči řízenou aktivitou řečníka (ADEnet) a ukazujeme, že dosahuje úspěšnosti srovnatelné s přístupy založenými na předem nahrané promluvě. Dále demonstrujeme potenciál navrhnovaného přístupu po zpracování záznamů schůzek, kde se jako pomocný signál pro ADEnet používá aktivita řečníka získaná z diarizačního systému. Ukazujeme, že tento jednoduchý, ale praktický přístup může úspěšně extrahovat řečníky po diarizaci, což vede ke zlepšení výkonu ASR při použití jednoho mikrofonu, zejména v podmínkách vysokého překrývání, se snížením relativní chybovosti slov až o 25%

Rok
2021
Strany
6099–6103
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
978-1-7281-7605-5
Vydavatel
IEEE Signal Processing Society
Místo
Toronto
DOI
UT WoS
000704288406074
EID Scopus
BibTeX
@inproceedings{BUT171749,
  author="DELCROIX, M. and ŽMOLÍKOVÁ, K. and OCHIAI, T. and KINOSHITA, K. and NAKATANI, T.",
  title="Speaker activity driven neural speech extraction",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2021",
  pages="6099--6103",
  publisher="IEEE Signal Processing Society",
  address="Toronto",
  doi="10.1109/ICASSP39728.2021.9414998",
  isbn="978-1-7281-7605-5",
  url="https://www.fit.vut.cz/research/publication/12479/"
}
Nahoru