Detail publikace

Dereverberation and Beamforming in Far-Field Speaker Recognition

MOŠNER, L.; MATĚJKA, P.; NOVOTNÝ, O.; ČERNOCKÝ, J. Dereverberation and Beamforming in Far-Field Speaker Recognition. In Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018. p. 5254-5258. ISBN: 978-1-5386-4658-8.

Název česky

Odstranění dozvuku a směrování paprsku pro rozpoznávání mluvčího ze vzdálených mikrofonů

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Mošner Ladislav, Ing. (UPGM)
Matějka Pavel, Ing., Ph.D. (UPGM)
Novotný Ondřej, Ing., Ph.D. (VZ SPEECH)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

http://www.fit.vutbr.cz/research/groups/speech/publi/2018/mosner_icassp2018_0005254.pdf PDF

Klíčová slova

Speaker recognition, microphone array, beamforming, dereverberation, audio retransmission

Abstrakt

Článek pojednává o odstranění dozvuku a směrování paprsku pro rozpoznávání mluvčího ze vzdálených mikrofonů. Článek se zabývá rozpoznáváním mluvčích ve vzdáleném poli. Na korpusu dat NIST SRE 2010 přenášených ve skutečné místnosti s více mikrofony jsme nejprve demonstrovali, jak akustika místnosti způsobuje významnou degradaci nejmodernějšího systému rozpoznávání mluvčích založeného na vektorech. Poté prozkoumáme několik technik ke zlepšení výkonu, od přeškolení pravděpodobnostní lineární diskriminační analýzy (PLDA), přes dereverberaci až po tvarování paprsku. Zjistili jsme, že vážená predikční chyba (WPE) založená na dereverberaci v kombinaci s generalizovaným vlastním tvarem paprskového formátoru s váhovými maskami Powerspectral Density (PSD) generovanými neuronovými sítěmi (NN) poskytuje výsledky blížící se čistému nastavení klosemikrofonu. Dalšího zlepšení bylo dosaženo rekvalifikací PLDA nebo NN generujících masky na simulovaných cílových datech. Práce ukazuje, že lze vyvinout systém pro rozpoznávání mluvčích, který pracuje robustně ve scénáři vzdáleného pole.

Rok

2018

Strany

5254–5258

Sborník

Proceedings of ICASSP 2018

Konference

IEEE International Conference on Acoustics, Speech and Signal Processing, Calgary, CA

ISBN

978-1-5386-4658-8

Vydavatel

IEEE Signal Processing Society

Místo

Calgary

DOI

10.1109/ICASSP.2018.8462365

UT WoS

000446384605085

EID Scopus

2-s2.0-85054214985

BibTeX

@inproceedings{BUT155039,
  author="Ladislav {Mošner} and Pavel {Matějka} and Ondřej {Novotný} and Jan {Černocký}",
  title="Dereverberation and Beamforming in Far-Field Speaker Recognition",
  booktitle="Proceedings of ICASSP 2018",
  year="2018",
  pages="5254--5258",
  publisher="IEEE Signal Processing Society",
  address="Calgary",
  doi="10.1109/ICASSP.2018.8462365",
  isbn="978-1-5386-4658-8",
  url="https://www.fit.vut.cz/research/publication/11717/"
}