Detail publikace
Dereverberation and Beamforming in Far-Field Speaker Recognition
Matějka Pavel, Ing., Ph.D. (UPGM)
Novotný Ondřej, Ing., Ph.D. (VZ SPEECH)
Černocký Jan, prof. Dr. Ing. (UPGM)
Speaker recognition, microphone array, beamforming, dereverberation, audio retransmission
Článek pojednává o odstranění dozvuku a směrování paprsku pro rozpoznávání mluvčího ze vzdálených mikrofonů. Článek se zabývá rozpoznáváním mluvčích ve vzdáleném poli. Na korpusu dat NIST SRE 2010 přenášených ve skutečné místnosti s více mikrofony jsme nejprve demonstrovali, jak akustika místnosti způsobuje významnou degradaci nejmodernějšího systému rozpoznávání mluvčích založeného na vektorech. Poté prozkoumáme několik technik ke zlepšení výkonu, od přeškolení pravděpodobnostní lineární diskriminační analýzy (PLDA), přes dereverberaci až po tvarování paprsku. Zjistili jsme, že vážená predikční chyba (WPE) založená na dereverberaci v kombinaci s generalizovaným vlastním tvarem paprskového formátoru s váhovými maskami Powerspectral Density (PSD) generovanými neuronovými sítěmi (NN) poskytuje výsledky blížící se čistému nastavení klosemikrofonu. Dalšího zlepšení bylo dosaženo rekvalifikací PLDA nebo NN generujících masky na simulovaných cílových datech. Práce ukazuje, že lze vyvinout systém pro rozpoznávání mluvčích, který pracuje robustně ve scénáři vzdáleného pole.
@inproceedings{BUT155039,
author="Ladislav {Mošner} and Pavel {Matějka} and Ondřej {Novotný} and Jan {Černocký}",
title="Dereverberation and Beamforming in Far-Field Speaker Recognition",
booktitle="Proceedings of ICASSP 2018",
year="2018",
pages="5254--5258",
publisher="IEEE Signal Processing Society",
address="Calgary",
doi="10.1109/ICASSP.2018.8462365",
isbn="978-1-5386-4658-8",
url="https://www.fit.vut.cz/research/publication/11717/"
}