Detail publikace
Utilizing VOiCES dataset for multichannel speaker verification with beamforming
Plchot Oldřich, Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
multichannel speaker verification, application-aware beamforming
Článek pojednává o využití datasetu VOiCES pro multikanálové ověřování řečníka se směrováním akustického paprsku. VOiCES z výzvy Distance Distance Challenge 2019 zaměřené na hodnocení systémů ověřování mluvčího (SV) pomocí jednokanálových zkoušek založených na korpusu Voices Obscured in Complex Environment Settings (VOiCES). Jelikož obsahuje záznamy stejných promluv zachycených současně více mikrofony ve stejných prostředích, je vhodný i pro vícekanálové experimenty. V této práci navrhujeme vícekanálovou datovou sadu a vývojové a hodnotící testy pro SV inspirované výzvou VOiCES. Rovněž jsou uvedeny alternativy vyřazování závadných mikrofonů. Posuzujeme využití vytvořené datové sady pro x-vektorový SV s formováním paprsku jako front-end. Standardní pevné tvarování paprsků a tvarování paprsků podporované NN pomocí simulovaných dat a ideální binární masky (IBM) se porovnávají s jinou variantou tvarování paprsků podporovanou NN, která je trénována pouze na datech VOiCES. Nedostatek dat odhalený experimenty s VOiCESdata vyškoleným formovačem paprsků byl vyřešen pomocí varianty SpecAugment aplikované na spektra velikosti. Tento přístup vedl až k 10% relativnímu zlepšení v EER posunu výsledků blíže k těm, které získal dobrý formovač paprsků založený na IBM.
@inproceedings{BUT164069,
author="Ladislav {Mošner} and Oldřich {Plchot} and Johan Andréas {Rohdin} and Jan {Černocký}",
title="Utilizing VOiCES dataset for multichannel speaker verification with beamforming",
booktitle="Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop",
year="2020",
journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
volume="2020",
number="11",
pages="187--193",
publisher="International Speech Communication Association",
address="Tokyo",
doi="10.21437/Odyssey.2020-27",
issn="2312-2846",
url="https://www.isca-speech.org/archive/Odyssey_2020/abstracts/80.html"
}