Detail publikace
On the use of X-vectors for Robust Speaker Recognition
Plchot Oldřich, Ing., Ph.D. (UPGM)
Matějka Pavel, Ing., Ph.D. (UPGM)
Mošner Ladislav, Ing. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Speaker Recognition, Embedding, X-vectors, DNN
Textově nezávislé ověřování mluvčích (SV) je v současné době v procesu přijímání DNN modelování v každé fázi systému SV. Přístupy založené na DNN, jako je end-to-end modelování a systémy založené na vkládání DNN, pomalu začínají být konkurenceschopné i v náročných a rozmanitých podmínkách kanálu nedávných SRN NIST. Přizpůsobení domény a potřeba velkého množství tréninkových dat jsou stále výzvou pro současné diskriminační systémy a (na rozdíl od generativních modelů) vidíme významné zisky z rozšiřování dat, simulace a dalších technik určených k překonání nedostatku tréninkových dat. Představujeme analýzu systému SV založeného na vložení DNN (vektory x) a zaměřujeme se na robustnost napříč různými datovými doménami, jako jsou standardní telefonní a mikrofonní konverzace, a to jak v čistém, hlučném, tak i reverberantním prostředí. Vyhodnocujeme také systém podle náročných dat ze vzdáleného pole vytvořených opětovným přenosem podmnožiny rozhovorů s mikrofony NIST SRE 2008 a 2010. Porovnáváme naše výsledky s nejmodernějším i-vektorovým systémem. Obecně jsme byli schopni dosáhnout lepšího výkonu se systémy založenými na DNN, ale co je nejdůležitější, potvrdili jsme robustnost těchto systémů napříč více datovými doménami.
@inproceedings{BUT155075,
author="Ondřej {Novotný} and Oldřich {Plchot} and Pavel {Matějka} and Ladislav {Mošner} and Ondřej {Glembek}",
title="On the use of X-vectors for Robust Speaker Recognition",
booktitle="Proceedings of Odyssey 2018",
year="2018",
journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
volume="2018",
number="6",
pages="168--175",
publisher="International Speech Communication Association",
address="Les Sables d´Olonne",
doi="10.21437/Odyssey.2018-24",
issn="2312-2846",
url="https://www.fit.vut.cz/research/publication/11787/"
}