Detail publikace
Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model
Silnova Anna, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Stafylakis Themos
embeddings, machine learning, speaker recognition
Článek pojednává o Gaussovských meta-embeddincích pro efektivní skórování PLDA modelu s těžkým chvostem. Embeddingy ve strojovém učení jsou nízkodimenzionální reprezentace složitých vstupních vzorů s vlastností, že lze pro úlohy klasifikace a porovnání použít jednoduché geometrické operace, jako jsou euklidovské vzdálenosti a tečkové produkty. Představujeme metadata, která žijí v obecnějších vnitřních prostorech produktů a jsou navržena tak, aby lépe šířila nejistotu prostřednictvím zúženého místa pro vkládání. Tradiční vkládání se trénuje, aby maximalizovaly mezitřídy a minimalizovaly vzdálenosti v rámci třídy. Vkládání metadat je proškoleno, aby maximalizovalo propustnost relevantních informací. Jako důkaz koncepce v rozpoznávání řečníků odvozujeme extraktor ze známého generativního modelu Gaussian PLDA (GPLDA). Ukazujeme, že skóre poměru pravděpodobnosti GPLDA jsou dána vnitřními produkty Hilberta mezi Gaussovými funkcemi pravděpodobnosti, které nazýváme Gaussian meta-embeddings (GME). Extraktory pro vkládání metadat lze generativně nebo diskriminačně trénovat. GME extrahované GPLDA mají pevnou přesnost a nešíří nejistotu. Ukázali jsme, že zobecnění na těžce sledovaný PLDA dává GME s variabilními přesnostmi, které šíří nejistotu. Experimenty na NIST SRE 2010 a 2016 ukazují, že navrhovaná metoda aplikovaná na i-vektory bez normalizace délky je až o 20% přesnější než GPLDA aplikovaná na i-vektory normalizované na délku.
@inproceedings{BUT155077,
author="Johan Nikolaas Langenhoven {Brummer} and Anna {Silnova} and Lukáš {Burget} and Themos {Stafylakis}",
title="Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model",
booktitle="Proceedings of Odyssey 2018",
year="2018",
journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
volume="2018",
number="6",
pages="349--356",
publisher="International Speech Communication Association",
address="Les Sables d'Olonne",
doi="10.21437/Odyssey.2018-49",
issn="2312-2846",
url="https://www.fit.vut.cz/research/publication/11790/"
}