Detail publikace

Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model

BRUMMER, J.; SILNOVA, A.; BURGET, L.; STAFYLAKIS, T. Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model. In Proceedings of Odyssey 2018. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Les Sables d'Olonne: International Speech Communication Association, 2018. p. 349-356. ISSN: 2312-2846.

Název česky

Gaussovské meta-embeddingy pro efektivní skórování PLDA modelu s těžkým chvostem

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Brummer Johan Nikolaas Langenhoven, Dr.
Silnova Anna, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Stafylakis Themos

URL

http://www.fit.vutbr.cz/research/groups/speech/publi/2018/brummer_odyssey2018_51.pdf PDF

Klíčová slova

embeddings, machine learning, speaker recognition

Abstrakt

Článek pojednává o Gaussovských meta-embeddincích pro efektivní skórování PLDA modelu s těžkým chvostem. Embeddingy ve strojovém učení jsou nízkodimenzionální reprezentace složitých vstupních vzorů s vlastností, že lze pro úlohy klasifikace a porovnání použít jednoduché geometrické operace, jako jsou euklidovské vzdálenosti a tečkové produkty. Představujeme metadata, která žijí v obecnějších vnitřních prostorech produktů a jsou navržena tak, aby lépe šířila nejistotu prostřednictvím zúženého místa pro vkládání. Tradiční vkládání se trénuje, aby maximalizovaly mezitřídy a minimalizovaly vzdálenosti v rámci třídy. Vkládání metadat je proškoleno, aby maximalizovalo propustnost relevantních informací. Jako důkaz koncepce v rozpoznávání řečníků odvozujeme extraktor ze známého generativního modelu Gaussian PLDA (GPLDA). Ukazujeme, že skóre poměru pravděpodobnosti GPLDA jsou dána vnitřními produkty Hilberta mezi Gaussovými funkcemi pravděpodobnosti, které nazýváme Gaussian meta-embeddings (GME). Extraktory pro vkládání metadat lze generativně nebo diskriminačně trénovat. GME extrahované GPLDA mají pevnou přesnost a nešíří nejistotu. Ukázali jsme, že zobecnění na těžce sledovaný PLDA dává GME s variabilními přesnostmi, které šíří nejistotu. Experimenty na NIST SRE 2010 a 2016 ukazují, že navrhovaná metoda aplikovaná na i-vektory bez normalizace délky je až o 20% přesnější než GPLDA aplikovaná na i-vektory normalizované na délku.

Rok

2018

Strany

349–356

Časopis

Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland, roč. 2018, č. 6, ISSN 2312-2846

Sborník

Proceedings of Odyssey 2018

Konference

Odyssey 2018, Les Sables d'Olonne, France, FR

Vydavatel

International Speech Communication Association

Místo

Les Sables d'Olonne

DOI

10.21437/Odyssey.2018-49

EID Scopus

2-s2.0-85054974266

BibTeX

@inproceedings{BUT155077,
  author="Johan Nikolaas Langenhoven {Brummer} and Anna {Silnova} and Lukáš {Burget} and Themos {Stafylakis}",
  title="Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model",
  booktitle="Proceedings of Odyssey 2018",
  year="2018",
  journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
  volume="2018",
  number="6",
  pages="349--356",
  publisher="International Speech Communication Association",
  address="Les Sables d'Olonne",
  doi="10.21437/Odyssey.2018-49",
  issn="2312-2846",
  url="https://www.fit.vut.cz/research/publication/11790/"
}