Detail publikace

Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model

BRUMMER, J.; SILNOVA, A.; BURGET, L.; STAFYLAKIS, T. Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model. In Proceedings of Odyssey 2018. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Les Sables d'Olonne: International Speech Communication Association, 2018. p. 349-356. ISSN: 2312-2846.
Název česky
Gaussovské meta-embeddingy pro efektivní skórování PLDA modelu s těžkým chvostem
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Brummer Johan Nikolaas Langenhoven, Dr.
Silnova Anna, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Stafylakis Themos
URL
Klíčová slova

embeddings, machine learning, speaker recognition

Abstrakt

Článek pojednává o Gaussovských meta-embeddincích pro efektivní skórování PLDA modelu s těžkým chvostem. Embeddingy ve strojovém učení jsou nízkodimenzionální reprezentace složitých vstupních vzorů s vlastností, že lze pro úlohy klasifikace a porovnání použít jednoduché geometrické operace, jako jsou euklidovské vzdálenosti a tečkové produkty. Představujeme metadata, která žijí v obecnějších vnitřních prostorech produktů a jsou navržena tak, aby lépe šířila nejistotu prostřednictvím zúženého místa pro vkládání. Tradiční vkládání se trénuje, aby maximalizovaly mezitřídy a minimalizovaly vzdálenosti v rámci třídy. Vkládání metadat je proškoleno, aby maximalizovalo propustnost relevantních informací. Jako důkaz koncepce v rozpoznávání řečníků odvozujeme extraktor ze známého generativního modelu Gaussian PLDA (GPLDA). Ukazujeme, že skóre poměru pravděpodobnosti GPLDA jsou dána vnitřními produkty Hilberta mezi Gaussovými funkcemi pravděpodobnosti, které nazýváme Gaussian meta-embeddings (GME). Extraktory pro vkládání metadat lze generativně nebo diskriminačně trénovat. GME extrahované GPLDA mají pevnou přesnost a nešíří nejistotu. Ukázali jsme, že zobecnění na těžce sledovaný PLDA dává GME s variabilními přesnostmi, které šíří nejistotu. Experimenty na NIST SRE 2010 a 2016 ukazují, že navrhovaná metoda aplikovaná na i-vektory bez normalizace délky je až o 20% přesnější než GPLDA aplikovaná na i-vektory normalizované na délku.

Rok
2018
Strany
349–356
Časopis
Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland, roč. 2018, č. 6, ISSN 2312-2846
Sborník
Proceedings of Odyssey 2018
Konference
Odyssey 2018, Les Sables d'Olonne, France, FR
Vydavatel
International Speech Communication Association
Místo
Les Sables d'Olonne
DOI
EID Scopus
BibTeX
@inproceedings{BUT155077,
  author="Johan Nikolaas Langenhoven {Brummer} and Anna {Silnova} and Lukáš {Burget} and Themos {Stafylakis}",
  title="Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model",
  booktitle="Proceedings of Odyssey 2018",
  year="2018",
  journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
  volume="2018",
  number="6",
  pages="349--356",
  publisher="International Speech Communication Association",
  address="Les Sables d'Olonne",
  doi="10.21437/Odyssey.2018-49",
  issn="2312-2846",
  url="https://www.fit.vut.cz/research/publication/11790/"
}
Nahoru