Detail publikace
Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings
Swart Albert du Preez
Mošner Ladislav, Ing. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Stafylakis Themos
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
speaker recognition, PSDA, Von Mises-Fisher
Při rozpoznávání mluvčího, kdy jsou segmenty řeči mapovány na vložené hodnoty na jednotkové hyperploše, se běžně používají dva skórovací podklady, a to kosinové skórování nebo PLDA. Obě mají v závislosti na kontextu své výhody i nevýhody. Kosinové skórování přirozeně vyplývá ze sférické geometrie, ale pro PLDA je požehnáním smíšená normalizace délky, která gaussovsky upravuje rozdělení mezi mluvčími, ale porušuje předpoklad rozdělení nezávislého na mluvčím uvnitř mluvčího. Navrhujeme PSDA, analogii PLDA, která používá Von Misesovo-Fisherovo rozdělení na hypersféře pro rozdělení uvnitř i mezi třídami. Ukazujeme, jak samosouvislost tohoto rozdělení dává uzavřený tvar skóre pravděpodobnostního poměru, což z něj činí drop-in náhradu za PLDA v době skórování. Lze skórovat všechny druhy pokusů, včetně ověřování s jedním a více záznamy, a také složitější poměry pravděpodobnosti, které lze použít při shlukování a diarizaci. Učení se provádí pomocí EM-algoritmu s aktualizacemi v uzavřeném tvaru. Vysvětlíme model a představíme několik prvních experimentů.
@inproceedings{BUT179687,
author="Johan Nikolaas Langenhoven {Brummer} and Albert du Preez {Swart} and Ladislav {Mošner} and Anna {Silnova} and Oldřich {Plchot} and Themos {Stafylakis} and Lukáš {Burget}",
title="Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2022",
journal="Proceedings of Interspeech",
volume="2022",
number="9",
pages="1446--1450",
publisher="International Speech Communication Association",
address="Incheon",
doi="10.21437/Interspeech.2022-731",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/brummer22_interspeech.pdf"
}