Detail publikace

Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings

BRUMMER, J.; SWART, A.; MOŠNER, L.; SILNOVA, A.; PLCHOT, O.; STAFYLAKIS, T.; BURGET, L. Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Incheon: International Speech Communication Association, 2022. p. 1446-1450. ISSN: 1990-9772.
Název česky
Pravděpodobnostní sférická diskriminační analýza: Alternativa k PLDA pro embeddingy s normalizovanou délkou
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Brummer Johan Nikolaas Langenhoven, Dr.
Swart Albert du Preez
Mošner Ladislav, Ing. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Stafylakis Themos
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
URL
Klíčová slova

speaker recognition, PSDA, Von Mises-Fisher

Abstrakt

Při rozpoznávání mluvčího, kdy jsou segmenty řeči mapovány na vložené hodnoty na jednotkové hyperploše, se běžně používají dva skórovací podklady, a to kosinové skórování nebo PLDA. Obě mají v závislosti na kontextu své výhody i nevýhody. Kosinové skórování přirozeně vyplývá ze sférické geometrie, ale pro PLDA je požehnáním smíšená normalizace délky, která gaussovsky upravuje rozdělení mezi mluvčími, ale porušuje předpoklad rozdělení nezávislého na mluvčím uvnitř mluvčího. Navrhujeme PSDA, analogii PLDA, která používá Von Misesovo-Fisherovo rozdělení na hypersféře pro rozdělení uvnitř i mezi třídami. Ukazujeme, jak samosouvislost tohoto rozdělení dává uzavřený tvar skóre pravděpodobnostního poměru, což z něj činí drop-in náhradu za PLDA v době skórování. Lze skórovat všechny druhy pokusů, včetně ověřování s jedním a více záznamy, a také složitější poměry pravděpodobnosti, které lze použít při shlukování a diarizaci. Učení se provádí pomocí EM-algoritmu s aktualizacemi v uzavřeném tvaru. Vysvětlíme model a představíme několik prvních experimentů.

Rok
2022
Strany
1446–1450
Časopis
Proceedings of Interspeech, roč. 2022, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Incheon
DOI
UT WoS
000900724501126
EID Scopus
BibTeX
@inproceedings{BUT179687,
  author="Johan Nikolaas Langenhoven {Brummer} and Albert du Preez {Swart} and Ladislav {Mošner} and Anna {Silnova} and Oldřich {Plchot} and Themos {Stafylakis} and Lukáš {Burget}",
  title="Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2022",
  journal="Proceedings of Interspeech",
  volume="2022",
  number="9",
  pages="1446--1450",
  publisher="International Speech Communication Association",
  address="Incheon",
  doi="10.21437/Interspeech.2022-731",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/brummer22_interspeech.pdf"
}
Nahoru