Detail publikace
Probabilistic embeddings for speaker diarization
Brummer Johan Nikolaas Langenhoven, Dr.
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Stafylakis Themos
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
probabilistic embeddings, speaker diarization
Nedávno bylo ukázáno, že embeddingy řečníka (x-vektory) extrahované z velmi krátkých segmentů řeči poskytují konkurenční výkon v diarizaci řečníka. Zobecňujeme tento recept extrakcí z každého řečového segmentu, paralelně s x-vektorem, také diagonální přesnou matici, čímž poskytujeme cestu pro šíření informací o kvalitě řečového segmentu do backendu PLDA bodování. Tyto přesnosti kvantifikují nejistotu ohledně toho, jaké hodnoty by embeddings mohly být, kdyby byly extrahovány z vysoce kvalitních řečových segmentů. Navržené pravděpodobnostní vložení (x-vektory s přesnostmi) jsou propojeny s PLDA modelem zpracováním x-vektorů jako skrytých proměnných a jejich marginalizací. Navrhované pravděpodobnostní vložení použijeme jako vstup do algoritmu aglomerativní hierarchické klastrování (AHC) k provedení diarizace v hodnotící sadě DIHARD19. Vypočítáváme plnou pravděpodobnost PLDA podle knihy pro každou hypotézu shlukování, kterou zvažuje AHC. Provádíme společné diskriminační školení parametrů PLDA a pravděpodobnostního extraktoru x-vektorů. Prokazujeme zvýšení přesnosti vzhledem k základnímu algoritmu AHC, který se používá u tradičních xvektorů (bez nejistoty) a který používá spíše průměrování binárních log-pravděpodobnostních poměrů, než hodnocení podle knihy.
@inproceedings{BUT164068,
author="Anna {Silnova} and Johan Nikolaas Langenhoven {Brummer} and Johan Andréas {Rohdin} and Themos {Stafylakis} and Lukáš {Burget}",
title="Probabilistic embeddings for speaker diarization",
booktitle="Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop",
year="2020",
journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
volume="2020",
number="11",
pages="24--31",
publisher="International Speech Communication Association",
address="Tokyo",
doi="10.21437/Odyssey.2020-4",
issn="2312-2846",
url="https://www.isca-speech.org/archive/Odyssey_2020/abstracts/75.html"
}