Detail publikace

Probabilistic embeddings for speaker diarization

SILNOVA, A.; BRUMMER, J.; ROHDIN, J.; STAFYLAKIS, T.; BURGET, L. Probabilistic embeddings for speaker diarization. Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Tokyo: International Speech Communication Association, 2020. p. 24-31. ISSN: 2312-2846.
Název česky
Pravděpodobnostní embeddingy pro diarizaci řečníků
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Silnova Anna, M.Sc., Ph.D. (UPGM)
Brummer Johan Nikolaas Langenhoven, Dr.
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Stafylakis Themos
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
URL
Klíčová slova

probabilistic embeddings, speaker diarization

Abstrakt

Nedávno bylo ukázáno, že embeddingy řečníka (x-vektory) extrahované z velmi krátkých segmentů řeči poskytují konkurenční výkon v diarizaci řečníka. Zobecňujeme tento recept extrakcí z každého řečového segmentu, paralelně s x-vektorem, také diagonální přesnou matici, čímž poskytujeme cestu pro šíření informací o kvalitě řečového segmentu do backendu PLDA bodování. Tyto přesnosti kvantifikují nejistotu ohledně toho, jaké hodnoty by embeddings mohly být, kdyby byly extrahovány z vysoce kvalitních řečových segmentů. Navržené pravděpodobnostní vložení (x-vektory s přesnostmi) jsou propojeny s PLDA modelem zpracováním x-vektorů jako skrytých proměnných a jejich marginalizací. Navrhované pravděpodobnostní vložení použijeme jako vstup do algoritmu aglomerativní hierarchické klastrování (AHC) k provedení diarizace v hodnotící sadě DIHARD19. Vypočítáváme plnou pravděpodobnost PLDA podle knihy pro každou hypotézu shlukování, kterou zvažuje AHC. Provádíme společné diskriminační školení parametrů PLDA a pravděpodobnostního extraktoru x-vektorů. Prokazujeme zvýšení přesnosti vzhledem k základnímu algoritmu AHC, který se používá u tradičních xvektorů (bez nejistoty) a který používá spíše průměrování binárních log-pravděpodobnostních poměrů, než hodnocení podle knihy.

Rok
2020
Strany
24–31
Časopis
Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland, roč. 2020, č. 11, ISSN 2312-2846
Sborník
Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop
Vydavatel
International Speech Communication Association
Místo
Tokyo
DOI
BibTeX
@inproceedings{BUT164068,
  author="Anna {Silnova} and Johan Nikolaas Langenhoven {Brummer} and Johan Andréas {Rohdin} and Themos {Stafylakis} and Lukáš {Burget}",
  title="Probabilistic embeddings for speaker diarization",
  booktitle="Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop",
  year="2020",
  journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
  volume="2020",
  number="11",
  pages="24--31",
  publisher="International Speech Communication Association",
  address="Tokyo",
  doi="10.21437/Odyssey.2020-4",
  issn="2312-2846",
  url="https://www.isca-speech.org/archive/Odyssey_2020/abstracts/75.html"
}
Nahoru