Detail publikace
Analyzing speaker verification embedding extractors and back-ends under language and channel mismatch
SILNOVA, A.; STAFYLAKIS, T.; MOŠNER, L.; PLCHOT, O.; ROHDIN, J.; MATĚJKA, P.; BURGET, L.; GLEMBEK, O.; BRUMMER, J. Analyzing speaker verification embedding extractors and back-ends under language and channel mismatch. Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022). Beijing: International Speech Communication Association, 2022. p. 9-16.
Název česky
Analýza extraktorů embeddingů a back-endů pro ověřování mluvčího v případech nekoherence přenosového kanálu a jazyka
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Silnova Anna, M.Sc., Ph.D.
(UPGM)
Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Matějka Pavel, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Brummer Johan Nikolaas Langenhoven, Dr.
Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Matějka Pavel, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Brummer Johan Nikolaas Langenhoven, Dr.
URL
Klíčová slova
speaker, verification, embedding
Abstrakt
V tomto článku analyzujeme chování a výkon embeddingů mluvčích a back-endový skórovací model v rámci neshody domény a jazyka. Prezentujeme naše zjištění týkající se architektur embeddingu mluvčích na bázi ResNet a ukazujeme, že snížený časový krok přináší lepší výkon. Poté zvážíme back-end PLDA a ukážeme, jak může mít kombinace malého podprostoru mluvčích, jazykově závislé směsi PLDA a projekce atributů obtěžování drastický dopad na výkon systému. Kromě toho představujeme účinný způsob skórování a fúze vektorů zadních logitů třídy, o kterých se nedávno ukázalo, že dobře fungují při ověřování mluvčího. Experimenty se provádějí pomocí nastavení NIST SRE 2021.
Rok
2022
Strany
9–16
Sborník
Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022)
Vydavatel
International Speech Communication Association
Místo
Beijing
DOI
BibTeX
@inproceedings{BUT179660,
author="Anna {Silnova} and Themos {Stafylakis} and Ladislav {Mošner} and Oldřich {Plchot} and Johan Andréas {Rohdin} and Pavel {Matějka} and Lukáš {Burget} and Ondřej {Glembek} and Johan Nikolaas Langenhoven {Brummer}",
title="Analyzing speaker verification embedding extractors and back-ends under language and channel mismatch",
booktitle="Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022)",
year="2022",
pages="9--16",
publisher="International Speech Communication Association",
address="Beijing",
doi="10.21437/Odyssey.2022-2",
url="https://www.isca-speech.org/archive/pdfs/odyssey_2022/silnova22_odyssey.pdf"
}