Detail publikace

Development of ABC systems for the 2021 edition of NIST Speaker Recognition evaluation

ALAM, J.; BURGET, L.; GLEMBEK, O.; MATĚJKA, P.; MOŠNER, L.; PLCHOT, O.; ROHDIN, J.; SILNOVA, A.; STAFYLAKIS, T. Development of ABC systems for the 2021 edition of NIST Speaker Recognition evaluation. Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022). Beijing: International Speech Communication Association, 2022. p. 346-353.

Název česky

Vývoj ABC systémů pro ročník 2021 NIST evalulace systémů pro rozpoznávání mluvčího

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Alam Jahangir
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Matějka Pavel, Ing., Ph.D.
Mošner Ladislav, Ing. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Stafylakis Themos
a další

URL

Klíčová slova

ověření mluvčího, rozpoznávání, evaluace

Abstrakt

V tomto příspěvku poskytujeme popis týmu ABCspolečné úsilí o rozvoj ověřování mluvčíhosystémy pro NIST Speaker Recognition Evaluation 2021 (NITSRE2021).Dvěma hlavními jsou mezijazyčné studie a studie napříč datovými souboryvýzvy představené v NIST-SRE2021. Příspěvky ABCtým jsou výsledkem aktivní spolupráce výzkumníků z VUT,CRIM, Omilia a Innovatrics. Zúčastnili jsme se všech tří blízkých podmínekstopy pro pouze audio, audio-vizuální a vizuální ověřeníúkoly. Naše systémy pouze pro audio se řídí hlubokými reproduktory(např. x-vektory) s následným skórovacím paradigmatem PLDA. Jako vloženíextraktoru vybíráme některé varianty zbytkové neuronové sítě(ResNet), neuronová síť s faktorovaným časovým zpožděním (FTDNN) aArchitektury hybridních neuronových sítí (HNN). Vložení HNNextraktor využívá sítě CNN, LSTM a TDNN a zahrnujevíceúrovňová metoda sdružování globálních místních statistik v pořádkuagregovat informace o mluvčích v krátkém časovém období akontext na úrovni výpovědi. Naše pouze vizuální systémy jsou založeny na předem vyškolenýchextraktory embeddingu využívající některé varianty ResNeta bodování je založeno na kosinové vzdálenosti. Při vývoji anaudio-vizuální systém, jednoduše pojistíme výstupy nezávislého audiaa vizuální systémy. Naše finální předložené systémy jsou získányprovedením fúze na úrovni skóre subsystémů následované skórekalibrace.

Rok

2022

Strany

346–353

Sborník

Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022)

Konference

Odyssey 2022: Workshop o rozpoznávání mluvčího a jazyka, Beijing, CN

Vydavatel

International Speech Communication Association

Místo

Beijing

DOI

10.21437/Odyssey.2022-48

BibTeX

@inproceedings{BUT179689,
  author="Jahangir {Alam} and Lukáš {Burget} and Ondřej {Glembek} and Pavel {Matějka} and Ladislav {Mošner} and Oldřich {Plchot} and Johan Andréas {Rohdin} and Anna {Silnova} and Themos {Stafylakis}",
  title="Development of ABC systems for the 2021 edition of NIST Speaker Recognition evaluation",
  booktitle="Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022)",
  year="2022",
  pages="346--353",
  publisher="International Speech Communication Association",
  address="Beijing",
  doi="10.21437/Odyssey.2022-48",
  url="https://www.isca-speech.org/archive/pdfs/odyssey_2022/alam22_odyssey.pdf"
}

Soubory

pdf alam_odyssey2022_development.pdf 757 kB