Detail publikace

ABC SYSTEM DESCRIPTION FOR NIST SRE 2024

ALAM, J.; BARAHONA QUIRÓS, S.; BOBOŠ, D.; BURGET, L.; CUMANI, S.; DAHMANE, M.; HAN, J.; HLAVÁČEK, M.; KODOVSKÝ, M.; LANDINI, F.; MOŠNER, L.; PÁLKA, P.; PAVLÍČEK, T.; PENG, J.; PLCHOT, O.; RAJASEKHAR, P.; ROHDIN, J.; SILNOVA, A.; STAFYLAKIS, T.; ZHANG, L. ABC SYSTEM DESCRIPTION FOR NIST SRE 2024. Proceedings of NIST SRE 2024. San Juan: National Institute of Standards and Technology, 2024. p. 1-9.
Název česky
Popis ABC systému pro NIST SRE 2024 evaluace
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Alam Jahangir
BARAHONA QUIRÓS, S.
Boboš Dominik, Ing.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Cumani Sandro, Ph.D.
DAHMANE, M.
Han Jiangyu (UPGM)
HLAVÁČEK, M.
KODOVSKÝ, M.
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Mošner Ladislav, Ing. (UPGM)
Pálka Petr, Bc. (UPGM)
Pavlíček Tomáš, Ing.
Peng Junyi (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
RAJASEKHAR, P.
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Stafylakis Themos
Zhang Lin, Ph.D. (UPGM)
URL
Klíčová slova

NIST, speaker, recognition, evaluation

Abstrakt

Tento článek představuje příspěvek týmu ABC do hodnocení NIST SRE 2024,
spolupráce mezi VUT, Polito, Phonexia, Omilia, UAM a CRIM. Náš tým se podílel na
všech hodnotících stopách (pouze audio, pouze vizuální a audiovizuální) za
pevných i otevřených podmínek. Vyvinuli jsme různé frontendy, backendy
a strategie pro kalibraci a fúzi pro optimalizaci výkonu systému. Pevné
a otevřené podmínky sdílejí některá řešení. V systémech pouze pro audio jsme
použili varianty ResNet a nově představený model ReDimNet jako frontendy pro
extrakci vložení. Poté jsme prozkoumali různé backendy včetně kosinového
skórování, Pravděpodobnostní lineární diskriminační analýzy a Pairwise Support
Vector Machine. Pro vizuální systémy jsme přijali rámec Insightface, využili jsme
ResNet100 a MagFace předem trénované na datové sadě MS1MV2. Bylo použito kosinové
skórování v rámci různých strategií, přičemž pro kalibraci i fúzi byla použita
logistická regrese. Nakonec byly partitury z pouze audio a vizuálních systémů
sloučeny pomocí logistické regrese pro předložení audio-vizuální stopě.
V návaznosti na pevný stav zahrnoval otevřený stav vylepšení, jako jsou větší
modely ResNet, další trénovací data z datové sady VoxBlink2 a předem trénovaný
model základů XLS-R.

Rok
2024
Strany
1–9
Sborník
Proceedings of NIST SRE 2024
Vydavatel
National Institute of Standards and Technology
Místo
San Juan
BibTeX
@inproceedings{BUT193961,
  author="ALAM, J. and BARAHONA QUIRÓS, S. and BOBOŠ, D. and BURGET, L. and CUMANI, S. and DAHMANE, M. and HAN, J. and HLAVÁČEK, M. and KODOVSKÝ, M. and LANDINI, F. and MOŠNER, L. and PÁLKA, P. and PAVLÍČEK, T. and PENG, J. and PLCHOT, O. and RAJASEKHAR, P. and ROHDIN, J. and SILNOVA, A. and STAFYLAKIS, T. and ZHANG, L.",
  title="ABC SYSTEM DESCRIPTION FOR NIST SRE 2024",
  booktitle="Proceedings of NIST SRE 2024",
  year="2024",
  pages="1--9",
  publisher="National Institute of Standards and Technology",
  address="San Juan",
  url="https://www.fit.vut.cz/research/publication/13341/"
}
Soubory
Nahoru