Detail publikace
ABC SYSTEM DESCRIPTION FOR NIST SRE 2024
BARAHONA QUIRÓS, S.
Boboš Dominik, Ing.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Cumani Sandro, Ph.D.
DAHMANE, M.
Han Jiangyu (UPGM)
HLAVÁČEK, M.
KODOVSKÝ, M.
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Mošner Ladislav, Ing. (UPGM)
Pálka Petr, Bc. (UPGM)
Pavlíček Tomáš, Ing.
Peng Junyi (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
RAJASEKHAR, P.
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Stafylakis Themos
Zhang Lin, Ph.D. (UPGM)
NIST, speaker, recognition, evaluation
Tento článek představuje příspěvek týmu ABC do hodnocení NIST SRE 2024,
spolupráce mezi VUT, Polito, Phonexia, Omilia, UAM a CRIM. Náš tým se podílel na
všech hodnotících stopách (pouze audio, pouze vizuální a audiovizuální) za
pevných i otevřených podmínek. Vyvinuli jsme různé frontendy, backendy
a strategie pro kalibraci a fúzi pro optimalizaci výkonu systému. Pevné
a otevřené podmínky sdílejí některá řešení. V systémech pouze pro audio jsme
použili varianty ResNet a nově představený model ReDimNet jako frontendy pro
extrakci vložení. Poté jsme prozkoumali různé backendy včetně kosinového
skórování, Pravděpodobnostní lineární diskriminační analýzy a Pairwise Support
Vector Machine. Pro vizuální systémy jsme přijali rámec Insightface, využili jsme
ResNet100 a MagFace předem trénované na datové sadě MS1MV2. Bylo použito kosinové
skórování v rámci různých strategií, přičemž pro kalibraci i fúzi byla použita
logistická regrese. Nakonec byly partitury z pouze audio a vizuálních systémů
sloučeny pomocí logistické regrese pro předložení audio-vizuální stopě.
V návaznosti na pevný stav zahrnoval otevřený stav vylepšení, jako jsou větší
modely ResNet, další trénovací data z datové sady VoxBlink2 a předem trénovaný
model základů XLS-R.
@inproceedings{BUT193961,
author="ALAM, J. and BARAHONA QUIRÓS, S. and BOBOŠ, D. and BURGET, L. and CUMANI, S. and DAHMANE, M. and HAN, J. and HLAVÁČEK, M. and KODOVSKÝ, M. and LANDINI, F. and MOŠNER, L. and PÁLKA, P. and PAVLÍČEK, T. and PENG, J. and PLCHOT, O. and RAJASEKHAR, P. and ROHDIN, J. and SILNOVA, A. and STAFYLAKIS, T. and ZHANG, L.",
title="ABC SYSTEM DESCRIPTION FOR NIST SRE 2024",
booktitle="Proceedings of NIST SRE 2024",
year="2024",
pages="1--9",
publisher="National Institute of Standards and Technology",
address="San Juan",
url="https://www.fit.vut.cz/research/publication/13341/"
}