Detail publikace
CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification
Mošner Ladislav, Ing. (UPGM FIT VUT)
Zhang Lin, Ph.D. (FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Samostudium, ověřování mluvčího, extraktor mluvčího, mechanismus sdružování, klasifikace řeči
Modely samoučícího se učení (SSL) pro ověřování mluvčího (SV) si v posledních letech získaly značnou pozornost. Stávající SV systémy založené na SSL však často bojují se zachycením lokálních časových závislostí a jejich zobecněním napříč různými úlohami. V tomto článku navrhujeme kontextově uvědomělé vícehlavé faktorizované pozorné sdružování (CA-MHFA), což je odlehčený rámec, který zahrnuje kontextové informace z okolních rámců. CA-MHFA využívá seskupené, učitelné dotazy k efektivnímu modelování kontextových závislostí a zároveň zachování efektivity sdílením klíčů a hodnot napříč skupinami. Experimentální výsledky na datové sadě VoxCeleb ukazují, že CA-MHFA dosahuje EER 0,42 %, 0,48 % a 0,96 % na Vox1-O, Vox1-E a Vox1-H, čímž překonává složité modely jako WavLM-TDNN s menším počtem parametrů a rychlejší konvergencí. CA-MHFA navíc vykazuje silnou generalizaci napříč různými modely a úlohami SSL, včetně rozpoznávání emocí a ochrany před falšováním, což zdůrazňuje jeho robustnost a všestrannost.
@INPROCEEDINGS{FITPUB13521, author = "Junyi Peng and Ladislav Mo\v{s}ner and Lin Zhang and Old\v{r}ich Plchot and Themos Stafylakis and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification", pages = "1--5", booktitle = "Proceedings of ICASSP 2025", year = 2025, location = "Hyderabad, IN", publisher = "IEEE Biometric Council", ISBN = "979-8-3503-6874-1", doi = "10.1109/ICASSP49660.2025.10889058", language = "english", url = "https://www.fit.vut.cz/research/publication/13521" }