Detail publikace

CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification

PENG Junyi, MOŠNER Ladislav, ZHANG Lin, PLCHOT Oldřich, STAFYLAKIS Themos, BURGET Lukáš a ČERNOCKÝ Jan. CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification. In: Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025, s. 1-5. ISBN 979-8-3503-6874-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889058
Název česky
CA-MHFA: Kontextově orientovaný extraktor informace o mluvčím pro ověřování mluvčího na základě samoučení
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Zhang Lin, Ph.D. (FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Klíčová slova

Samostudium, ověřování mluvčího, extraktor mluvčího, mechanismus sdružování, klasifikace řeči

Abstrakt

Modely samoučícího se učení (SSL) pro ověřování mluvčího (SV) si v posledních letech získaly značnou pozornost. Stávající SV systémy založené na SSL však často bojují se zachycením lokálních časových závislostí a jejich zobecněním napříč různými úlohami. V tomto článku navrhujeme kontextově uvědomělé vícehlavé faktorizované pozorné sdružování (CA-MHFA), což je odlehčený rámec, který zahrnuje kontextové informace z okolních rámců. CA-MHFA využívá seskupené, učitelné dotazy k efektivnímu modelování kontextových závislostí a zároveň zachování efektivity sdílením klíčů a hodnot napříč skupinami. Experimentální výsledky na datové sadě VoxCeleb ukazují, že CA-MHFA dosahuje EER 0,42 %, 0,48 % a 0,96 % na Vox1-O, Vox1-E a Vox1-H, čímž překonává složité modely jako WavLM-TDNN s menším počtem parametrů a rychlejší konvergencí. CA-MHFA navíc vykazuje silnou generalizaci napříč různými modely a úlohami SSL, včetně rozpoznávání emocí a ochrany před falšováním, což zdůrazňuje jeho robustnost a všestrannost.

Rok
2025
Strany
1-5
Sborník
Proceedings of ICASSP 2025
Konference
ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Biometric Council
Místo
Hyderabad, IN
DOI
BibTeX
@INPROCEEDINGS{FITPUB13521,
   author = "Junyi Peng and Ladislav Mo\v{s}ner and Lin Zhang and Old\v{r}ich Plchot and Themos Stafylakis and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2025",
   year = 2025,
   location = "Hyderabad, IN",
   publisher = "IEEE Biometric Council",
   ISBN = "979-8-3503-6874-1",
   doi = "10.1109/ICASSP49660.2025.10889058",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13521"
}
Nahoru