Detail publikace

CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification

PENG Junyi, MOŠNER Ladislav, ZHANG Lin, PLCHOT Oldřich, STAFYLAKIS Themos, BURGET Lukáš a ČERNOCKÝ Jan. CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification. In: Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025, s. 1-5. ISBN 979-8-3503-6874-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889058

Název česky

CA-MHFA: Kontextově orientovaný extraktor informace o mluvčím pro ověřování mluvčího na základě samoučení

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Zhang Lin, Ph.D. (FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889058

Klíčová slova

Samostudium, ověřování mluvčího, extraktor mluvčího, mechanismus sdružování, klasifikace řeči

Abstrakt

Modely samoučícího se učení (SSL) pro ověřování mluvčího (SV) si v posledních letech získaly značnou pozornost. Stávající SV systémy založené na SSL však často bojují se zachycením lokálních časových závislostí a jejich zobecněním napříč různými úlohami. V tomto článku navrhujeme kontextově uvědomělé vícehlavé faktorizované pozorné sdružování (CA-MHFA), což je odlehčený rámec, který zahrnuje kontextové informace z okolních rámců. CA-MHFA využívá seskupené, učitelné dotazy k efektivnímu modelování kontextových závislostí a zároveň zachování efektivity sdílením klíčů a hodnot napříč skupinami. Experimentální výsledky na datové sadě VoxCeleb ukazují, že CA-MHFA dosahuje EER 0,42 %, 0,48 % a 0,96 % na Vox1-O, Vox1-E a Vox1-H, čímž překonává složité modely jako WavLM-TDNN s menším počtem parametrů a rychlejší konvergencí. CA-MHFA navíc vykazuje silnou generalizaci napříč různými modely a úlohami SSL, včetně rozpoznávání emocí a ochrany před falšováním, což zdůrazňuje jeho robustnost a všestrannost.

Rok

2025

Strany

1-5

Sborník

Proceedings of ICASSP 2025

Konference

ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing, Hyderabad, IN

ISBN

979-8-3503-6874-1

Vydavatel

IEEE Biometric Council

Místo

Hyderabad, IN

DOI

10.1109/ICASSP49660.2025.10889058

BibTeX

@INPROCEEDINGS{FITPUB13521,
   author = "Junyi Peng and Ladislav Mo\v{s}ner and Lin Zhang and Old\v{r}ich Plchot and Themos Stafylakis and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2025",
   year = 2025,
   location = "Hyderabad, IN",
   publisher = "IEEE Biometric Council",
   ISBN = "979-8-3503-6874-1",
   doi = "10.1109/ICASSP49660.2025.10889058",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13521"
}