Detail výsledku

CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification

PENG, J.; MOŠNER, L.; ZHANG, L.; PLCHOT, O.; STAFYLAKIS, T.; BURGET, L.; ČERNOCKÝ, J. CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Peng Junyi, UPGM (FIT)
Mošner Ladislav, Ing., UPGM (FIT)
Zhang Lin, Ph.D.
Plchot Oldřich, Ing., Ph.D., UPGM (FIT)
Stafylakis Themos
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Černocký Jan, prof. Dr. Ing., UPGM (FIT)

Abstrakt

Self-supervised learning (SSL) models for speaker verifica- tion (SV) have gained
significant attention in recent years. However, existing SSL-based SV systems
often struggle to capture local temporal dependencies and generalize across
different tasks. In this paper, we pro- pose context-aware multi-head factorized
attentive pooling (CA-MHFA), a lightweight framework that incorporates contextual
information from surrounding frames. CA-MHFA leverages grouped, learnable queries
to effectively model contextual dependencies while maintaining efficiency by
sharing keys and values across groups. Experimental results on the VoxCeleb
dataset show that CA-MHFA achieves EERs of 0.42%, 0.48%, and 0.96% on Vox1-O,
Vox1-E, and Vox1-H, respectively, outperforming complex models like WavLM-TDNN
with fewer parameters and faster convergence. Additionally, CA-MHFA demonstrates
strong generalization across multiple SSL models and tasks, including emotion
recognition and anti-spoofing, highlighting its robustness and versatility.

Klíčová slova

Self-supervised learning, speaker verification, speaker extractor, pooling
mechanism, speech classification

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889058

Rok

2025

Strany

1–5

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

Konference

ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing

ISBN

979-8-3503-6874-1

Vydavatel

IEEE Signal Processing Society

Místo

Hyderabad

DOI

10.1109/ICASSP49660.2025.10889058

EID Scopus

2-s2.0-105003881276

BibTeX

@inproceedings{BUT198050,
  author="Junyi {Peng} and Ladislav {Mošner} and Lin {Zhang} and Oldřich {Plchot} and Themos {Stafylakis} and Lukáš {Burget} and Jan {Černocký}",
  title="CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2025",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Hyderabad",
  doi="10.1109/ICASSP49660.2025.10889058",
  isbn="979-8-3503-6874-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889058"
}

Soubory

pdf CA-MHFA_A_Context-Aware_Multi-Head_Factorized_Attentive_Pooling_for_SSL-Based_Speaker_Verification.pdf 621 kB

Projekty

Jazykověda, umělá inteligence a jazykové a řečové technologie: od výzkumu k aplikacím, EU, MEZISEKTOROVÁ SPOLUPRÁCE, EH23_020/0008518, zahájení: 2025-01-01, ukončení: 2028-12-31, řešení
Robustní zpracování nahrávek pro operativu a bezpečnost, MV, PROGRAM STRATEGICKÁ PODPORA ROZVOJE BEZPEČNOSTNÍHO VÝZKUMU ČR 2019-2025 (IMPAKT 1) PODPROGRAMU 1 SPOLEČNÉ VÝZKUMNÉ PROJEKTY (BV IMP1/1VS), VJ01010108, zahájení: 2020-10-01, ukončení: 2025-09-30, ukončen
Vylepšování robustních a kreativních technologií lidského jazyka prostřednictvím akcí a výzkumu CHallenge, EU, European Defence Fund, zahájení: 2024-12-01, ukončení: 2029-11-30, řešení
Výměny pro výzkum řeči a technologií, EU, Horizon 2020, zahájení: 2021-01-01, ukončení: 2025-12-31, řešení

Výzkumné skupiny

Výzkumná skupina dolování dat z řeči BUT Speech@FIT (VZ SPEECH)

Pracoviště

Ústav počítačové grafiky a multimédií (UPGM)