Detail publikace
An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification
Plchot Oldřich, Ing., Ph.D. (UPGM)
Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Pre-trained model, fine-tuning strategy, speaker verification, attentive pooling
V posledních letech se paradigmatu samoučení věnuje velká pozornost díky jeho velkému úspěchu v různých následných úlohách. Strategie jemného doladění pro přizpůsobení těchto předem natrénovaných modelů úloze ověřování mluvčího však dosud nebyly plně prozkoumány. V tomto článku analyzujeme několik přístupů k extrakci příznaků postavených na předem natrénovaném modelu, jakož i regularizaci a plánovač míry učení, které mají stabilizovat proces jemného doladění a dále zvýšit výkonnost: je navrženo vícehlavé faktorizované sdružování pozornosti, které má faktorizovat porovnání reprezentací mluvčích do více fonetických klastrů. Regulujeme směrem k parametrům předtrénovaného modelu a během dolaďování nastavujeme různé rychlosti učení pro každou vrstvu předtrénovaného modelu. Experimentální výsledky ukazují, že naše metoda může výrazně zkrátit dobu trénování na 4 hodiny a dosáhnout výkonu SOTA: V případě Vox1-O, Vox1-E a Vox1-H jsme dosáhli 0,59 %, 0,79 % a 1,77 % EER.
@inproceedings{BUT185120,
author="Junyi {Peng} and Oldřich {Plchot} and Themos {Stafylakis} and Ladislav {Mošner} and Lukáš {Burget} and Jan {Černocký}",
title="An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification",
booktitle="2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
year="2023",
pages="555--562",
publisher="IEEE Signal Processing Society",
address="Doha",
doi="10.1109/SLT54892.2023.10022775",
isbn="978-1-6654-7189-3",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10022775"
}