Detail publikace

An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification

PENG, J.; PLCHOT, O.; STAFYLAKIS, T.; MOŠNER, L.; BURGET, L.; ČERNOCKÝ, J. An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification. In 2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023. p. 555-562. ISBN: 978-1-6654-7189-3.
Název česky
Backend pro rozpoznávání mluvčího založený na attention modelech umožňující efektivní jemné doladění transformerových modelů
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Pre-trained model, fine-tuning strategy, speaker verification, attentive pooling

Abstrakt

V posledních letech se paradigmatu samoučení věnuje velká pozornost díky jeho velkému úspěchu v různých následných úlohách. Strategie jemného doladění pro přizpůsobení těchto předem natrénovaných modelů úloze ověřování mluvčího však dosud nebyly plně prozkoumány. V tomto článku analyzujeme několik přístupů k extrakci příznaků postavených na předem natrénovaném modelu, jakož i regularizaci a plánovač míry učení, které mají stabilizovat proces jemného doladění a dále zvýšit výkonnost: je navrženo vícehlavé faktorizované sdružování pozornosti, které má faktorizovat porovnání reprezentací mluvčích do více fonetických klastrů. Regulujeme směrem k parametrům předtrénovaného modelu a během dolaďování nastavujeme různé rychlosti učení pro každou vrstvu předtrénovaného modelu. Experimentální výsledky ukazují, že naše metoda může výrazně zkrátit dobu trénování na 4 hodiny a dosáhnout výkonu SOTA: V případě Vox1-O, Vox1-E a Vox1-H jsme dosáhli 0,59 %, 0,79 % a 1,77 % EER.

Rok
2023
Strany
555–562
Sborník
2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings
Konference
2022 IEEE Konference o technologii mluveného jazyka (SLT), Doha, QA
ISBN
978-1-6654-7189-3
Vydavatel
IEEE Signal Processing Society
Místo
Doha
DOI
UT WoS
000968851900075
EID Scopus
BibTeX
@inproceedings{BUT185120,
  author="Junyi {Peng} and Oldřich {Plchot} and Themos {Stafylakis} and Ladislav {Mošner} and Lukáš {Burget} and Jan {Černocký}",
  title="An attention-based backend allowing efficient fine-tuning of transformer models for speaker verification",
  booktitle="2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
  year="2023",
  pages="555--562",
  publisher="IEEE Signal Processing Society",
  address="Doha",
  doi="10.1109/SLT54892.2023.10022775",
  isbn="978-1-6654-7189-3",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10022775"
}
Nahoru