Detail publikace
Improving Speaker Verification with Self-Pretrained Transformer Models
Plchot Oldřich, Ing., Ph.D. (UPGM)
Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
speaker verification, pre-trained speech transformer model, pre-training,
V poslední době se dolaďují velké předtrénované modely Transformer pomocí navazující datové soubory se těší rostoucímu zájmu. I přes jejich úspěchu, je stále obtížné rozdělit výhody rozsáhlých datových sad a struktur Transformer z omezení předtréninku. V tomto článku zavedeme hierarchický tréninkový přístup, pojmenovaný sebepretrénování, ve kterém Modely transformátorů jsou předem připraveny a vyladěny na stejném datový soubor. Tři předtrénované modely včetně HuBERT, Conformer aWavLM jsou hodnoceny na čtyřech různých ověřeních mluvčích datové sady s různou velikostí. Naše experimenty to ukazují tyto předem připravené modely dosahují konkurenceschopného výkonu na úlohách ověřování následných mluvčích pouze s jednou třetinou dat ve srovnání s předtréninkem Librispeech, jako je Vox- Celeb1 a CNCeleb1. Navíc pouze při předtréninku na VoxCeleb2-dev model Conformer překonává model jeden předem trénovaný na 94 000 hodinách dat pomocí stejného jemného doladění nastavení.
@inproceedings{BUT185575,
author="Junyi {Peng} and Oldřich {Plchot} and Themos {Stafylakis} and Ladislav {Mošner} and Lukáš {Burget} and Jan {Černocký}",
title="Improving Speaker Verification with Self-Pretrained Transformer Models",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2023",
journal="Proceedings of Interspeech",
volume="2023",
number="08",
pages="5361--5365",
publisher="International Speech Communication Association",
address="Dublin",
doi="10.21437/Interspeech.2023-453",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2023/peng23_interspeech.pdf"
}