Detail publikace
Multi-Channel Extension of Pre-trained Models for Speaker Verification
SERIZEL, R.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
VINCENT, E.
Peng Junyi (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
multi-channel speaker verification, pre-trained models
V této práci se zaměřujeme na návrh vícekanálové řeči systém zpracování založený
na velkých předem vyškolených modelech. Tyto modely jsou obvykle trénovány pro
jednokanálové scénáře prostřednictvím samokontrolované učení (SSL). Běžný přístup
k použití modely SSL s daty pole mikrofonů je mají předřadit s vícekanálovým
vylepšením řeči. Nevýhodou je, že prostorové informace lze využít pouze
předzpracováním fázi a chyby vylepšení se přenesou do modelu SSL. Naším cílem je
tento problém zmírnit navržením METRO, multi- kanál Rozšíření pRetrénovaných
modelů. Prokládá se zpracování kanálů s výměnou informací mezi kanály, případně
sloučení kanálů do jednoho. Zatímco náš přístup je gen- Nyní se zaměříme na
ověření vícekanálových reproduktorů. Náš experimenty na korpusu MultiSV ukazují
pozoruhodné zlepšení porovnává nejlépe publikované výsledky na datovém souboru
@inproceedings{BUT193682,
author="MOŠNER, L. and SERIZEL, R. and BURGET, L. and PLCHOT, O. and VINCENT, E. and PENG, J. and ČERNOCKÝ, J.",
title="Multi-Channel Extension of Pre-trained Models for Speaker Verification",
booktitle="Proceedings of Interspeech 2024",
year="2024",
journal="Proceedings of Interspeech",
volume="2024",
number="9",
pages="2135--2139",
publisher="International Speech Communication Association",
address="Kos",
doi="10.21437/Interspeech.2024-1260",
issn="1990-9772",
url="https://www.isca-archive.org/interspeech_2024/mosner24_interspeech.pdf"
}