Detail publikace

Multi-Channel Extension of Pre-trained Models for Speaker Verification

MOŠNER, L.; SERIZEL, R.; BURGET, L.; PLCHOT, O.; VINCENT, E.; PENG, J.; ČERNOCKÝ, J. Multi-Channel Extension of Pre-trained Models for Speaker Verification. In Proceedings of Interspeech 2024. Proceedings of Interspeech. Kos: International Speech Communication Association, 2024. p. 2135-2139. ISSN: 1990-9772.

Název česky

Vícekanálové rozšíření předtrénovaných modelů pro ověřování mluvčího

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Mošner Ladislav, Ing. (UPGM)
SERIZEL, R.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
VINCENT, E.
Peng Junyi (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

multi-channel speaker verification, pre-trained models

Abstrakt

V této práci se zaměřujeme na návrh vícekanálové řeči systém zpracování založený
na velkých předem vyškolených modelech. Tyto modely jsou obvykle trénovány pro
jednokanálové scénáře prostřednictvím samokontrolované učení (SSL). Běžný přístup
k použití modely SSL s daty pole mikrofonů je mají předřadit s vícekanálovým
vylepšením řeči. Nevýhodou je, že prostorové informace lze využít pouze
předzpracováním fázi a chyby vylepšení se přenesou do modelu SSL. Naším cílem je
tento problém zmírnit navržením METRO, multi- kanál Rozšíření pRetrénovaných
modelů. Prokládá se zpracování kanálů s výměnou informací mezi kanály, případně
sloučení kanálů do jednoho. Zatímco náš přístup je gen- Nyní se zaměříme na
ověření vícekanálových reproduktorů. Náš experimenty na korpusu MultiSV ukazují
pozoruhodné zlepšení porovnává nejlépe publikované výsledky na datovém souboru

Rok

2024

Strany

2135–2139

Časopis

Proceedings of Interspeech, roč. 2024, č. 9, ISSN 1990-9772

Sborník

Proceedings of Interspeech 2024

Vydavatel

International Speech Communication Association

Místo

Kos

DOI

10.21437/Interspeech.2024-1260

EID Scopus

2-s2.0-85214847936

BibTeX

@inproceedings{BUT193682,
  author="MOŠNER, L. and SERIZEL, R. and BURGET, L. and PLCHOT, O. and VINCENT, E. and PENG, J. and ČERNOCKÝ, J.",
  title="Multi-Channel Extension of Pre-trained Models for Speaker Verification",
  booktitle="Proceedings of Interspeech 2024",
  year="2024",
  journal="Proceedings of Interspeech",
  volume="2024",
  number="9",
  pages="2135--2139",
  publisher="International Speech Communication Association",
  address="Kos",
  doi="10.21437/Interspeech.2024-1260",
  issn="1990-9772",
  url="https://www.isca-archive.org/interspeech_2024/mosner24_interspeech.pdf"
}

Soubory

pdf mosner_2024_interspeech.pdf 382 kB