Detail publikace

Speaker embeddings by modeling channel-wise correlations

STAFYLAKIS, T.; ROHDIN, J.; BURGET, L. Speaker embeddings by modeling channel-wise correlations. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Brno: International Speech Communication Association, 2021. p. 501-505. ISSN: 1990-9772.
Název česky
Embeddingy mluvčích získané pomocí modelování korelací mezi kanály
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

speaker recognition, style-transfer, deep learning

Abstrakt

Embeddingy mluvčích extrahované pomocí hlubokých 2D konvolučních neuronových sítí se typicky modelují jako projekce statistik prvního a druhého řádu párů kanál-frekvenční frekvence na lineární vrstvu, s použitím buď průměrného, nebo pozorného sdružování podél časové osy. V tomto článku zkoumáme alternativní metodu sdružování, kde se jako statistika používají párové korelace mezi kanály pro dané frekvence. Metoda je inspirována metodami přenosu stylu v počítačovém vidění, kde se styl obrazu, modelovaný maticí kanálových korelací, přenáší na jiný obraz, aby se vytvořil nový obraz ve stylu prvního a druhého. obsah druhého. Když protáhneme analogií mezi stylem zobrazení a charakteristikami mluvčího a mezi obsahem zobrazení a fonetickou sekvencí prozkoumáme použití takových korelačních funkcí v kanálech k trénování architektury ResNet způsobem end-to-end. Naše experimenty na VoxCeleb demonstrují účinnost navrhované metody sdružování při rozpoznávání mluvčích.

Rok
2021
Strany
501–505
Časopis
Proceedings of Interspeech, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Brno
DOI
UT WoS
000841879500101
EID Scopus
BibTeX
@inproceedings{BUT175834,
  author="Themos {Stafylakis} and Johan Andréas {Rohdin} and Lukáš {Burget}",
  title="Speaker embeddings by modeling channel-wise correlations",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2021",
  journal="Proceedings of Interspeech",
  volume="2021",
  number="8",
  pages="501--505",
  publisher="International Speech Communication Association",
  address="Brno",
  doi="10.21437/Interspeech.2021-1442",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/interspeech_2021/stafylakis21_interspeech.html"
}
Nahoru