Detail publikace
Speaker embeddings by modeling channel-wise correlations
speaker recognition, style-transfer, deep learning
Embeddingy mluvčích extrahované pomocí hlubokých 2D konvolučních neuronových sítí se typicky modelují jako projekce statistik prvního a druhého řádu párů kanál-frekvenční frekvence na lineární vrstvu, s použitím buď průměrného, nebo pozorného sdružování podél časové osy. V tomto článku zkoumáme alternativní metodu sdružování, kde se jako statistika používají párové korelace mezi kanály pro dané frekvence. Metoda je inspirována metodami přenosu stylu v počítačovém vidění, kde se styl obrazu, modelovaný maticí kanálových korelací, přenáší na jiný obraz, aby se vytvořil nový obraz ve stylu prvního a druhého. obsah druhého. Když protáhneme analogií mezi stylem zobrazení a charakteristikami mluvčího a mezi obsahem zobrazení a fonetickou sekvencí prozkoumáme použití takových korelačních funkcí v kanálech k trénování architektury ResNet způsobem end-to-end. Naše experimenty na VoxCeleb demonstrují účinnost navrhované metody sdružování při rozpoznávání mluvčích.
@inproceedings{BUT175834,
author="Themos {Stafylakis} and Johan Andréas {Rohdin} and Lukáš {Burget}",
title="Speaker embeddings by modeling channel-wise correlations",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2021",
journal="Proceedings of Interspeech",
volume="2021",
number="8",
pages="501--505",
publisher="International Speech Communication Association",
address="Brno",
doi="10.21437/Interspeech.2021-1442",
issn="1990-9772",
url="https://www.isca-speech.org/archive/interspeech_2021/stafylakis21_interspeech.html"
}