Detail publikace
How To Improve Your Speaker Embeddings Extractor in Generic Toolkits
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Stafylakis Themos
Černocký Jan, prof. Dr. Ing. (UPGM)
Deep neural network, speaker embedding, xvector, Tensorflow, Kaldi.
V poslední době se embeddingy mluvčího extrahované hlubokými neuronovými sítěmi staly nejmodernější metodou pro ověřování mluvčích. Cílem této práce je usnadnit její implementaci na obecnější sadě nástrojů než Kaldi, u níž očekáváme další zlepšení této metody. V tréninku zkoumáme několik triků, jako jsou účinky normalizace vstupních funkcí a společné statistiky, různé metody prevence nadměrného přizpůsobení a alternativní nelinearity, které lze použít místo lineárních jednotek usměrňovače. Dále zkoumáme rozdíl ve výkonu mezi TDNN a CNN a mezi dvěma typy mechanismu pozornosti. Experimentální výsledky datových souborů Speaker in the Wild, SRE 2016 a SRE 2018 ukazují účinnost navrhované implementace.
@inproceedings{BUT158087,
author="Hossein {Zeinali} and Lukáš {Burget} and Johan Andréas {Rohdin} and Themos {Stafylakis} and Jan {Černocký}",
title="How To Improve Your Speaker Embeddings Extractor in Generic Toolkits",
booktitle="Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)",
year="2019",
pages="6141--6145",
publisher="IEEE Signal Processing Society",
address="Brighton",
doi="10.1109/ICASSP.2019.8683445",
isbn="978-1-5386-4658-8",
url="https://ieeexplore.ieee.org/abstract/document/8683445"
}