Detail publikace

How To Improve Your Speaker Embeddings Extractor in Generic Toolkits

ZEINALI, H.; BURGET, L.; ROHDIN, J.; STAFYLAKIS, T.; ČERNOCKÝ, J. How To Improve Your Speaker Embeddings Extractor in Generic Toolkits. In Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP). Brighton: IEEE Signal Processing Society, 2019. p. 6141-6145. ISBN: 978-1-5386-4658-8.
Název česky
Jak zlepšit Váš extraktor embeddingů mluvčích v běžných toolkitech
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Deep neural network, speaker embedding, xvector, Tensorflow, Kaldi.

Abstrakt

V poslední době se embeddingy mluvčího extrahované hlubokými neuronovými sítěmi staly nejmodernější metodou pro ověřování mluvčích. Cílem této práce je usnadnit její implementaci na obecnější sadě nástrojů než Kaldi, u níž očekáváme další zlepšení této metody. V tréninku zkoumáme několik triků, jako jsou účinky normalizace vstupních funkcí a společné statistiky, různé metody prevence nadměrného přizpůsobení a alternativní nelinearity, které lze použít místo lineárních jednotek usměrňovače. Dále zkoumáme rozdíl ve výkonu mezi TDNN a CNN a mezi dvěma typy mechanismu pozornosti. Experimentální výsledky datových souborů Speaker in the Wild, SRE 2016 a SRE 2018 ukazují účinnost navrhované implementace.

Rok
2019
Strany
6141–6145
Sborník
Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)
ISBN
978-1-5386-4658-8
Vydavatel
IEEE Signal Processing Society
Místo
Brighton
DOI
UT WoS
000482554006074
EID Scopus
BibTeX
@inproceedings{BUT158087,
  author="Hossein {Zeinali} and Lukáš {Burget} and Johan Andréas {Rohdin} and Themos {Stafylakis} and Jan {Černocký}",
  title="How To Improve Your Speaker Embeddings Extractor in Generic Toolkits",
  booktitle="Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)",
  year="2019",
  pages="6141--6145",
  publisher="IEEE Signal Processing Society",
  address="Brighton",
  doi="10.1109/ICASSP.2019.8683445",
  isbn="978-1-5386-4658-8",
  url="https://ieeexplore.ieee.org/abstract/document/8683445"
}
Nahoru