Detail publikace
Investigation of Specaugment for Deep Speaker Embedding Learning
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
YU, K.
Černocký Jan, prof. Dr. Ing. (UPGM)
speaker embedding, on-the-fly data augmentation, speaker verification, specaugment
SpecAugment je nově navržená metoda rozšíření dat pro rozpoznávání řeči. Náhodným maskováním pásů v log Mel spektogramu tato metoda vede k působivým zlepšením výkonu. V tomto článku zkoumáme použití SpecAugment pro úkoly ověření mluvčího. K analýze účinnosti SpecAugments se používají dva různé modely, konkrétně 1-D konvoluční TDNN a 2-D konvoluční ResNet34, proškolené buď se ztrátou Softmax nebo AAM-Softmax. Experimenty jsou prováděny na datovém souboru Voxceleb a NIST SRE 2016. Aplikací SpecAugmentu na původní čistá data nepřetržitě bez složitých metod rozšiřování off-line dat jsme získali 3,72% a 11,49% EER pro kantonský NIST SRE 2016 a Tagalog. Pro vyhodnocovací sadu Voxceleb1 jsme získali 1,47% EER.
@inproceedings{BUT163947,
author="WANG, S. and ROHDIN, J. and PLCHOT, O. and BURGET, L. and YU, K. and ČERNOCKÝ, J.",
title="Investigation of Specaugment for Deep Speaker Embedding Learning",
booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
year="2020",
pages="7139--7143",
publisher="IEEE Signal Processing Society",
address="Barcelona",
doi="10.1109/ICASSP40776.2020.9053481",
isbn="978-1-5090-6631-5",
url="https://ieeexplore.ieee.org/document/9053481/authors#authors"
}