Detail publikace

Investigation of Specaugment for Deep Speaker Embedding Learning

WANG, S.; ROHDIN, J.; PLCHOT, O.; BURGET, L.; YU, K.; ČERNOCKÝ, J. Investigation of Specaugment for Deep Speaker Embedding Learning. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Barcelona: IEEE Signal Processing Society, 2020. p. 7139-7143. ISBN: 978-1-5090-6631-5.

Název česky

Výzkum metody Specaugment pro hluboké učení embeddingů mluvčích

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Wang Shuai
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
YU, K.
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

speaker embedding, on-the-fly data augmentation, speaker verification, specaugment

Abstrakt

SpecAugment je nově navržená metoda rozšíření dat pro rozpoznávání řeči. Náhodným maskováním pásů v log Mel spektogramu tato metoda vede k působivým zlepšením výkonu. V tomto článku zkoumáme použití SpecAugment pro úkoly ověření mluvčího. K analýze účinnosti SpecAugments se používají dva různé modely, konkrétně 1-D konvoluční TDNN a 2-D konvoluční ResNet34, proškolené buď se ztrátou Softmax nebo AAM-Softmax. Experimenty jsou prováděny na datovém souboru Voxceleb a NIST SRE 2016. Aplikací SpecAugmentu na původní čistá data nepřetržitě bez složitých metod rozšiřování off-line dat jsme získali 3,72% a 11,49% EER pro kantonský NIST SRE 2016 a Tagalog. Pro vyhodnocovací sadu Voxceleb1 jsme získali 1,47% EER.

Rok

2020

Strany

7139–7143

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

Konference

2020 IEEE Mezinárodní konference o akustice, řeči a zpracování signálu (ICASSP), Barcelona, ES

ISBN

978-1-5090-6631-5

Vydavatel

IEEE Signal Processing Society

Místo

Barcelona

DOI

10.1109/ICASSP40776.2020.9053481

UT WoS

000615970407081

EID Scopus

2-s2.0-85089236385

BibTeX

@inproceedings{BUT163947,
  author="WANG, S. and ROHDIN, J. and PLCHOT, O. and BURGET, L. and YU, K. and ČERNOCKÝ, J.",
  title="Investigation of Specaugment for Deep Speaker Embedding Learning",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2020",
  pages="7139--7143",
  publisher="IEEE Signal Processing Society",
  address="Barcelona",
  doi="10.1109/ICASSP40776.2020.9053481",
  isbn="978-1-5090-6631-5",
  url="https://ieeexplore.ieee.org/document/9053481/authors#authors"
}

Soubory

pdf wang_icassp2020_09053481.pdf 262 kB