Detail publikace

Analysis Of DNN Approaches To Speaker Identification

MATĚJKA, P.; GLEMBEK, O.; NOVOTNÝ, O.; PLCHOT, O.; GRÉZL, F.; BURGET, L.; ČERNOCKÝ, J. Analysis Of DNN Approaches To Speaker Identification. In Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016. Shanghai: IEEE Signal Processing Society, 2016. p. 5100-5104. ISBN: 978-1-4799-9988-0.

Název česky

Analýza DNN přístupů k identifikaci mluvčího

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Matějka Pavel, Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Novotný Ondřej, Ing., Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Grézl František, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

http://www.fit.vutbr.cz/research/groups/speech/publi/2016/matejka_icassp2016_0005100.pdf PDF

Klíčová slova

automatic speaker identification, deep neural networks, bottleneck features, i-vector

Abstrakt

Tato práce studuje využití funkcí úzkého hrdla (DNN) Deep Neural Network (BN) společně s tradičními funkcemi MFCC při rozpoznávání mluvčího na základě i-vektorů. Oddělíme dostatečnou extrakci statistik pomocí samostatných modelů GMM pro zarovnání rámců a pro normalizaci statistik a analyzujeme využití funkcí BN a MFCC (a jejich zřetězení) ve dvou fázích. Ukážeme také účinek použití plně kovariančních modelů GMM a na rozdíl od toho porovnáme výsledek s nedávným přístupem DNN-alignment. V telefonním stavu NIST SRE2010 vykazujeme 60% relativní zisk oproti tradiční základní hodnotě MFCC pro EER (a obdobně pro metriky NIST DCF), což vede k 0,94% EER.

Rok

2016

Strany

5100–5104

Sborník

Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016

ISBN

978-1-4799-9988-0

Vydavatel

IEEE Signal Processing Society

Místo

Shanghai

DOI

10.1109/ICASSP.2016.7472649

UT WoS

000388373405050

EID Scopus

2-s2.0-84973307705

BibTeX

@inproceedings{BUT130927,
  author="Pavel {Matějka} and Ondřej {Glembek} and Ondřej {Novotný} and Oldřich {Plchot} and František {Grézl} and Lukáš {Burget} and Jan {Černocký}",
  title="Analysis Of DNN Approaches To Speaker Identification",
  booktitle="Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016",
  year="2016",
  pages="5100--5104",
  publisher="IEEE Signal Processing Society",
  address="Shanghai",
  doi="10.1109/ICASSP.2016.7472649",
  isbn="978-1-4799-9988-0",
  url="https://www.fit.vut.cz/research/publication/11140/"
}