Detail publikace

DNN Based Embeddings for Language Recognition

LOZANO DÍEZ, A.; PLCHOT, O.; MATĚJKA, P.; GONZALEZ-RODRIGUEZ, J. DNN Based Embeddings for Language Recognition. In Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018. p. 5184-5188. ISBN: 978-1-5386-4658-8.

Název česky

DNN Embeddings pro rozpoznávání jazyka

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Lozano Díez Alicia, Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Matějka Pavel, Ing., Ph.D. (UPGM)
Gonzalez-Rodriguez Joaquin (FIT)

URL

http://www.fit.vutbr.cz/research/groups/speech/publi/2018/lozano_icassp2018_0005184.pdf PDF

Klíčová slova

Embeddings, language recognition, LID, DNN

Abstrakt

V této práci představujeme systém identifikace jazyka (LID) založený na DNN embeddingech. V našem případě je embeddingem vektor s pevnou délkou (podobný i-vektoru), který představuje celou promluvu, ale na rozdíl od i-vektoru je navržen tak, aby obsahoval většinou informace relevantní pro cílovou úlohu (LID). Abychom získali tyto embeddingy, trénujeme hlubokou neuronovou síť (DNN) se sekvenční souhrnnou vrstvou pro klasifikaci jazyků. Zejména jsme trénovali DNN na základě obousměrných vrstev dlouhodobé krátkodobé paměti (BLSTM) rekurentní neurální sítě (RNN), jejichž výstupy po jednotlivých rámcích jsou shrnuty do průměrné a standardní odchylky. Po této vrstvě sdružování přidáme dvě plně spojené vrstvy, jejichž výstupy odpovídají vložení. Nakonec přidáme výstupní vrstvu softmax a trénujeme celou síť s cílem více tříd entropie rozlišovat mezi jazyky. Uvádíme naše výsledky na NIST LRE 2015 a porovnáváme výkon vložení a odpovídajících i-vektorů, oba modelovaných Gaussian Linear Classifier (GLC). Použití pouze vložení mělo za následek srovnatelný výkon s i-vektory a provedením fúze na úrovni skóre jsme dosáhli 7,3% relativního zlepšení oproti základní linii.

Rok

2018

Strany

5184–5188

Sborník

Proceedings of ICASSP 2018

ISBN

978-1-5386-4658-8

Vydavatel

IEEE Signal Processing Society

Místo

Calgary

DOI

10.1109/ICASSP.2018.8462403

UT WoS

000446384605071

EID Scopus

2-s2.0-85054288455

BibTeX

@inproceedings{BUT155045,
  author="Alicia {Lozano Díez} and Oldřich {Plchot} and Pavel {Matějka} and Joaquin {Gonzalez-Rodriguez}",
  title="DNN Based Embeddings for Language Recognition",
  booktitle="Proceedings of ICASSP 2018",
  year="2018",
  pages="5184--5188",
  publisher="IEEE Signal Processing Society",
  address="Calgary",
  doi="10.1109/ICASSP.2018.8462403",
  isbn="978-1-5386-4658-8",
  url="https://www.fit.vut.cz/research/publication/11723/"
}