Detail publikace
DNN Based Embeddings for Language Recognition
Plchot Oldřich, Ing., Ph.D. (UPGM)
Matějka Pavel, Ing., Ph.D. (UPGM)
Gonzalez-Rodriguez Joaquin (FIT)
Embeddings, language recognition, LID, DNN
V této práci představujeme systém identifikace jazyka (LID) založený na DNN embeddingech. V našem případě je embeddingem vektor s pevnou délkou (podobný i-vektoru), který představuje celou promluvu, ale na rozdíl od i-vektoru je navržen tak, aby obsahoval většinou informace relevantní pro cílovou úlohu (LID). Abychom získali tyto embeddingy, trénujeme hlubokou neuronovou síť (DNN) se sekvenční souhrnnou vrstvou pro klasifikaci jazyků. Zejména jsme trénovali DNN na základě obousměrných vrstev dlouhodobé krátkodobé paměti (BLSTM) rekurentní neurální sítě (RNN), jejichž výstupy po jednotlivých rámcích jsou shrnuty do průměrné a standardní odchylky. Po této vrstvě sdružování přidáme dvě plně spojené vrstvy, jejichž výstupy odpovídají vložení. Nakonec přidáme výstupní vrstvu softmax a trénujeme celou síť s cílem více tříd entropie rozlišovat mezi jazyky. Uvádíme naše výsledky na NIST LRE 2015 a porovnáváme výkon vložení a odpovídajících i-vektorů, oba modelovaných Gaussian Linear Classifier (GLC). Použití pouze vložení mělo za následek srovnatelný výkon s i-vektory a provedením fúze na úrovni skóre jsme dosáhli 7,3% relativního zlepšení oproti základní linii.
@inproceedings{BUT155045,
author="Alicia {Lozano Díez} and Oldřich {Plchot} and Pavel {Matějka} and Joaquin {Gonzalez-Rodriguez}",
title="DNN Based Embeddings for Language Recognition",
booktitle="Proceedings of ICASSP 2018",
year="2018",
pages="5184--5188",
publisher="IEEE Signal Processing Society",
address="Calgary",
doi="10.1109/ICASSP.2018.8462403",
isbn="978-1-5386-4658-8",
url="https://www.fit.vut.cz/research/publication/11723/"
}