Detail publikace

DNN Based Embeddings for Language Recognition

LOZANO DÍEZ, A.; PLCHOT, O.; MATĚJKA, P.; GONZALEZ-RODRIGUEZ, J. DNN Based Embeddings for Language Recognition. In Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018. p. 5184-5188. ISBN: 978-1-5386-4658-8.
Název česky
DNN Embeddings pro rozpoznávání jazyka
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Embeddings, language recognition, LID, DNN

Abstrakt

V této práci představujeme systém identifikace jazyka (LID) založený na DNN embeddingech. V našem případě je embeddingem vektor s pevnou délkou (podobný i-vektoru), který představuje celou promluvu, ale na rozdíl od i-vektoru je navržen tak, aby obsahoval většinou informace relevantní pro cílovou úlohu (LID). Abychom získali tyto embeddingy, trénujeme hlubokou neuronovou síť (DNN) se sekvenční souhrnnou vrstvou pro klasifikaci jazyků. Zejména jsme trénovali DNN na základě obousměrných vrstev dlouhodobé krátkodobé paměti (BLSTM) rekurentní neurální sítě (RNN), jejichž výstupy po jednotlivých rámcích jsou shrnuty do průměrné a standardní odchylky. Po této vrstvě sdružování přidáme dvě plně spojené vrstvy, jejichž výstupy odpovídají vložení. Nakonec přidáme výstupní vrstvu softmax a trénujeme celou síť s cílem více tříd entropie rozlišovat mezi jazyky. Uvádíme naše výsledky na NIST LRE 2015 a porovnáváme výkon vložení a odpovídajících i-vektorů, oba modelovaných Gaussian Linear Classifier (GLC). Použití pouze vložení mělo za následek srovnatelný výkon s i-vektory a provedením fúze na úrovni skóre jsme dosáhli 7,3% relativního zlepšení oproti základní linii.

Rok
2018
Strany
5184–5188
Sborník
Proceedings of ICASSP 2018
ISBN
978-1-5386-4658-8
Vydavatel
IEEE Signal Processing Society
Místo
Calgary
DOI
UT WoS
000446384605071
EID Scopus
BibTeX
@inproceedings{BUT155045,
  author="Alicia {Lozano Díez} and Oldřich {Plchot} and Pavel {Matějka} and Joaquin {Gonzalez-Rodriguez}",
  title="DNN Based Embeddings for Language Recognition",
  booktitle="Proceedings of ICASSP 2018",
  year="2018",
  pages="5184--5188",
  publisher="IEEE Signal Processing Society",
  address="Calgary",
  doi="10.1109/ICASSP.2018.8462403",
  isbn="978-1-5386-4658-8",
  url="https://www.fit.vut.cz/research/publication/11723/"
}
Nahoru