Detail publikace

Analysis of DNN-based Embeddings for Language Recognition on the NIST LRE 2017

LOZANO DÍEZ, A.; PLCHOT, O.; MATĚJKA, P.; NOVOTNÝ, O.; GONZALEZ-RODRIGUEZ, J. Analysis of DNN-based Embeddings for Language Recognition on the NIST LRE 2017. In Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Les Sables d'Olonne: International Speech Communication Association, 2018. p. 39-46. ISSN: 2312-2846.
Název česky
Analýza DNN Embeddings pro rozpoznávání jazyka v NIST LRE 2017
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

language recognition

Abstrakt

Článek pojednává o analýze Deep Neural Netvork (DNN) Embeddings pro rozpoznávání jazyka v NIST LRE 2017. V této práci analyzujeme různé návrhy systému identifikace jazyka (LID) založeného na embeddingech. V našem případě embedding představuje celou promluvu (nebo segment řeči s proměnlivou dobou trvání) jako vektor s pevnou délkou (podobně jako vektor). Kromě toho si tento embedding klade za cíl zachytit informace relevantní pro cílový úkol (LID) a je získáváno trénováním hluboké neurální sítě (DNN) pro klasifikaci jazyků. Zejména jsme trénovali DNN na základě obousměrných vrstev dlouhodobé krátkodobé paměti (BLSTM) rekurentní neurální sítě (RNN), jejichž výstupy po jednotlivých rámcích jsou shrnuty do průměrných a standardních odchylek statistik pro každou promluvu. Po této vrstvě sdružování přidáme dvě plně propojené vrstvy, jejichž výstupy jsou použity jako embeddingy, který jsou poté modelovány Gaussovým lineárním klasifikátorem (GLC). Pro školení přidáme softmax výstupní vrstvu a trénujeme celou síť s multi-class cross-entropickým cílem rozlišovat mezi jazyky. Analyzujeme efekt použití rozšíření dat v tréninku DNN, stejně jako různé vstupní funkce a hyperparametry architektury, získávání konfigurací, které postupně zlepšovaly výkon embedding systému. Naše výsledky oznamujeme v datovém souboru NIST LRE 2017 a porovnáváme výkon embeddingů s referenčním i-vektorovým systémem. Ukazujeme, že nejlepší konfigurace našeho systému pro embeddingy překonává silný referenční i-vektorový systém o 3% relativní a toto je dále posunuto až o 10% relativní zlepšení pomocí jednoduché fúze na úrovni skóre.

Rok
2018
Strany
39–46
Časopis
Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland, roč. 2018, č. 6, ISSN 2312-2846
Sborník
Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop
Konference
Odyssey 2018, Les Sables d'Olonne, France, FR
Vydavatel
International Speech Communication Association
Místo
Les Sables d'Olonne
DOI
EID Scopus
BibTeX
@inproceedings{BUT155066,
  author="Alicia {Lozano Díez} and Oldřich {Plchot} and Pavel {Matějka} and Ondřej {Novotný} and Joaquin {Gonzalez-Rodriguez}",
  title="Analysis of DNN-based Embeddings for Language Recognition on the NIST LRE 2017",
  booktitle="Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop",
  year="2018",
  journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
  volume="2018",
  number="6",
  pages="39--46",
  publisher="International Speech Communication Association",
  address="Les Sables d'Olonne",
  doi="10.21437/Odyssey.2018-6",
  issn="2312-2846",
  url="https://www.isca-speech.org/archive/Odyssey_2018/pdfs/42.pdf"
}
Nahoru