Detail publikace

On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction

WANG, S.; ROHDIN, J.; BURGET, L.; PLCHOT, O.; QIAN, Y.; YU, K.; ČERNOCKÝ, J. On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019. p. 1148-1152. ISSN: 1990-9772.
Název česky
O využití fonetické informace pro na textu nezávislou extrakci embeddingů popisujících řečníka
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

phonetic information, text-independent speaker verification, adversarial training

Abstrakt

Embeddingy extrahované hlubokými neuronovými sítěmi se staly nejmodernější reprezentací promluvy v systémech rozpoznávání mluvčího. Nedávno se ukázalo, že začlenění fonetické informace na úrovni rámce do vkládacího extraktoru může zlepšit výkon rozpoznávání mluvčího. Na druhou stranu, v konečném embeddingu jsou fonetické informace jen dalším zdrojem variability relace, který může být škodlivý pro úlohu rozpoznávání mluvčích nezávislou na textu. To naznačuje, že na úrovni vkládání by měly být fonetické informace spíše potlačovány než podporovány. Abychom ověřili tuto hypotézu, provedeme několik experimentů, které podporují nebo potlačují fonetické informace v různých fázích sítě. Naše experimenty potvrzují, že multitaskingové učení je přínosné, pokud je aplikováno ve fázi rámce sítě, zatímco kontradiktorní školení je výhodné, pokud je používáno ve fázi segmentu sítě. Kombinace těchto dvou přístupů dále zlepšuje výkon, což vede ke stejné chybovosti 3,17% v datové sadě VoxCeleb.

Rok
2019
Strany
1148–1152
Časopis
Proceedings of Interspeech, roč. 2019, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech
Vydavatel
International Speech Communication Association
Místo
Graz
DOI
UT WoS
000831796401061
EID Scopus
BibTeX
@inproceedings{BUT159994,
  author="WANG, S. and ROHDIN, J. and BURGET, L. and PLCHOT, O. and QIAN, Y. and YU, K. and ČERNOCKÝ, J.",
  title="On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction",
  booktitle="Proceedings of Interspeech",
  year="2019",
  journal="Proceedings of Interspeech",
  volume="2019",
  number="9",
  pages="1148--1152",
  publisher="International Speech Communication Association",
  address="Graz",
  doi="10.21437/Interspeech.2019-3036",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/Interspeech_2019/pdfs/3036.pdf"
}
Nahoru