Detail publikace

Self-supervised speaker embeddings

STAFYLAKIS, T.; ROHDIN, J.; PLCHOT, O.; MIZERA, P.; BURGET, L. Self-supervised speaker embeddings. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019. p. 2863-2867. ISSN: 1990-9772.
Název česky
Embeddingy charakterizující mluvčího se samoučením
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

speaker recognition, self-supervised learning, deep learning

Abstrakt

Na rozdíl od i-vektorů nejsou embeddingy mluvčího, tak jako x-vektory, schopné využívat neoznačené promluvy, kvůli ztrátě klasifikace při trénování mluvčích. V tomto článku prozkoumáme alternativní strategii trénování, která umožní použití neoznačených promluv v trénování. Navrhujeme trénovat extraktory embeddingů mluvčího rekonstrukcí rámců cílového segmentu řeči, vzhledem k odvozenému vložení dalšího segmentu řeči stejné výpovědi. Děláme to tak, že ke standardnímu extraktoru embeddingů mluvčího připojíme síť dekodérů, které zásobujeme nejen embeddingem mluvčího, ale také odhadovanou telefonní sekvenci sekvence cílového rámce. Ztráta rekonstrukce může být použita buď jako jediný objekt, nebo může být kombinována se ztrátou klasifikace mluvčího. V druhém případě působí jako regularizátor, který podporuje zobecnění mluvčích, které nebylo během trénování vidět. Ve všech případech jsou navrhované architektury trénovány od nuly a způsobem end-to-end. Ukážeme výhody navrhovaného přístupu na "VoxCeleb and Speakers in the Wild Databases" a oproti základní linii hlásíme pozoruhodná zlepšení.

Rok
2019
Strany
2863–2867
Časopis
Proceedings of Interspeech, roč. 2019, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech
Vydavatel
International Speech Communication Association
Místo
Graz
DOI
UT WoS
000831796403001
EID Scopus
BibTeX
@inproceedings{BUT159999,
  author="STAFYLAKIS, T. and ROHDIN, J. and PLCHOT, O. and MIZERA, P. and BURGET, L.",
  title="Self-supervised speaker embeddings",
  booktitle="Proceedings of Interspeech",
  year="2019",
  journal="Proceedings of Interspeech",
  volume="2019",
  number="9",
  pages="2863--2867",
  publisher="International Speech Communication Association",
  address="Graz",
  doi="10.21437/Interspeech.2019-2842",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/Interspeech_2019/pdfs/2842.pdf"
}
Nahoru