Detail publikace

Self-supervised speaker embeddings

STAFYLAKIS, T.; ROHDIN, J.; PLCHOT, O.; MIZERA, P.; BURGET, L. Self-supervised speaker embeddings. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019. p. 2863-2867. ISSN: 1990-9772.

Název česky

Embeddingy charakterizující mluvčího se samoučením

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Stafylakis Themos
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
MIZERA, P.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

Klíčová slova

speaker recognition, self-supervised learning, deep learning

Abstrakt

Na rozdíl od i-vektorů nejsou embeddingy mluvčího, tak jako x-vektory, schopné využívat neoznačené promluvy, kvůli ztrátě klasifikace při trénování mluvčích. V tomto článku prozkoumáme alternativní strategii trénování, která umožní použití neoznačených promluv v trénování. Navrhujeme trénovat extraktory embeddingů mluvčího rekonstrukcí rámců cílového segmentu řeči, vzhledem k odvozenému vložení dalšího segmentu řeči stejné výpovědi. Děláme to tak, že ke standardnímu extraktoru embeddingů mluvčího připojíme síť dekodérů, které zásobujeme nejen embeddingem mluvčího, ale také odhadovanou telefonní sekvenci sekvence cílového rámce. Ztráta rekonstrukce může být použita buď jako jediný objekt, nebo může být kombinována se ztrátou klasifikace mluvčího. V druhém případě působí jako regularizátor, který podporuje zobecnění mluvčích, které nebylo během trénování vidět. Ve všech případech jsou navrhované architektury trénovány od nuly a způsobem end-to-end. Ukážeme výhody navrhovaného přístupu na "VoxCeleb and Speakers in the Wild Databases" a oproti základní linii hlásíme pozoruhodná zlepšení.

Rok

2019

Strany

2863–2867

Časopis

Proceedings of Interspeech, roč. 2019, č. 9, ISSN 1990-9772

Sborník

Proceedings of Interspeech

Vydavatel

International Speech Communication Association

Místo

Graz

DOI

10.21437/Interspeech.2019-2842

UT WoS

000831796403001

EID Scopus

2-s2.0-85074683253

BibTeX

@inproceedings{BUT159999,
  author="STAFYLAKIS, T. and ROHDIN, J. and PLCHOT, O. and MIZERA, P. and BURGET, L.",
  title="Self-supervised speaker embeddings",
  booktitle="Proceedings of Interspeech",
  year="2019",
  journal="Proceedings of Interspeech",
  volume="2019",
  number="9",
  pages="2863--2867",
  publisher="International Speech Communication Association",
  address="Graz",
  doi="10.21437/Interspeech.2019-2842",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/Interspeech_2019/pdfs/2842.pdf"
}