Detail publikace

Challenging margin-based speaker embedding extractors by using the variational information bottleneck

STAFYLAKIS, T.; SILNOVA, A.; ROHDIN, J.; PLCHOT, O.; BURGET, L. Challenging margin-based speaker embedding extractors by using the variational information bottleneck. In Proceedings of Interspeech 2024. Proceedings of Interspeech. Kos: International Speech Communication Association, 2024. p. 3220-3224. ISSN: 1990-9772.
Název česky
Extraktory embeddingů řečníků pro náročné okrajové podmínky s variačním informačním bottleneckem
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

rozpoznávání mluvčích, úzké hrdlo variačních informací

Abstrakt

Extraktory zabudování mluvčích jsou obvykle trénovány pomocí a ztráta klasifikace
nad školícími mluvčími. Během posledního několik let byla standardní ztráta
softmax/cross-entropie nahrazeny ztrátami založenými na maržích, což vede
k významným důkazy přesnosti rozpoznávání mluvčích. Motivován tím skutečnost, že
marže pouze snižuje logit cíle mluvčího během tréninku uvažujeme
pravděpodobnostní rámec která má podobný účinek. Variační informační láhev - krk
poskytuje principiální mechanismus pro vytváření determinismu stochastické uzly,
což má za následek implicitní snížení pos- teriér cílového reproduktoru.
Experimentujeme se širokou škálou srovnávacích testů rozpoznávání mluvčích
a metod hodnocení a re- přenést konkurenční výsledky na výsledky dosažené při
současném stavu art Additive Angular Margin loss.

Rok
2024
Strany
3220–3224
Časopis
Proceedings of Interspeech, roč. 2024, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2024
Konference
Interspeech Conference, Kos, GR
Vydavatel
International Speech Communication Association
Místo
Kos
DOI
EID Scopus
BibTeX
@inproceedings{BUT193738,
  author="Themos {Stafylakis} and Anna {Silnova} and Johan Andréas {Rohdin} and Oldřich {Plchot} and Lukáš {Burget}",
  title="Challenging margin-based speaker embedding extractors by using the variational information bottleneck",
  booktitle="Proceedings of Interspeech 2024",
  year="2024",
  journal="Proceedings of Interspeech",
  volume="2024",
  number="9",
  pages="3220--3224",
  publisher="International Speech Communication Association",
  address="Kos",
  doi="10.21437/Interspeech.2024-2058",
  issn="1990-9772",
  url="https://www.isca-archive.org/interspeech_2024/stafylakis24_interspeech.pdf"
}
Soubory
Nahoru