Detail publikace

Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries

STAFYLAKIS, T.; MOŠNER, L.; PLCHOT, O.; ROHDIN, J.; SILNOVA, A.; BURGET, L.; ČERNOCKÝ, J. Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Incheon: International Speech Communication Association, 2022. p. 605-609. ISSN: 1990-9772.

Název česky

Trénování extraktorů embeddingů mluvčích pro nahrávky s několika mluvčími s neznámou segmentací

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Stafylakis Themos
Mošner Ladislav, Ing. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

Speaker Embedding Extractors, Multi-Speaker Audio, Unknown Speaker Boundaries

Abstrakt

V tomto článku demonstrujeme metodu pro trénování extraktorů mluvčího pomocí slabé anotace. Přesněji řečeno, používáme kompletní nahrávky VoxCeleb a jména celebrit, které se na jednotlivých videích objevují, bez znalosti časových intervalů, v nichž se celebrity na videu objevují. Ukazujeme, že kombinací základního algoritmu diarizace mluvčích, který nevyžaduje žádné trénování ani ladění parametrů, modifikované ztráty s agregací nad segmenty a dvoustupňového tréninkového přístupu jsme schopni natrénovat konkurenceschopný extraktor s vloženými hláškami založený na síti ResNet. Nakonec experimentujeme se dvěma různými agregačními funkcemi a analyzujeme jejich chování z hlediska jejich gradientů.

Rok

2022

Strany

605–609

Časopis

Proceedings of Interspeech, roč. 2022, č. 9, ISSN 1990-9772

Sborník

Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH

Konference

23. mezinárodní ISCA konference o hlasové komunikaci (Interspeech 2022), Incheon, KR

Vydavatel

International Speech Communication Association

Místo

Incheon

DOI

10.21437/Interspeech.2022-10165

UT WoS

000900724500123

EID Scopus

2-s2.0-85140088494

BibTeX

@inproceedings{BUT179781,
  author="Themos {Stafylakis} and Ladislav {Mošner} and Oldřich {Plchot} and Johan Andréas {Rohdin} and Anna {Silnova} and Lukáš {Burget} and Jan {Černocký}",
  title="Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2022",
  journal="Proceedings of Interspeech",
  volume="2022",
  number="9",
  pages="605--609",
  publisher="International Speech Communication Association",
  address="Incheon",
  doi="10.21437/Interspeech.2022-10165",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/stafylakis22_interspeech.pdf"
}

Soubory

pdf stafylakis_interspeech2022_training.pdf 340 kB