Detail publikace

Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries

STAFYLAKIS, T.; MOŠNER, L.; PLCHOT, O.; ROHDIN, J.; SILNOVA, A.; BURGET, L.; ČERNOCKÝ, J. Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Incheon: International Speech Communication Association, 2022. p. 605-609. ISSN: 1990-9772.
Název česky
Trénování extraktorů embeddingů mluvčích pro nahrávky s několika mluvčími s neznámou segmentací
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Speaker Embedding Extractors, Multi-Speaker Audio, Unknown Speaker Boundaries

Abstrakt

V tomto článku demonstrujeme metodu pro trénování extraktorů mluvčího pomocí slabé anotace. Přesněji řečeno, používáme kompletní nahrávky VoxCeleb a jména celebrit, které se na jednotlivých videích objevují, bez znalosti časových intervalů, v nichž se celebrity na videu objevují. Ukazujeme, že kombinací základního algoritmu diarizace mluvčích, který nevyžaduje žádné trénování ani ladění parametrů, modifikované ztráty s agregací nad segmenty a dvoustupňového tréninkového přístupu jsme schopni natrénovat konkurenceschopný extraktor s vloženými hláškami založený na síti ResNet. Nakonec experimentujeme se dvěma různými agregačními funkcemi a analyzujeme jejich chování z hlediska jejich gradientů.

Rok
2022
Strany
605–609
Časopis
Proceedings of Interspeech, roč. 2022, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Incheon
DOI
UT WoS
000900724500123
EID Scopus
BibTeX
@inproceedings{BUT179781,
  author="Themos {Stafylakis} and Ladislav {Mošner} and Oldřich {Plchot} and Johan Andréas {Rohdin} and Anna {Silnova} and Lukáš {Burget} and Jan {Černocký}",
  title="Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2022",
  journal="Proceedings of Interspeech",
  volume="2022",
  number="9",
  pages="605--609",
  publisher="International Speech Communication Association",
  address="Incheon",
  doi="10.21437/Interspeech.2022-10165",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/stafylakis22_interspeech.pdf"
}
Nahoru