Detail publikace

Advancing speaker embedding learning: Wespeaker toolkit for research and production

WANG, S.; CHEN, Z.; HAN, B.; WANG, H.; XIANG, X.; ROHDIN, J.; SILNOVA, A.; QIAN, Y.; LI, H. Advancing speaker embedding learning: Wespeaker toolkit for research and production. Speech Communication, 2024, vol. 162, no. 103104, p. 1-12. ISSN: 0167-6393.
Název česky
Pokroky v trénování embeddingů řečníků: toolkit Wespeaker pro výzkum a produkci
Typ
článek v časopise
Jazyk
anglicky
Autoři
Wang Shuai
CHEN, Z.
HAN, B.
WANG, H.
XIANG, X.
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Qian Yanmin
Li Haizhou
a další
URL
Klíčová slova

Wespeaker; Speaker embedding learning; SSL; Open-source

Abstrakt

Modelování mluvčích hraje klíčovou roli v různých úlohách a převládajícím
modelovacím přístupem jsou vektorová reprezentace s pevnou dimenzí, známá jako
vkládání mluvčích. Tato vložení se obvykle vyhodnocují v rámci ověřování
mluvčího, ale jejich užitečnost se rozšiřuje na širokou škálu souvisejících úkolů
včetně diarizace mluvčího, syntézy řeči, převodu hlasu a extrakce cílového
mluvčího. Tento článek představuje Wespeaker, uživatelsky přívětivou sadu
nástrojů navrženou pro výzkumné i produkční účely, věnovanou výuce vkládání
mluvčích. Wespeaker nabízí škálovatelnou správu dat, nejmodernější modely
vkládání mluvčích a výuková schémata s vlastním dohledem s potenciálem využít
rozsáhlých neoznačených reálných dat. Sada nástrojů obsahuje strukturované
recepty, které byly úspěšně přijaty ve vítězných systémech napříč různými výzvami
v oblasti ověřování mluvčích, což zajišťuje vysoce konkurenční výsledky. Pro
produkčně orientovaný vývoj integruje Wespeaker implementační a runtime kódy
kompatibilní s CPU a GPU a podporuje běžné platformy, jako jsou Windows, Linux,
Mac a čipy na zařízení, jako je horizon X3'PI. Wespeaker také poskytuje
standardní vysoce kvalitní vestavby mluvčích tím, že poskytuje různé předem
připravené modely, které lze bez námahy aplikovat na různé úkoly, které vyžadují
modelování mluvčích. Sada nástrojů je veřejně dostupná na
https://github.com/wenet-e2e/wespeaker.

Rok
2024
Strany
1–12
Časopis
Speech Communication, roč. 162, č. 103104, ISSN 0167-6393
DOI
UT WoS
001279201500001
EID Scopus
BibTeX
@article{BUT193986,
  author="WANG, S. and CHEN, Z. and HAN, B. and WANG, H. and XIANG, X. and ROHDIN, J. and SILNOVA, A. and QIAN, Y. and LI, H.",
  title="Advancing speaker embedding learning: Wespeaker toolkit for research and production",
  journal="Speech Communication",
  year="2024",
  volume="162",
  number="103104",
  pages="1--12",
  doi="10.1016/j.specom.2024.103104",
  issn="0167-6393",
  url="https://pdf.sciencedirectassets.com/271578/1-s2.0-S0167639324X00060/1-s2.0-S0167639324000761/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjEAsaCXVzLWVhc3QtMSJIMEYCIQC8Doe66%2Bu6V%2FODd2NY6EZwVTEeN05avzWi09%2FPx3ob%2FQIhAP%2BOyz3L2hXSsDYY4l3zSuz1pzOjFiaTh%"
}
Soubory
Nahoru