Detail publikace

Advancing speaker embedding learning: Wespeaker toolkit for research and production

WANG, S.; CHEN, Z.; HAN, B.; WANG, H.; XIANG, X.; ROHDIN, J.; SILNOVA, A.; QIAN, Y.; LI, H. Advancing speaker embedding learning: Wespeaker toolkit for research and production. Speech Communication, 2024, vol. 162, no. 103104, p. 1-12. ISSN: 0167-6393.

Název česky

Pokroky v trénování embeddingů řečníků: toolkit Wespeaker pro výzkum a produkci

Typ

článek v časopise

Jazyk

anglicky

Autoři

Wang Shuai
CHEN, Z.
HAN, B.
WANG, H.
XIANG, X.
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Qian Yanmin
Li Haizhou
a další

URL

Klíčová slova

Wespeaker; Speaker embedding learning; SSL; Open-source

Abstrakt

Modelování mluvčích hraje klíčovou roli v různých úlohách a převládajícím
modelovacím přístupem jsou vektorová reprezentace s pevnou dimenzí, známá jako
vkládání mluvčích. Tato vložení se obvykle vyhodnocují v rámci ověřování
mluvčího, ale jejich užitečnost se rozšiřuje na širokou škálu souvisejících úkolů
včetně diarizace mluvčího, syntézy řeči, převodu hlasu a extrakce cílového
mluvčího. Tento článek představuje Wespeaker, uživatelsky přívětivou sadu
nástrojů navrženou pro výzkumné i produkční účely, věnovanou výuce vkládání
mluvčích. Wespeaker nabízí škálovatelnou správu dat, nejmodernější modely
vkládání mluvčích a výuková schémata s vlastním dohledem s potenciálem využít
rozsáhlých neoznačených reálných dat. Sada nástrojů obsahuje strukturované
recepty, které byly úspěšně přijaty ve vítězných systémech napříč různými výzvami
v oblasti ověřování mluvčích, což zajišťuje vysoce konkurenční výsledky. Pro
produkčně orientovaný vývoj integruje Wespeaker implementační a runtime kódy
kompatibilní s CPU a GPU a podporuje běžné platformy, jako jsou Windows, Linux,
Mac a čipy na zařízení, jako je horizon X3'PI. Wespeaker také poskytuje
standardní vysoce kvalitní vestavby mluvčích tím, že poskytuje různé předem
připravené modely, které lze bez námahy aplikovat na různé úkoly, které vyžadují
modelování mluvčích. Sada nástrojů je veřejně dostupná na
https://github.com/wenet-e2e/wespeaker.

Rok

2024

Strany

1–12

Časopis

Speech Communication, roč. 162, č. 103104, ISSN 0167-6393

DOI

10.1016/j.specom.2024.103104

UT WoS

001279201500001

EID Scopus

2-s2.0-85199203394

BibTeX

@article{BUT193986,
  author="WANG, S. and CHEN, Z. and HAN, B. and WANG, H. and XIANG, X. and ROHDIN, J. and SILNOVA, A. and QIAN, Y. and LI, H.",
  title="Advancing speaker embedding learning: Wespeaker toolkit for research and production",
  journal="Speech Communication",
  year="2024",
  volume="162",
  number="103104",
  pages="1--12",
  doi="10.1016/j.specom.2024.103104",
  issn="0167-6393",
  url="https://pdf.sciencedirectassets.com/271578/1-s2.0-S0167639324X00060/1-s2.0-S0167639324000761/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjEAsaCXVzLWVhc3QtMSJIMEYCIQC8Doe66%2Bu6V%2FODd2NY6EZwVTEeN05avzWi09%2FPx3ob%2FQIhAP%2BOyz3L2hXSsDYY4l3zSuz1pzOjFiaTh%"
}

Soubory

pdf wang_speech communication_2024.pdf 2 MB