Detail publikace

Investigation of Speaker Representation for Target-Speaker Speech Processing

ASHIHARA, T.; MORIYA, T.; HORIGUCHI, S.; PENG, J.; OCHIAI, T.; DELCROIX, M.; MATSUURA, K.; SATO, H. Investigation of Speaker Representation for Target-Speaker Speech Processing. Proc. 2024 IEEE Spoken Language Technology Workshop (SLT). Macao: IEEE Signal Processing Society, p. 423-430. ISBN: 979-8-3503-9225-8.
Název česky
Zkoumání reprezentace mluvčího pro zpracování řeči cílového mluvčího
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
ASHIHARA, T.
MORIYA, T.
HORIGUCHI, S.
Peng Junyi (UPGM)
OCHIAI, T.
Delcroix Marc
MATSUURA, K.
Sato Hiroshi
URL
Klíčová slova

peaker representation, target-speaker automatic speech recognition, target speech extraction, personal voice activity detection, self-supervised learning

Abstrakt

Úlohy zpracování řeči cílového mluvčího (TS), jako je cílový mluvčí
automatické rozpoznávání řeči (TS-ASR), cílová extrakce řeči
(TSE) a detekce osobní hlasové aktivity (p-VAD) jsou důležité
dokonce pro extrakci informací o řeči požadovaného mluvčího
když je poškozen rušivými reproduktory. Zatímco většina studií
se zaměřili na školicí schémata nebo systémové architektury pro každou z nich
specifický úkol, pomocná síť pro zabudování cílového reproduktoru
podněty nebyly prozkoumány komplexně v jednotném křížovém
hodnocení úkolu. Proto si tento dokument klade za cíl řešit základní
otázka: jaké je preferované vložení reproduktoru pro úlohy TS?
Za tímto účelem porovnáváme úlohy TS-ASR, TSE a p-VAD
předem vyškolené kodéry reproduktorů (tj. samokontrolované nebo reproduktorové kodéry
nition models), které počítají vložení reproduktorů z předem nahraných
zápisový projev cílového řečníka s vloženým ideálním řečníkem
dingy odvozené přímo z identity cílového mluvčího ve formuláři
jednoho horkého vektoru. Pro další pochopení vlastností ideálu
vložení reproduktoru, optimalizujeme jej pomocí přístupu založeného na gradientu
zlepšit výkon úlohy TS. Naše analýza to ukazuje
výkon ověření mluvčího poněkud nesouvisí s úlohou TS
výkony, jeden-hot vektor překonává počet zápisů
a optimální zapuštění závisí na vstupní směsi.

Rok
Strany
423–430
Sborník
Proc. 2024 IEEE Spoken Language Technology Workshop (SLT)
Konference
2024 IEEE Konference o technologii mluveného jazyka (SLT 2024), Macao, MO
ISBN
979-8-3503-9225-8
Vydavatel
IEEE Signal Processing Society
Místo
Macao
DOI
BibTeX
@inproceedings{BUT196770,
  author="ASHIHARA, T. and MORIYA, T. and HORIGUCHI, S. and PENG, J. and OCHIAI, T. and DELCROIX, M. and MATSUURA, K. and SATO, H.",
  title="Investigation of Speaker Representation for Target-Speaker Speech Processing",
  booktitle="Proc.  2024 IEEE Spoken Language Technology Workshop (SLT)",
  pages="423--430",
  publisher="IEEE Signal Processing Society",
  address="Macao",
  doi="10.1109/SLT61566.2024.10832160",
  isbn="979-8-3503-9225-8",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10832160"
}
Soubory
Nahoru