Detail publikace

Investigation of Speaker Representation for Target-Speaker Speech Processing

ASHIHARA, T.; MORIYA, T.; HORIGUCHI, S.; PENG, J.; OCHIAI, T.; DELCROIX, M.; MATSUURA, K.; SATO, H. Investigation of Speaker Representation for Target-Speaker Speech Processing. Proc. 2024 IEEE Spoken Language Technology Workshop (SLT). Macao: IEEE Signal Processing Society, p. 423-430. ISBN: 979-8-3503-9225-8.

Název česky

Zkoumání reprezentace mluvčího pro zpracování řeči cílového mluvčího

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

ASHIHARA, T.
MORIYA, T.
HORIGUCHI, S.
Peng Junyi (UPGM)
OCHIAI, T.
Delcroix Marc
MATSUURA, K.
Sato Hiroshi

URL

Klíčová slova

peaker representation, target-speaker automatic speech recognition, target speech extraction, personal voice activity detection, self-supervised learning

Abstrakt

Úlohy zpracování řeči cílového mluvčího (TS), jako je cílový mluvčí
automatické rozpoznávání řeči (TS-ASR), cílová extrakce řeči
(TSE) a detekce osobní hlasové aktivity (p-VAD) jsou důležité
dokonce pro extrakci informací o řeči požadovaného mluvčího
když je poškozen rušivými reproduktory. Zatímco většina studií
se zaměřili na školicí schémata nebo systémové architektury pro každou z nich
specifický úkol, pomocná síť pro zabudování cílového reproduktoru
podněty nebyly prozkoumány komplexně v jednotném křížovém
hodnocení úkolu. Proto si tento dokument klade za cíl řešit základní
otázka: jaké je preferované vložení reproduktoru pro úlohy TS?
Za tímto účelem porovnáváme úlohy TS-ASR, TSE a p-VAD
předem vyškolené kodéry reproduktorů (tj. samokontrolované nebo reproduktorové kodéry
nition models), které počítají vložení reproduktorů z předem nahraných
zápisový projev cílového řečníka s vloženým ideálním řečníkem
dingy odvozené přímo z identity cílového mluvčího ve formuláři
jednoho horkého vektoru. Pro další pochopení vlastností ideálu
vložení reproduktoru, optimalizujeme jej pomocí přístupu založeného na gradientu
zlepšit výkon úlohy TS. Naše analýza to ukazuje
výkon ověření mluvčího poněkud nesouvisí s úlohou TS
výkony, jeden-hot vektor překonává počet zápisů
a optimální zapuštění závisí na vstupní směsi.

Rok

Strany

423–430

Sborník

Proc. 2024 IEEE Spoken Language Technology Workshop (SLT)

Konference

2024 IEEE Konference o technologii mluveného jazyka (SLT 2024), Macao, MO

ISBN

979-8-3503-9225-8

Vydavatel

IEEE Signal Processing Society

Místo

Macao

DOI

10.1109/SLT61566.2024.10832160

BibTeX

@inproceedings{BUT196770,
  author="ASHIHARA, T. and MORIYA, T. and HORIGUCHI, S. and PENG, J. and OCHIAI, T. and DELCROIX, M. and MATSUURA, K. and SATO, H.",
  title="Investigation of Speaker Representation for Target-Speaker Speech Processing",
  booktitle="Proc.  2024 IEEE Spoken Language Technology Workshop (SLT)",
  pages="423--430",
  publisher="IEEE Signal Processing Society",
  address="Macao",
  doi="10.1109/SLT61566.2024.10832160",
  isbn="979-8-3503-9225-8",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10832160"
}

Soubory

pdf ashihara_slt2024_Investigation_of_Speaker_Representation_for_Target-Speaker_Speech_Processing.pdf 686 kB