Detail publikace
Investigation of Speaker Representation for Target-Speaker Speech Processing
MORIYA, T.
HORIGUCHI, S.
Peng Junyi (UPGM)
OCHIAI, T.
Delcroix Marc
MATSUURA, K.
Sato Hiroshi
peaker representation, target-speaker automatic speech recognition, target speech extraction, personal voice activity detection, self-supervised learning
Úlohy zpracování řeči cílového mluvčího (TS), jako je cílový mluvčí
automatické rozpoznávání řeči (TS-ASR), cílová extrakce řeči
(TSE) a detekce osobní hlasové aktivity (p-VAD) jsou důležité
dokonce pro extrakci informací o řeči požadovaného mluvčího
když je poškozen rušivými reproduktory. Zatímco většina studií
se zaměřili na školicí schémata nebo systémové architektury pro každou z nich
specifický úkol, pomocná síť pro zabudování cílového reproduktoru
podněty nebyly prozkoumány komplexně v jednotném křížovém
hodnocení úkolu. Proto si tento dokument klade za cíl řešit základní
otázka: jaké je preferované vložení reproduktoru pro úlohy TS?
Za tímto účelem porovnáváme úlohy TS-ASR, TSE a p-VAD
předem vyškolené kodéry reproduktorů (tj. samokontrolované nebo reproduktorové kodéry
nition models), které počítají vložení reproduktorů z předem nahraných
zápisový projev cílového řečníka s vloženým ideálním řečníkem
dingy odvozené přímo z identity cílového mluvčího ve formuláři
jednoho horkého vektoru. Pro další pochopení vlastností ideálu
vložení reproduktoru, optimalizujeme jej pomocí přístupu založeného na gradientu
zlepšit výkon úlohy TS. Naše analýza to ukazuje
výkon ověření mluvčího poněkud nesouvisí s úlohou TS
výkony, jeden-hot vektor překonává počet zápisů
a optimální zapuštění závisí na vstupní směsi.
@inproceedings{BUT196770,
author="ASHIHARA, T. and MORIYA, T. and HORIGUCHI, S. and PENG, J. and OCHIAI, T. and DELCROIX, M. and MATSUURA, K. and SATO, H.",
title="Investigation of Speaker Representation for Target-Speaker Speech Processing",
booktitle="Proc. 2024 IEEE Spoken Language Technology Workshop (SLT)",
pages="423--430",
publisher="IEEE Signal Processing Society",
address="Macao",
doi="10.1109/SLT61566.2024.10832160",
isbn="979-8-3503-9225-8",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10832160"
}