Detail publikace

Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam

DELCROIX, M.; OCHIAI, T.; ŽMOLÍKOVÁ, K.; KINOSHITA, K.; TAWARA, N.; NAKATANI, T.; ARAKI, S. Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Barcelona: IEEE Signal Processing Society, 2020. p. 691-695. ISBN: 978-1-5090-6631-5.
Název česky
Zlepšení diskiriminability mluvčích v extrakci cílového mluvčího pomocí metody Speakerbeam v časové oblasti
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Delcroix Marc (FIT)
OCHIAI, T.
Žmolíková Kateřina, Ing., Ph.D. (FIT)
Kinoshita Keisuke (FIT)
TAWARA, N.
Nakatani Tomohiro (FIT)
ARAKI, S.
URL
Klíčová slova

Target speech extraction, time-domain network, spatial features, multi-task loss

Abstrakt

Cílová extrakce řeči, která extrahuje jediný cílový zdroj ve směsi vzhledem k klíčovým informacím o cílovém mluvčím, přitahovala rostoucí pozornost. Nedávno jsme navrhli SpeakerBeam, který využívá adaptační promluvu cílového mluvčího k extrahování jeho hlasových charakteristik, které se pak používají k vedení neuronové sítě směrem k extrahování řeči tohoto mluvčího. SpeakerBeam představuje praktickou alternativu k separaci řeči, protože umožňuje sledovat řeč cílového mluvčího napříč promluvami a dosahuje slibného výkonu extrakce řeči. Někdy však selže, když mají mluvčí podobné hlasové vlastnosti, jako například ve směsích stejného pohlaví, protože je obtížné rozlišit cílového mluvčího od rušivých mluvčích. V tomto článku zkoumáme strategie pro zlepšení schopnosti SpeakerBeamu rozlišovat mezi mluvčími. Nejprve navrhujeme implementaci SpeakerBeamu v časové doméně, která je podobná implementaci navržené pro audio-separační síť v časové doméně (TasNet), která dosáhla nejmodernějšího výkonu pro separaci řeči. Kromě toho zkoumáme (1) použití prostorových prvků k lepší diskriminaci mluvčích, když jsou k dispozici nahrávky z mikrofonního pole, (2) přidáním ztráty identifikace pomocného mluvčího, která pomáhá naučit se více diskriminační hlasové vlastnosti. Experimentálně ukážeme, že tyto strategie výrazně zlepšují výkon extrakce řeči, zejména u směsí stejného pohlaví, a překonávají TasNet, pokud jde o extrakci cílového řeči.

Rok
2020
Strany
691–695
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
978-1-5090-6631-5
Vydavatel
IEEE Signal Processing Society
Místo
Barcelona
DOI
UT WoS
000615970400138
EID Scopus
BibTeX
@inproceedings{BUT163961,
  author="DELCROIX, M. and OCHIAI, T. and ŽMOLÍKOVÁ, K. and KINOSHITA, K. and TAWARA, N. and NAKATANI, T. and ARAKI, S.",
  title="Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2020",
  pages="691--695",
  publisher="IEEE Signal Processing Society",
  address="Barcelona",
  doi="10.1109/ICASSP40776.2020.9054683",
  isbn="978-1-5090-6631-5",
  url="https://ieeexplore.ieee.org/document/9054683"
}
Nahoru