Detail publikace
Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam
OCHIAI, T.
Žmolíková Kateřina, Ing., Ph.D. (FIT)
Kinoshita Keisuke (FIT)
TAWARA, N.
Nakatani Tomohiro (FIT)
ARAKI, S.
Target speech extraction, time-domain network, spatial features, multi-task loss
Cílová extrakce řeči, která extrahuje jediný cílový zdroj ve směsi vzhledem k klíčovým informacím o cílovém mluvčím, přitahovala rostoucí pozornost. Nedávno jsme navrhli SpeakerBeam, který využívá adaptační promluvu cílového mluvčího k extrahování jeho hlasových charakteristik, které se pak používají k vedení neuronové sítě směrem k extrahování řeči tohoto mluvčího. SpeakerBeam představuje praktickou alternativu k separaci řeči, protože umožňuje sledovat řeč cílového mluvčího napříč promluvami a dosahuje slibného výkonu extrakce řeči. Někdy však selže, když mají mluvčí podobné hlasové vlastnosti, jako například ve směsích stejného pohlaví, protože je obtížné rozlišit cílového mluvčího od rušivých mluvčích. V tomto článku zkoumáme strategie pro zlepšení schopnosti SpeakerBeamu rozlišovat mezi mluvčími. Nejprve navrhujeme implementaci SpeakerBeamu v časové doméně, která je podobná implementaci navržené pro audio-separační síť v časové doméně (TasNet), která dosáhla nejmodernějšího výkonu pro separaci řeči. Kromě toho zkoumáme (1) použití prostorových prvků k lepší diskriminaci mluvčích, když jsou k dispozici nahrávky z mikrofonního pole, (2) přidáním ztráty identifikace pomocného mluvčího, která pomáhá naučit se více diskriminační hlasové vlastnosti. Experimentálně ukážeme, že tyto strategie výrazně zlepšují výkon extrakce řeči, zejména u směsí stejného pohlaví, a překonávají TasNet, pokud jde o extrakci cílového řeči.
@inproceedings{BUT163961,
author="DELCROIX, M. and OCHIAI, T. and ŽMOLÍKOVÁ, K. and KINOSHITA, K. and TAWARA, N. and NAKATANI, T. and ARAKI, S.",
title="Improving Speaker Discrimination of Target Speech Extraction With Time-Domain Speakerbeam",
booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
year="2020",
pages="691--695",
publisher="IEEE Signal Processing Society",
address="Barcelona",
doi="10.1109/ICASSP40776.2020.9054683",
isbn="978-1-5090-6631-5",
url="https://ieeexplore.ieee.org/document/9054683"
}