Detail publikace
Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker Characteristics
Delcroix Marc (FIT)
RAJ, D.
Watanabe Shinji (FIT)
Černocký Jan, prof. Dr. Ing. (UPGM)
Target speech extraction, SpeakerBeam, Weakly supervised loss, Long recordings
Systémy automatického rozpoznávání řeči se zhoršují v přítomnosti překrývající se řeči. Oblíbeným přístupem, jak to zmírnit, je cílová extrakce řeči. Extrakční systém je obvykle trénován pomocí ztrátové funkce měřící nesrovnalost mezi odhadovanou a referenční cílovou řečí. To často vede ke zkreslení cílového signálu, což je škodlivé pro přesnost rozpoznávání. Navíc je nutné mít silný dohled zajišťovaný paralelními daty sestávajícími z řečových směsí a signálů jednoho reproduktoru. Navrhujeme pomocnou ztrátovou funkci pro přetrénování cílové extrakce řeči. Skládá se ze dvou částí: za prvé, ztráta identity mluvčího, která vynutí, aby odhadovaná řeč měla správné charakteristiky mluvčího, a zadruhé, ztráta konzistence směsi, díky níž jsou extrahované zdroje součtem zpět do původní směsi. Jediným dohledem požadovaným pro navrhovanou ztrátu jsou charakteristiky reproduktoru získané z několika segmentů mluvených cílovým mluvčím. Díky takto slabému dohledu je ztráta vhodná pro adaptaci systému přímo na skutečné nahrávky. Ukazujeme, že navrhovaná ztráta poskytuje signály vhodnější pro rozpoznávání řeči a dále můžeme získat další vylepšení adaptací na cílová data. Celkově můžeme snížit chybovost slov na datové sadě LibriCSS z 27,4 % na 24,0 %.
@inproceedings{BUT175837,
author="ŽMOLÍKOVÁ, K. and DELCROIX, M. and RAJ, D. and WATANABE, S. and ČERNOCKÝ, J.",
title="Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker Characteristics",
booktitle="Proceedings of 2021 Interspeech",
year="2021",
journal="Proceedings of Interspeech",
volume="2021",
number="8",
pages="1464--1468",
publisher="International Speech Communication Association",
address="Brno",
doi="10.21437/Interspeech.2021-986",
issn="1990-9772",
url="https://www.isca-speech.org/archive/interspeech_2021/zmolikova21_interspeech.html"
}