Detail publikace

Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker Characteristics

ŽMOLÍKOVÁ, K.; DELCROIX, M.; RAJ, D.; WATANABE, S.; ČERNOCKÝ, J. Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker Characteristics. In Proceedings of 2021 Interspeech. Proceedings of Interspeech. Brno: International Speech Communication Association, 2021. p. 1464-1468. ISSN: 1990-9772.
Název česky
Pomocná ztrátová funkce pro extrakci a rozpoznávání řeči cílového mluvčího se slabou supervizí založenou na charakteristice mluvčího
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Target speech extraction, SpeakerBeam, Weakly supervised loss, Long recordings

Abstrakt

Systémy automatického rozpoznávání řeči se zhoršují v přítomnosti překrývající se řeči. Oblíbeným přístupem, jak to zmírnit, je cílová extrakce řeči. Extrakční systém je obvykle trénován pomocí ztrátové funkce měřící nesrovnalost mezi odhadovanou a referenční cílovou řečí. To často vede ke zkreslení cílového signálu, což je škodlivé pro přesnost rozpoznávání. Navíc je nutné mít silný dohled zajišťovaný paralelními daty sestávajícími z řečových směsí a signálů jednoho reproduktoru. Navrhujeme pomocnou ztrátovou funkci pro přetrénování cílové extrakce řeči. Skládá se ze dvou částí: za prvé, ztráta identity mluvčího, která vynutí, aby odhadovaná řeč měla správné charakteristiky mluvčího, a zadruhé, ztráta konzistence směsi, díky níž jsou extrahované zdroje součtem zpět do původní směsi. Jediným dohledem požadovaným pro navrhovanou ztrátu jsou charakteristiky reproduktoru získané z několika segmentů mluvených cílovým mluvčím. Díky takto slabému dohledu je ztráta vhodná pro adaptaci systému přímo na skutečné nahrávky. Ukazujeme, že navrhovaná ztráta poskytuje signály vhodnější pro rozpoznávání řeči a dále můžeme získat další vylepšení adaptací na cílová data. Celkově můžeme snížit chybovost slov na datové sadě LibriCSS z 27,4 % na 24,0 %.

Rok
2021
Strany
1464–1468
Časopis
Proceedings of Interspeech, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings of 2021 Interspeech
Vydavatel
International Speech Communication Association
Místo
Brno
DOI
UT WoS
000841879501116
EID Scopus
BibTeX
@inproceedings{BUT175837,
  author="ŽMOLÍKOVÁ, K. and DELCROIX, M. and RAJ, D. and WATANABE, S. and ČERNOCKÝ, J.",
  title="Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker Characteristics",
  booktitle="Proceedings of 2021 Interspeech",
  year="2021",
  journal="Proceedings of Interspeech",
  volume="2021",
  number="8",
  pages="1464--1468",
  publisher="International Speech Communication Association",
  address="Brno",
  doi="10.21437/Interspeech.2021-986",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/interspeech_2021/zmolikova21_interspeech.html"
}
Nahoru