Detail publikace

Effective Phase Encoding for End-To-End Speaker Verification

PENG, J.; QU, X.; GU, R.; WANG, J.; XIAO, J.; BURGET, L.; ČERNOCKÝ, J. Effective Phase Encoding for End-To-End Speaker Verification. In Proceedings Interspeech 2021. Proceedings of Interspeech. Brno: International Speech Communication Association, 2021. p. 2366-2370. ISSN: 1990-9772.
Název česky
Efektivní modelování fáze v end-to-end rozpoznávání mluvčího
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

end-to-end speaker verification, phase information, group delay, on-the-fly

Abstrakt

Široce používané funkce založené na magnitudovém spektru prokázaly svou převahu v oblasti zpracování řeči. Naproti tomu význam fázového spektra je vždy ignorován. Je to proto, že vzory skryté ve fázi nelze intuitivně modelovat a interpretovat kvůli fenoménu obalování fáze. V tomto článku zkoumáme nové funkce založené na fázovém spektru, nazvané Learnable Group Delay (LearnGD), abychom zachytili užitečné informace v řečových signálech. Konkrétně, za prvé, zápor spektrální derivace fázového spektra, nazývaný skupinové zpoždění (GD), se používá k rozbalení fáze. Poté, aby se potlačila ostrá povaha GD, která je způsobena jeho kořeny blízko jednotkové kružnice v doméně Z, je k rekonstrukci GD použita pečlivě navržená lehká konvoluční vyhlazovací vrstva. Nakonec je představen exponenciální hyperparametr pro rekonstrukci funkcí GD pro obnovení rozsahu spektra a generování funkcí LearnGD. Pro hodnocení výkonu se na korpusu VoxCeleb2 provádějí experimenty s ověřením mluvčího. Ve srovnání s tradiční akustickou vlastností odvozenou z magnitudového spektra dosahují navrhované fázové vlastnosti 27,8% relativního zlepšení z hlediska EER. Kromě toho experimentální výsledky na úloze rozpoznávání fonémů TIMIT také demonstrují účinnost námi navrhovaných fázově založených funkcí.

Rok
2021
Strany
2366–2370
Časopis
Proceedings of Interspeech, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings Interspeech 2021
Vydavatel
International Speech Communication Association
Místo
Brno
DOI
UT WoS
000841879502096
EID Scopus
BibTeX
@inproceedings{BUT175842,
  author="PENG, J. and QU, X. and GU, R. and WANG, J. and XIAO, J. and BURGET, L. and ČERNOCKÝ, J.",
  title="Effective Phase Encoding for End-To-End Speaker Verification",
  booktitle="Proceedings Interspeech 2021",
  year="2021",
  journal="Proceedings of Interspeech",
  volume="2021",
  number="8",
  pages="2366--2370",
  publisher="International Speech Communication Association",
  address="Brno",
  doi="10.21437/Interspeech.2021-2025",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/interspeech_2021/peng21c_interspeech.html"
}
Nahoru