Detail publikace
Effective Phase Encoding for End-To-End Speaker Verification
QU, X.
GU, R.
WANG, J.
XIAO, J.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
end-to-end speaker verification, phase information, group delay, on-the-fly
Široce používané funkce založené na magnitudovém spektru prokázaly svou převahu v oblasti zpracování řeči. Naproti tomu význam fázového spektra je vždy ignorován. Je to proto, že vzory skryté ve fázi nelze intuitivně modelovat a interpretovat kvůli fenoménu obalování fáze. V tomto článku zkoumáme nové funkce založené na fázovém spektru, nazvané Learnable Group Delay (LearnGD), abychom zachytili užitečné informace v řečových signálech. Konkrétně, za prvé, zápor spektrální derivace fázového spektra, nazývaný skupinové zpoždění (GD), se používá k rozbalení fáze. Poté, aby se potlačila ostrá povaha GD, která je způsobena jeho kořeny blízko jednotkové kružnice v doméně Z, je k rekonstrukci GD použita pečlivě navržená lehká konvoluční vyhlazovací vrstva. Nakonec je představen exponenciální hyperparametr pro rekonstrukci funkcí GD pro obnovení rozsahu spektra a generování funkcí LearnGD. Pro hodnocení výkonu se na korpusu VoxCeleb2 provádějí experimenty s ověřením mluvčího. Ve srovnání s tradiční akustickou vlastností odvozenou z magnitudového spektra dosahují navrhované fázové vlastnosti 27,8% relativního zlepšení z hlediska EER. Kromě toho experimentální výsledky na úloze rozpoznávání fonémů TIMIT také demonstrují účinnost námi navrhovaných fázově založených funkcí.
@inproceedings{BUT175842,
author="PENG, J. and QU, X. and GU, R. and WANG, J. and XIAO, J. and BURGET, L. and ČERNOCKÝ, J.",
title="Effective Phase Encoding for End-To-End Speaker Verification",
booktitle="Proceedings Interspeech 2021",
year="2021",
journal="Proceedings of Interspeech",
volume="2021",
number="8",
pages="2366--2370",
publisher="International Speech Communication Association",
address="Brno",
doi="10.21437/Interspeech.2021-2025",
issn="1990-9772",
url="https://www.isca-speech.org/archive/interspeech_2021/peng21c_interspeech.html"
}