Detail publikace
ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform
QU, X.
WANG, J.
GU, R.
XIAO, J.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
end-to-end speaker verification, raw waveform, complex neural networks, interpretable complex filters
V poslední době přitahuje stále větší pozornost v oblasti ověřování mluvčích extrahování embeddingů mluvčích přímo ze surového tvaru vlny. Parametrické filtry s reálnou hodnotou v první konvoluční vrstvě se učí transformovat průběh do časově-frekvenčních reprezentací. Tyto metody se však zaměřují pouze na magnitudové spektrum a špatná interpretovatelnost naučených filtrů omezuje výkon. V tomto článku navrhujeme komplexní extraktor embeddingu mluvčího, pojmenovaný ICSpk, s vyšší interpretovatelností a méně parametry. Konkrétně, nejprve, abychom kvantifikovali frekvenční odezvu tvaru vlny související s mluvčím, modifikujeme původní krátkodobé filtry Fourierovy transformace na rodinu komplexních exponenciálních filtrů, nazvaných interpretovatelné komplexní (IC) filtry. Každý IC filtr je omezen složitým exponenciálním filtrem parametrizovaným frekvencí. Poté je navržen hluboký extraktor pro zabudování reproduktorů s komplexní hodnotou, který bude fungovat na komplexním výstupu IC filtrů. Navržený ICSpk je hodnocen na databázích VoxCeleb a CNCeleb. Experimentální výsledky ukazují, že systém založený na IC filtrech vykazuje významné zlepšení oproti systémům založeným na komplexních spektrogramech. Kromě toho navrhovaný ICSpk výrazně překonává stávající systémy založené na surovém tvaru vlny.
@inproceedings{BUT175835,
author="PENG, J. and QU, X. and WANG, J. and GU, R. and XIAO, J. and BURGET, L. and ČERNOCKÝ, J.",
title="ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2021",
journal="Proceedings of Interspeech",
volume="2021",
number="8",
pages="511--515",
publisher="International Speech Communication Association",
address="Brno",
doi="10.21437/Interspeech.2021-2016",
issn="1990-9772",
url="https://www.isca-speech.org/archive/interspeech_2021/peng21_interspeech.html"
}