Detail publikace

ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform

PENG, J.; QU, X.; WANG, J.; GU, R.; XIAO, J.; BURGET, L.; ČERNOCKÝ, J. ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Brno: International Speech Communication Association, 2021. p. 511-515. ISSN: 1990-9772.
Název česky
ICSpk: Intepretovatelný extraktor komplexních embeddingů mluvčích ze surových signálů
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

end-to-end speaker verification, raw waveform, complex neural networks, interpretable complex filters

Abstrakt

V poslední době přitahuje stále větší pozornost v oblasti ověřování mluvčích extrahování embeddingů mluvčích přímo ze surového tvaru vlny. Parametrické filtry s reálnou hodnotou v první konvoluční vrstvě se učí transformovat průběh do časově-frekvenčních reprezentací. Tyto metody se však zaměřují pouze na magnitudové spektrum a špatná interpretovatelnost naučených filtrů omezuje výkon. V tomto článku navrhujeme komplexní extraktor embeddingu mluvčího, pojmenovaný ICSpk, s vyšší interpretovatelností a méně parametry. Konkrétně, nejprve, abychom kvantifikovali frekvenční odezvu tvaru vlny související s mluvčím, modifikujeme původní krátkodobé filtry Fourierovy transformace na rodinu komplexních exponenciálních filtrů, nazvaných interpretovatelné komplexní (IC) filtry. Každý IC filtr je omezen složitým exponenciálním filtrem parametrizovaným frekvencí. Poté je navržen hluboký extraktor pro zabudování reproduktorů s komplexní hodnotou, který bude fungovat na komplexním výstupu IC filtrů. Navržený ICSpk je hodnocen na databázích VoxCeleb a CNCeleb. Experimentální výsledky ukazují, že systém založený na IC filtrech vykazuje významné zlepšení oproti systémům založeným na komplexních spektrogramech. Kromě toho navrhovaný ICSpk výrazně překonává stávající systémy založené na surovém tvaru vlny.

Rok
2021
Strany
511–515
Časopis
Proceedings of Interspeech, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
22ND ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, Brno, CZ
Vydavatel
International Speech Communication Association
Místo
Brno
DOI
UT WoS
000841879500103
EID Scopus
BibTeX
@inproceedings{BUT175835,
  author="PENG, J. and QU, X. and WANG, J. and GU, R. and XIAO, J. and BURGET, L. and ČERNOCKÝ, J.",
  title="ICSpk: Interpretable Complex Speaker Embedding Extractor from Raw Waveform",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2021",
  journal="Proceedings of Interspeech",
  volume="2021",
  number="8",
  pages="511--515",
  publisher="International Speech Communication Association",
  address="Brno",
  doi="10.21437/Interspeech.2021-2016",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/interspeech_2021/peng21_interspeech.html"
}
Nahoru