Detail publikace
Sequence Summarizing Neural Network for Speaker Adaptation
Watanabe Shinji (FIT)
Žmolíková Kateřina, Ing., Ph.D. (FIT)
Karafiát Martin, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
DNN, adaptation, i-vector, sequence summary, SSNN
V tomto článku navrhujeme adaptační techniku DNN, kde je i-vektorový extraktor nahrazen sekvenční souhrnnou neurální sítí (SSNN). Podobně jako i-vektorový extraktor vytváří SSNN souhrnný vektor", představující akustické shrnutí promluvy. Takový vektor se poté připojí ke vstupu hlavní sítě, zatímco obě sítě se společně trénují optimalizací funkce jedné ztráty. Metody adaptace reproduktorů i-vektor a SSNN jsou porovnány na datech schůzky AMI. Výsledky ukazují srovnatelný výkon obou technik na systému FBANK s nácvikem klasifikace rámců. Navíc připojení i-vektoru i souhrnného vektoru" k funkcím FBANK vede k dalšímu zlepšení srovnatelnému s výkonem systému DNN přizpůsobeného FMLLR.
@inproceedings{BUT130964,
author="Karel {Veselý} and Shinji {Watanabe} and Kateřina {Žmolíková} and Martin {Karafiát} and Lukáš {Burget} and Jan {Černocký}",
title="Sequence Summarizing Neural Network for Speaker Adaptation",
booktitle="Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016",
year="2016",
pages="5315--5319",
publisher="IEEE Signal Processing Society",
address="Shanghai",
doi="10.1109/ICASSP.2016.7472692",
isbn="978-1-4799-9988-0",
url="https://www.fit.vut.cz/research/publication/11145/"
}