Detail publikace
Employment of Subspace Gaussian Mixture Models in Speaker Recognition
Dey Subhadeep (FIT)
Madikeri Srikanth (FIT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
rozpoznání mluvčího, i-vektory, subspace Gaussian mixture models, automatické rozpoznávání řeči
Tento článek představuje přístup subprostorového gaussovského smíšeného modelu (SGMM) používaný jako pravděpodobnostní generativní model k odhadu reprezentací vektoru reproduktorů, které mají být následně použity v úloze ověření reproduktoru. Ukázalo se, že SGMM již výrazně překonávají tradiční HMM / GMM v aplikacích automatického rozpoznávání řeči (ASR). Rozšíření základního rámce SGMM umožňuje robustně odhadnout nízko-dimenzionální reproduktorové vektory a využít je pro adaptaci reproduktorů. Navrhujeme rámec pro ověřování reproduktorů založený na nízko-dimenzionálních reproduktorových vektorech odhadovaných pomocí SGMM, vyškolených ASR způsobem pomocí ručních přepisů. Abychom otestovali robustnost systému, vyhodnocujeme navržený přístup s ohledem na nejmodernější extraktor i-vektorů v hodnotící sadě NIST SRE 2010 a na čtyři různé podmínky promlčení délky: 3 s-10 s, 10 s -30 s, 30 s-60 s a plné (neořízené) promluvy. Experimentální výsledky ukazují, že zatímco systém i-vektorů pracuje lépe při zkrácených výrokech 3 s až 10 s a 10 s až 30 s, u SGMM je pozorováno znatelné zlepšení, zejména v době trvání úplné promluvy. Navrhovaný přístup SGMM nakonec vykazuje komplementární vlastnosti a lze jej tedy účinně spojit se systémem verifikace reproduktorů založeným na i-vektorech.
@inproceedings{BUT119895,
author="Petr {Motlíček} and Subhadeep {Dey} and Srikanth {Madikeri} and Lukáš {Burget}",
title="Employment of Subspace Gaussian Mixture Models in Speaker Recognition",
booktitle="Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing",
year="2015",
pages="4445--4449",
publisher="IEEE Signal Processing Society",
address="South Brisbane, Queensland",
doi="10.1109/ICASSP.2015.7178811",
isbn="978-1-4673-6997-8",
url="https://ieeexplore.ieee.org/document/7178811"
}