Detail publikace

Employment of Subspace Gaussian Mixture Models in Speaker Recognition

MOTLÍČEK, P.; DEY, S.; MADIKERI, S.; BURGET, L. Employment of Subspace Gaussian Mixture Models in Speaker Recognition. In Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. South Brisbane, Queensland: IEEE Signal Processing Society, 2015. p. 4445-4449. ISBN: 978-1-4673-6997-8.
Název česky
Využití podprostorových modelů Gaussovských směsí pro rozpoznávání mluvčího
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

rozpoznání mluvčího, i-vektory, subspace Gaussian mixture models, automatické rozpoznávání řeči

Abstrakt

Tento článek představuje přístup subprostorového gaussovského smíšeného modelu (SGMM) používaný jako pravděpodobnostní generativní model k odhadu reprezentací vektoru reproduktorů, které mají být následně použity v úloze ověření reproduktoru. Ukázalo se, že SGMM již výrazně překonávají tradiční HMM / GMM v aplikacích automatického rozpoznávání řeči (ASR). Rozšíření základního rámce SGMM umožňuje robustně odhadnout nízko-dimenzionální reproduktorové vektory a využít je pro adaptaci reproduktorů. Navrhujeme rámec pro ověřování reproduktorů založený na nízko-dimenzionálních reproduktorových vektorech odhadovaných pomocí SGMM, vyškolených ASR způsobem pomocí ručních přepisů. Abychom otestovali robustnost systému, vyhodnocujeme navržený přístup s ohledem na nejmodernější extraktor i-vektorů v hodnotící sadě NIST SRE 2010 a na čtyři různé podmínky promlčení délky: 3 s-10 s, 10 s -30 s, 30 s-60 s a plné (neořízené) promluvy. Experimentální výsledky ukazují, že zatímco systém i-vektorů pracuje lépe při zkrácených výrokech 3 s až 10 s a 10 s až 30 s, u SGMM je pozorováno znatelné zlepšení, zejména v době trvání úplné promluvy. Navrhovaný přístup SGMM nakonec vykazuje komplementární vlastnosti a lze jej tedy účinně spojit se systémem verifikace reproduktorů založeným na i-vektorech.

Rok
2015
Strany
4445–4449
Sborník
Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing
ISBN
978-1-4673-6997-8
Vydavatel
IEEE Signal Processing Society
Místo
South Brisbane, Queensland
DOI
UT WoS
000427402904111
EID Scopus
BibTeX
@inproceedings{BUT119895,
  author="Petr {Motlíček} and Subhadeep {Dey} and Srikanth {Madikeri} and Lukáš {Burget}",
  title="Employment of Subspace Gaussian Mixture Models in Speaker Recognition",
  booktitle="Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing",
  year="2015",
  pages="4445--4449",
  publisher="IEEE Signal Processing Society",
  address="South Brisbane, Queensland",
  doi="10.1109/ICASSP.2015.7178811",
  isbn="978-1-4673-6997-8",
  url="https://ieeexplore.ieee.org/document/7178811"
}
Nahoru