Detail publikace

EMPLOYMENT OF SUBSPACE GAUSSIAN MIXTURE MODELS IN SPEAKER RECOGNITION

MOTLÍČEK, P.; DEY, S.; MADIKERI, S.; BURGET, L. EMPLOYMENT OF SUBSPACE GAUSSIAN MIXTURE MODELS IN SPEAKER RECOGNITION. In Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. South Brisbane, Queensland: IEEE Signal Processing Society, 2015. p. 4445-4449. ISBN: 978-1-4673-6997-8.
Název česky
Využití podprostorových modelů Gaussovských směsí pro rozpoznávání mluvčího
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Dey Subhadeep
Madikeri Srikanth
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
URL
Klíčová slova

rozpoznání mluvčího, i-vektory, subspace Gaussian mixture models, automatické rozpoznávání řeči

Abstrakt

Tento článek představuje přístup subprostorového gaussovského smíšeného modelu (SGMM) používaný jako pravděpodobnostní generativní model k odhadu reprezentací vektoru reproduktorů, které mají být následně použity v úloze ověření reproduktoru. Ukázalo se, že SGMM již výrazně překonávají tradiční HMM / GMM v aplikacích automatického rozpoznávání řeči (ASR). Rozšíření základního rámce SGMM umožňuje robustně odhadnout nízko-dimenzionální reproduktorové vektory a využít je pro adaptaci reproduktorů. Navrhujeme rámec pro ověřování reproduktorů založený na nízko-dimenzionálních reproduktorových vektorech odhadovaných pomocí SGMM, vyškolených ASR způsobem pomocí ručních přepisů. Abychom otestovali robustnost systému, vyhodnocujeme navržený přístup s ohledem na nejmodernější extraktor i-vektorů v hodnotící sadě NIST SRE 2010 a na čtyři různé podmínky promlčení délky: 3 s-10 s, 10 s -30 s, 30 s-60 s a plné (neořízené) promluvy. Experimentální výsledky ukazují, že zatímco systém i-vektorů pracuje lépe při zkrácených výrokech 3 s až 10 s a 10 s až 30 s, u SGMM je pozorováno znatelné zlepšení, zejména v době trvání úplné promluvy. Navrhovaný přístup SGMM nakonec vykazuje komplementární vlastnosti a lze jej tedy účinně spojit se systémem verifikace reproduktorů založeným na i-vektorech.

Rok
2015
Strany
4445–4449
Sborník
Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing
Konference
2015 IEEE Mezinárodní konference zaměřená na zpracování signálů a jejich aplikaci (ICASSP), Brisbane, AU
ISBN
978-1-4673-6997-8
Vydavatel
IEEE Signal Processing Society
Místo
South Brisbane, Queensland
DOI
UT WoS
000427402904111
EID Scopus
BibTeX
@inproceedings{BUT119895,
  author="Petr {Motlíček} and Subhadeep {Dey} and Srikanth {Madikeri} and Lukáš {Burget}",
  title="EMPLOYMENT OF SUBSPACE GAUSSIAN MIXTURE MODELS IN SPEAKER RECOGNITION",
  booktitle="Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing",
  year="2015",
  pages="4445--4449",
  publisher="IEEE Signal Processing Society",
  address="South Brisbane, Queensland",
  doi="10.1109/ICASSP.2015.7178811",
  isbn="978-1-4673-6997-8",
  url="https://ieeexplore.ieee.org/document/7178811"
}
Soubory
Nahoru