Detail publikace

EMPLOYMENT OF SUBSPACE GAUSSIAN MIXTURE MODELS IN SPEAKER RECOGNITION

MOTLÍČEK, P.; DEY, S.; MADIKERI, S.; BURGET, L. EMPLOYMENT OF SUBSPACE GAUSSIAN MIXTURE MODELS IN SPEAKER RECOGNITION. In Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. South Brisbane, Queensland: IEEE Signal Processing Society, 2015. p. 4445-4449. ISBN: 978-1-4673-6997-8.

Název česky

Využití podprostorových modelů Gaussovských směsí pro rozpoznávání mluvčího

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Dey Subhadeep
Madikeri Srikanth
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

Klíčová slova

rozpoznání mluvčího, i-vektory, subspace Gaussian mixture models, automatické rozpoznávání řeči

Abstrakt

Tento článek představuje přístup subprostorového gaussovského smíšeného modelu (SGMM) používaný jako pravděpodobnostní generativní model k odhadu reprezentací vektoru reproduktorů, které mají být následně použity v úloze ověření reproduktoru. Ukázalo se, že SGMM již výrazně překonávají tradiční HMM / GMM v aplikacích automatického rozpoznávání řeči (ASR). Rozšíření základního rámce SGMM umožňuje robustně odhadnout nízko-dimenzionální reproduktorové vektory a využít je pro adaptaci reproduktorů. Navrhujeme rámec pro ověřování reproduktorů založený na nízko-dimenzionálních reproduktorových vektorech odhadovaných pomocí SGMM, vyškolených ASR způsobem pomocí ručních přepisů. Abychom otestovali robustnost systému, vyhodnocujeme navržený přístup s ohledem na nejmodernější extraktor i-vektorů v hodnotící sadě NIST SRE 2010 a na čtyři různé podmínky promlčení délky: 3 s-10 s, 10 s -30 s, 30 s-60 s a plné (neořízené) promluvy. Experimentální výsledky ukazují, že zatímco systém i-vektorů pracuje lépe při zkrácených výrokech 3 s až 10 s a 10 s až 30 s, u SGMM je pozorováno znatelné zlepšení, zejména v době trvání úplné promluvy. Navrhovaný přístup SGMM nakonec vykazuje komplementární vlastnosti a lze jej tedy účinně spojit se systémem verifikace reproduktorů založeným na i-vektorech.

Rok

2015

Strany

4445–4449

Sborník

Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing

Konference

2015 IEEE Mezinárodní konference zaměřená na zpracování signálů a jejich aplikaci (ICASSP), Brisbane, AU

ISBN

978-1-4673-6997-8

Vydavatel

IEEE Signal Processing Society

Místo

South Brisbane, Queensland

DOI

10.1109/ICASSP.2015.7178811

UT WoS

000427402904111

EID Scopus

2-s2.0-84946019484

BibTeX

@inproceedings{BUT119895,
  author="Petr {Motlíček} and Subhadeep {Dey} and Srikanth {Madikeri} and Lukáš {Burget}",
  title="EMPLOYMENT OF SUBSPACE GAUSSIAN MIXTURE MODELS IN SPEAKER RECOGNITION",
  booktitle="Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing",
  year="2015",
  pages="4445--4449",
  publisher="IEEE Signal Processing Society",
  address="South Brisbane, Queensland",
  doi="10.1109/ICASSP.2015.7178811",
  isbn="978-1-4673-6997-8",
  url="https://ieeexplore.ieee.org/document/7178811"
}

Soubory

pdf motlicek_icassp2015_0004445.pdf 446 kB