Detail publikace

Speaker Verification with Application-Aware Beamforming

MOŠNER, L.; PLCHOT, O.; ROHDIN, J.; BURGET, L.; ČERNOCKÝ, J. Speaker Verification with Application-Aware Beamforming. In IEEE Automatic Speech Recognition and Understanding Workshop - Proceedings (ASRU). Sentosa, Singapore: IEEE Signal Processing Society, 2019. p. 411-418. ISBN: 978-1-7281-0306-8.

Název česky

Rozpoznávání řečníka s aplikačně specifickým směrováním akustického paprsku

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Mošner Ladislav, Ing. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

http://www.fit.vutbr.cz/research/groups/speech/publi/2019/mosner_asru2019_0000411.pdf PDF

Klíčová slova

Speaker verification, beamforming, xvector, generalized eigenvalue problem

Abstrakt

Vícekanálové aplikace pro zpracování řeči obvykle používají formovače paprsků jako prostředky pro vylepšení řeči prostřednictvím prostorového filtrování. Beamformery se naučitelnými parametry vyžadují trénování, aby se minimalizovala funkce ztráty, která nemusí nutně souviset s konečným cílem. V tomto článku představujeme rámec využívající nedávný generátor vlastních tvarů založených na neuronových sítích a model specifický pro aplikaci, který umožňuje optimalizaci formátoru paprsků w.r.t. cílová aplikace. V našem případě je aplikací ověření mluvčího, které využívá x-vektor extraktor embeddingu mluvčího, který výhodně přichází s požadovanou ztrátou. Ukazujeme, že aplikace specifické pro formování paprsku přináší zlepšení výkonu oproti systému vyškolenému standardním způsobem. Provádíme analýzu na nedávno představeném korpusu VOiCES, který obsahuje vícekanálová data a umožňuje nám upravit zkušební testy tak, aby záznamy zápisu zůstaly jednokanálové a testovací promluvy byly vícekanálové.

Rok

2019

Strany

411–418

Sborník

IEEE Automatic Speech Recognition and Understanding Workshop - Proceedings (ASRU)

ISBN

978-1-7281-0306-8

Vydavatel

IEEE Signal Processing Society

Místo

Sentosa, Singapore

DOI

10.1109/ASRU46091.2019.9003932

UT WoS

000539883100055

EID Scopus

2-s2.0-85081562834

BibTeX

@inproceedings{BUT161476,
  author="Ladislav {Mošner} and Oldřich {Plchot} and Johan Andréas {Rohdin} and Lukáš {Burget} and Jan {Černocký}",
  title="Speaker Verification with Application-Aware Beamforming",
  booktitle="IEEE Automatic Speech Recognition and Understanding Workshop - Proceedings (ASRU)",
  year="2019",
  pages="411--418",
  publisher="IEEE Signal Processing Society",
  address="Sentosa, Singapore",
  doi="10.1109/ASRU46091.2019.9003932",
  isbn="978-1-7281-0306-8",
  url="https://www.fit.vut.cz/research/publication/12152/"
}