Detail publikace
Speaker Verification with Application-Aware Beamforming
Plchot Oldřich, Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Speaker verification, beamforming, xvector, generalized eigenvalue problem
Vícekanálové aplikace pro zpracování řeči obvykle používají formovače paprsků jako prostředky pro vylepšení řeči prostřednictvím prostorového filtrování. Beamformery se naučitelnými parametry vyžadují trénování, aby se minimalizovala funkce ztráty, která nemusí nutně souviset s konečným cílem. V tomto článku představujeme rámec využívající nedávný generátor vlastních tvarů založených na neuronových sítích a model specifický pro aplikaci, který umožňuje optimalizaci formátoru paprsků w.r.t. cílová aplikace. V našem případě je aplikací ověření mluvčího, které využívá x-vektor extraktor embeddingu mluvčího, který výhodně přichází s požadovanou ztrátou. Ukazujeme, že aplikace specifické pro formování paprsku přináší zlepšení výkonu oproti systému vyškolenému standardním způsobem. Provádíme analýzu na nedávno představeném korpusu VOiCES, který obsahuje vícekanálová data a umožňuje nám upravit zkušební testy tak, aby záznamy zápisu zůstaly jednokanálové a testovací promluvy byly vícekanálové.
@inproceedings{BUT161476,
author="Ladislav {Mošner} and Oldřich {Plchot} and Johan Andréas {Rohdin} and Lukáš {Burget} and Jan {Černocký}",
title="Speaker Verification with Application-Aware Beamforming",
booktitle="IEEE Automatic Speech Recognition and Understanding Workshop - Proceedings (ASRU)",
year="2019",
pages="411--418",
publisher="IEEE Signal Processing Society",
address="Sentosa, Singapore",
doi="10.1109/ASRU46091.2019.9003932",
isbn="978-1-7281-0306-8",
url="https://www.fit.vut.cz/research/publication/12152/"
}