Detail publikace
Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Conv-TasNet, beamforming, embedding extractor, speaker verification, MultiSV
Zaměřujeme se na problém rozpoznávání mluvčích ve vzdálených vícekanálových datech. Hlavním přínosem je zavedení alternativního způsobu predikce prostorových kovariančních matic (SCM) pro beamformer ze signálu v časové oblasti. Navrhujeme použít ConvTasNet, známý model separace zdrojů, a přizpůsobíme jej tak, aby prováděl vylepšení řeči tím, že jej přinutíme oddělit řeč a aditivní šum. Experimentujeme s použitím STFT výstupů Conv-TasNet k získání SCM řeči a šumu a nakonec doladíme tento vícekanálový frontend w.r.t. cíl ověření mluvčího. Problém nedostatku realistické vícekanálové trénovací sady jsme úspěšně řešili pomocí simulovaných dat korpusu MultiSV. Analýza se provádí na jeho znovu přenášených a simulovaných testovacích částech. Konzistentních zlepšení dosahujeme s 2,7krát menším modelem, než je základní, na základě schématu s maskou odhadující NN.
@inproceedings{BUT178381,
author="Ladislav {Mošner} and Oldřich {Plchot} and Lukáš {Burget} and Jan {Černocký}",
title="Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer",
booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
year="2022",
pages="7982--7986",
publisher="IEEE Signal Processing Society",
address="Singapore",
doi="10.1109/ICASSP43922.2022.9747771",
isbn="978-1-6654-0540-9",
url="https://ieeexplore.ieee.org/document/9747771"
}