Detail publikace

Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer

MOŠNER, L.; PLCHOT, O.; BURGET, L.; ČERNOCKÝ, J. Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022. p. 7982-7986. ISBN: 978-1-6654-0540-9.
Název česky
Multikanálové ověřování mluvčího se směrováním akustického paprsku založeným na Conv-Tasnet
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Conv-TasNet, beamforming, embedding extractor, speaker verification, MultiSV

Abstrakt

Zaměřujeme se na problém rozpoznávání mluvčích ve vzdálených vícekanálových datech. Hlavním přínosem je zavedení alternativního způsobu predikce prostorových kovariančních matic (SCM) pro beamformer ze signálu v časové oblasti. Navrhujeme použít ConvTasNet, známý model separace zdrojů, a přizpůsobíme jej tak, aby prováděl vylepšení řeči tím, že jej přinutíme oddělit řeč a aditivní šum. Experimentujeme s použitím STFT výstupů Conv-TasNet k získání SCM řeči a šumu a nakonec doladíme tento vícekanálový frontend w.r.t. cíl ověření mluvčího. Problém nedostatku realistické vícekanálové trénovací sady jsme úspěšně řešili pomocí simulovaných dat korpusu MultiSV. Analýza se provádí na jeho znovu přenášených a simulovaných testovacích částech. Konzistentních zlepšení dosahujeme s 2,7krát menším modelem, než je základní, na základě schématu s maskou odhadující NN.

Rok
2022
Strany
7982–7986
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore
DOI
UT WoS
000864187908058
EID Scopus
BibTeX
@inproceedings{BUT178381,
  author="Ladislav {Mošner} and Oldřich {Plchot} and Lukáš {Burget} and Jan {Černocký}",
  title="Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2022",
  pages="7982--7986",
  publisher="IEEE Signal Processing Society",
  address="Singapore",
  doi="10.1109/ICASSP43922.2022.9747771",
  isbn="978-1-6654-0540-9",
  url="https://ieeexplore.ieee.org/document/9747771"
}
Nahoru