Detail publikace
Multisv: Dataset for Far-Field Multi-Channel Speaker Verification
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Multi-channel, speaker verification, MultiSV, dataset, beamforming
Motivováni nekonsolidovanou datovou situací a nedostatkem standardního benchmarku v této oblasti, doplňujeme naše předchozí úsilí a představujeme komplexní korpus určený pro trénování a vyhodnocování textově nezávislých vícekanálových systémů ověřování mluvčích. Lze jej snadno použít také pro experimenty s dereverberací, odšumováním a zvýrazněním řeči. Vyřešili jsme všudypřítomný problém nedostatku vícekanálových trénovacích dat využitím simulace dat nad čistými částmi korpusu Voxceleb. Vývojové a vyhodnocovací testy jsou založeny na znovu přeneseném korpusu Voices Obscured in Complex Environmental Settings (VOiCES), který jsme upravili tak, aby poskytoval vícekanálové testy. Zveřejňujeme úplné recepty, které vytvářejí datovou sadu z veřejných zdrojů jako datovou sadu MultiSV, a poskytujeme výsledky se dvěma z našich vícekanálových systémů pro ověřování mluvčích založené na "beamforming" na bázi neuronové sítě založené buď na předpovídání ideálních binárních masek, nebo na novějším Conv-TasNet.
@inproceedings{BUT178380,
author="Ladislav {Mošner} and Oldřich {Plchot} and Lukáš {Burget} and Jan {Černocký}",
title="Multisv: Dataset for Far-Field Multi-Channel Speaker Verification",
booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
year="2022",
pages="7977--7981",
publisher="IEEE Signal Processing Society",
address="Singapore",
doi="10.1109/ICASSP43922.2022.9746833",
isbn="978-1-6654-0540-9",
url="https://ieeexplore.ieee.org/document/9746833"
}