Detail publikace
Convolutional Neural Networks and X-Vector Embedding for DCASE2018 Acoustic Scene Classification Challenge
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Audio scene classification, Convolutional neural networks, Deep learning, x-vectors, Regularized LDA
V tomto příspěvku jsou popsána podání týmu Vysokého učení technického v Brně (VUT) k úkolu 1 (Klasifikace akustické scény, ASC) výzvy DCASE-2018. Rovněž je poskytována analýza různých metod v sadě žebříčků. Navrhovaný přístup je fúzí dvou různých topologií konvoluční neurální sítě (CNN). První z nich je společný dvourozměrný CNN, který se používá hlavně při klasifikaci obrázků. Druhým z nich je jednorozměrný CNN pro extrakci vložení audio segmentu pevné délky, tzv. X-vektory, který se také používá při zpracování řeči, zejména pro rozpoznávání mluvčích. Kromě různých topologií byly testovány dva typy funkcí: log mel-spectrogram a funkce CQT. Nakonec jsou výstupy různých systémů sloučeny pomocí jednoduchého výstupu zprůměrovaného v nejvýkonnějším systému. Naše příspěvky se umístily na třetím místě mezi 24 týmy v dílčím úkolu ASC A (task-1a).
@inproceedings{BUT155111,
author="Hossein {Zeinali} and Lukáš {Burget} and Jan {Černocký}",
title="Convolutional Neural Networks and X-Vector Embedding for DCASE2018 Acoustic Scene Classification Challenge",
booktitle="Proceedings of DCASE 2018 Workshop",
year="2018",
pages="1--5",
publisher="Tampere University of Technology",
address="Surrey",
isbn="978-952-15-4262-6",
url="http://dcase.community/documents/workshop2018/proceedings/DCASE2018Workshop_Zeinali_149.pdf"
}