Detail výsledku

Training Data Augmentation and Data Selection

KARAFIÁT, M.; VESELÝ, K.; ŽMOLÍKOVÁ, K.; DELCROIX, M.; WATANABE, S.; BURGET, L.; ČERNOCKÝ, J.; SZŐKE, I. Training Data Augmentation and Data Selection. In New Era for Robust Speech Recognition: Exploiting Deep Learning. Computer Science, Artificial Intelligence. Heidelberg: Springer International Publishing, 2017. p. 245-260. ISBN: 978-3-319-64679-4.
Typ
kapitola, resp. kapitoly v odborné knize
Jazyk
anglicky
Autoři
Karafiát Martin, Ing., Ph.D., UPGM (FIT)
Veselý Karel, Ing., Ph.D., FIT (FIT), UPGM (FIT)
Žmolíková Kateřina, Ing., Ph.D., UPGM (FIT)
Delcroix Marc, FIT (FIT)
Watanabe Shinji, FIT (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Černocký Jan, prof. Dr. Ing., UPGM (FIT)
Szőke Igor, Ing., Ph.D., UPGM (FIT)
Abstrakt

Data augmentation is a simple and efficient technique to improve the robustness of a speech recognizer when deployed in mismatched training-test conditions. Our work, conducted during the JSALT 2015 workshop, aimed at the development of: (1) Data augmentation strategies including noising and reverberation. They were tested in combination with two approaches to signal enhancement: a carefully engineered WPE dereverberation and a learned DNN-based denoising autoencoder. (2) Proposing a novel technique for extracting an informative vector from a Sequence Summarizing Neural Network (SSNN). Similarly to i-vector extractor, the SSNN produces a "summary vector", representing an acoustic summary of an utterance. Such vector can be used directly for adaptation, but the main usage matching the aim of this chapter is for selection of augmented training data. All techniques were tested on the AMI training set and CHiME3 test set.

Klíčová slova

training data, augmentation, data selection

URL
Anotace

Tato kniha pokrývá nejmodernější metody založené na hlubokých neuronových sítích pro odolnost proti šumu v aplikacích pro rozpoznávání vzdálené řeči. Poskytuje postřehy a podrobné popisy některých nových konceptů a klíčových technologií v oboru, včetně nových architektur pro vylepšení řeči, polí mikrofonů, robustních funkcí, přizpůsobení akustického modelu, rozšiřování tréninkových dat a tréninkových kritérií. Přispívané kapitoly také obsahují popis aplikací v reálném světě, srovnávací nástroje a datové sady široce používané v této oblasti. Kapitola 10 pojednává o rozšiřování tréninkových dat a výběru dat.

Tato kniha je určena pro výzkumné pracovníky a odborníky pracující v oblasti zpracování a rozpoznávání řeči, kteří se zajímají o nejnovější techniky hlubokého učení pro odolnost proti hluku. Kniha bude také zajímavá pro postgraduální studenty v oboru elektrotechniky nebo informatiky, pro které bude užitečným průvodcem v této oblasti výzkumu.

Rok
2017
Strany
245–260
Kniha
New Era for Robust Speech Recognition: Exploiting Deep Learning
Řada
Computer Science, Artificial Intelligence
ISBN
978-3-319-64679-4
Vydavatel
Springer International Publishing
Místo
Heidelberg
DOI
BibTeX
@inbook{BUT144497,
  author="Martin {Karafiát} and Karel {Veselý} and Kateřina {Žmolíková} and Marc {Delcroix} and Shinji {Watanabe} and Lukáš {Burget} and Jan {Černocký} and Igor {Szőke}",
  title="Training Data Augmentation and Data Selection",
  booktitle="New Era for Robust Speech Recognition: Exploiting Deep Learning",
  year="2017",
  publisher="Springer International Publishing",
  address="Heidelberg",
  series="Computer Science, Artificial Intelligence",
  pages="245--260",
  doi="10.1007/978-3-319-64680-0\{_}10",
  isbn="978-3-319-64679-4",
  url="http://www.springer.com/gp/book/9783319646794#aboutBook"
}
Soubory
Projekty
Dolování infoRmAcí z řeči Pořízené vzdÁlenými miKrofony, MV, Bezpečnostní výzkum České republiky 2015-2020, VI20152020025, zahájení: 2015-10-01, ukončení: 2020-09-30, ukončen
IT4Innovations excellence in science, MŠMT, Národní program udržitelnosti II, LQ1602, zahájení: 2016-01-01, ukončení: 2020-12-31, ukončen
Pracoviště
Nahoru