Detail publikace

Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition

NOVOTNÝ, O.; PLCHOT, O.; GLEMBEK, O.; ČERNOCKÝ, J.; BURGET, L. Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition. COMPUTER SPEECH AND LANGUAGE, 2019, vol. 2019, no. 58, p. 403-421. ISSN: 0885-2308.
Název česky
Analýza čištění signálu pomocí DNN pro robustní rozpoznávání mluvčího
Typ
článek v časopise
Jazyk
anglicky
Autoři
Novotný Ondřej, Ing., Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Černocký Jan, prof. Dr. Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
URL
Klíčová slova

Speakerverification; Signalenhancement; Autoencoder; Neuralnetwork; Robustness; Embedding

Abstrakt

V této práci předkládáme analýzu autoencoderu založeného na DNN pro zlepšení řeči, odcizení a odcizení. Aplikace Thetarget je robustní systém ověřování reproduktorů (SV). Náš přístup začínáme pečlivě navrhovat proces rozšiřování dat tak, aby pokrýval širokou škálu akustických podmínek a získával bohatá data školení pro různé komponenty našeho SV systému. Rozšiřujeme několik známých databází používaných v SV o uměle notifikovaná a dozvučená data a my použijte je k tréninku adenizujícího autoenkodéru (mapování hlučné a dozvukové řeči na jeho čistou verzi) a extraktoru x-vektorů, který je v současné době v SV považován za nejmodernější. Později používáme autoencoder jako krok předzpracování textově nezávislého SV sys-tem. Porovnáme dosažené výsledky s vylepšením autoencoderu, multi-kondičním PLDA tréninkem a jejich současným použitím. Předkládáme podrobnou analýzu s různými podmínkami NIST SRE 2010, 2016, PRISM as re-přenášenými daty. Zjišťujeme, že navrhované předzpracování může významně zlepšit jak základní linie i-vektorů, tak x-vektorů a že tato technika může být použita k vytvoření robustního SV systému pro různé cílové domény.

Rok
2019
Strany
403–421
Časopis
COMPUTER SPEECH AND LANGUAGE, roč. 2019, č. 58, ISSN 0885-2308
DOI
UT WoS
000477663800022
EID Scopus
BibTeX
@article{BUT158089,
  author="Ondřej {Novotný} and Oldřich {Plchot} and Ondřej {Glembek} and Jan {Černocký} and Lukáš {Burget}",
  title="Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2019",
  volume="2019",
  number="58",
  pages="403--421",
  doi="10.1016/j.csl.2019.06.004",
  issn="0885-2308",
  url="https://www.sciencedirect.com/science/article/pii/S0885230818303607"
}
Nahoru