Detail publikace

Noise-robust speech triage

BARTOS Anthony L., CIPR Tomáš, NELSON Douglas J., SCHWARZ Petr, BANOWETZ John a JERABEK Ladislav. Noise-robust speech triage. Journal of the Acoustical Society of America, roč. 143, č. 4, 2018, s. 2313-2320. ISSN 1520-8524. Dostupné z: https://asa.scitation.org/doi/10.1121/1.5031029

Název česky

Třídění řeči odolné vůči šumu

Typ

článek v časopise

Jazyk

angličtina

Autoři

Bartos Anthony L. (SRMA)
Cipr Tomáš, Ing. (Phonexia)
Nelson Douglas J. (DOD)
Schwarz Petr, Ing., Ph.D. (UPGM FIT VUT)
Banowetz John (NRL)
Jerabek Ladislav (SRMA)

URL

Abstrakt

Je představena metoda, ve které jsou použity běžné řečové algoritmy bez jakýchkoli modifikací ke zlepšení jejich výkonu v extrémně hlučných prostředích. Bylo prokázáno, že u algoritmů s vlastním kanálem bylo úspěšné předškolení modelů identifikace více řečníků (SID) v mřížce úrovní signálu k šumu (SNR) a následné provedení SID pomocí příslušného modelu závislého na SNR. zmírnění hluku na všech úrovních SNR. V těchto testech bylo zjištěno, že výkon SID byl optimalizován, když SNR testovacích a tréninkových dat byla blízká nebo identická. V tomto současném úsilí bylo použito více i-vektorových algoritmů, které výrazně zlepšily jak propustnost zpracování, tak stejnou přesnost klasifikace chybovosti. Použitím identických přístupů ve stejném hlučném prostředí se významně zlepšil výkon SID, identifikace jazyka, identifikace pohlaví a diarizace. Kritickým faktorem při tomto vylepšení je detekce aktivity řeči (SAD), která spolehlivě funguje v extrémně hlučných prostředích, kde je samotná řeč sotva slyšitelná. K optimalizaci provozu SAD na všech úrovních SNR byly použity dva algoritmy. První maximalizovala pravděpodobnost detekce při nízkých úrovních (10 dB SNR

Rok

2018

Strany

2313-2320

Časopis

Journal of the Acoustical Society of America, roč. 143, č. 4, ISSN 1520-8524

Vydavatel

American Institute of Physics for the Acoustical Society of America

DOI

10.1121/1.5031029

UT WoS

000430570900039

EID Scopus

2-s2.0-85045888415

BibTeX

@ARTICLE{FITPUB11716,
   author = "L. Anthony Bartos and Tom\'{a}\v{s} Cipr and J. Douglas Nelson and Petr Schwarz and John Banowetz and Ladislav Jerabek",
   title = "Noise-robust speech triage",
   pages = "2313--2320",
   journal = "Journal of the Acoustical Society of America",
   volume = 143,
   number = 4,
   year = 2018,
   ISSN = "1520-8524",
   doi = "10.1121/1.5031029",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11716"
}