Robustní rozpoznávání SPEAKER na základě modelů hlubokého učení a pozornosti

Název česky

Typ

grant

Klíčová slova

strojní učení, dolování dat, zpracování statistických dat a aplikace, numerická
analýza, simulace, optimalizace, modelovací nástroje, zpracování signálů,
neuronové sítě, spojovací systémy, fuzzy logika, složitost a kryptografie,
elektronická bezpečnost, Sítě, modely pozornosti, hluboké učení, rozpoznávání
jazyka, zpracování řeči

Abstrakt

Tento projekt se zaměřuje na automatické rozpoznávání reproduktorů (SID), úlohu
určení totožnosti řečníka při záznamu řeči. Odstranění informací specifických pro
reproduktory od ostatních obtížných variabilit (kanál atd.) Vyžaduje složité
modely. Hloubkové neuronové sítě (DNN) nedávno prokázaly svůj potenciál, neboť
populární x-vektor se naučil DNN. Zde se zaměřujeme na SID end-to-end, kde je
systém optimalizován jako celek pro cílové úkoly. Přes některé první kroky
v tomto směru je několik aspektů stále neprobádaných. Navrhujeme prozkoumat
opakované přístupy, vhodné pro řešení časových signálů, stejně jako různé metody
sdružování pro získání reprezentace s pevnou délkou ze vstupní sekvence řeči
s proměnnou délkou, což je důležitá otázka v oboru. Také chceme prozkoumat různé
chování mechanizmů pozornosti, které činí soustředění DNN na příslušné části
vstupů a poskytují způsob, jak kvantifikovat, kolik důkazů bylo shromážděno
o totožnosti řečníka a nejistotě získaného zastoupení, což je kritický problém
při vytváření (Bayesovské) rozhodnutí v SID. Některé další přístupy, jako je
použití syrového signálu (namísto funkcí) nebo jiné pokroky, které by mohly
vzniknout, budou také zkoumány pro SID a související úkoly. Abychom dosáhli
našich cílů, začneme od teorie, implementujeme navrhované přístupy a testujeme
skutečné řečové údaje. Výstupy mají být přínosem jak pro vědeckou komunitu, tak
pro zpracování řeči, jako je Phonexia nebo Nuance. Žadatelka Dr. Alicia
Lozano-Diezová je vynikajícím výzkumným pracovníkem, který doktorskou práci
vykonal. v Audias (Universidad Autonoma de Madrid, Španělsko), respektované
výzkumné laboratoře. Hostitelská skupina Speech @ FIT z Vysoké školy
technologické v Brně (Czechia) má špičkovou tradici výzkumu zpracování řeči.
Proto očekáváme, že kombinace výzkumného pracovníka i hostitele podpoří kariéru
výzkumného pracovníka a prospěje hostitelské skupině (a jejích evropských
průmyslových partnerů).

Řešitelé

Lozano Díez Alicia, Ph.D. – hlavní řešitel
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

Publikace

2021

LANDINI, F.; LOZANO DÍEZ, A.; BURGET, L.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; ŽMOLÍKOVÁ, K.; GLEMBEK, O.; MATĚJKA, P.; STAFYLAKIS, T.; BRUMMER, J. BUT System Description for The Third DIHARD Speech Diarization Challenge. Proceedings available at Dihard Challenge Github. on-line by LDC and University of Pennsylvania: 2021. p. 1-5. Detail

2020

ALAM, J.; BOULIANNE, G.; BURGET, L.; DAHMANE, M.; DIEZ SÁNCHEZ, M.; GLEMBEK, O.; LALONDE, M.; LOZANO DÍEZ, A.; MATĚJKA, P.; MIZERA, P.; MOŠNER, L.; NOISEUX, C.; MONTEIRO, J.; NOVOTNÝ, O.; PLCHOT, O.; ROHDIN, J.; SILNOVA, A.; SLAVÍČEK, J.; STAFYLAKIS, T.; ST-CHARLES, P.; WANG, S.; ZEINALI, H. Analysis of ABC Submission to NIST SRE 2019 CMN and VAST Challenge. Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Tokyo: International Speech Communication Association, 2020. p. 289-295. ISSN: 2312-2846. Detail
BURGET, L.; GLEMBEK, O.; LOZANO DÍEZ, A.; MATĚJKA, P.; NOVOTNÝ, O.; PLCHOT, O.; PULUGUNDLA, B.; ROHDIN, J.; SILNOVA, A.; VESELÝ, K. BUT System Description to SdSV Challenge 2020. Proceedings of Short-duration Speaker Verification Challenge 2020 Workshop. Shanghai, on-line event of Interspeech 2020 Conference: 2020. p. 1-5. Detail
LOZANO DÍEZ, A.; SILNOVA, A.; PULUGUNDLA, B.; ROHDIN, J.; VESELÝ, K.; BURGET, L.; PLCHOT, O.; GLEMBEK, O.; NOVOTNÝ, O.; MATĚJKA, P. BUT Text-Dependent Speaker Verification System for SdSV Challenge 2020. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Shanghai: International Speech Communication Association, 2020. p. 761-765. ISSN: 1990-9772. Detail

Studijní oddělení

Robust End-To-End SPEAKER recognition based on deep learning and attention models

2021

2020