Detail projektu
Sequence summarizing neural networks for speaker recognition
Období řešení: 1. 7. 2016 – 30. 6. 2019
Typ projektu: grant
Kód: 5SA15094
Agentura: Evropská unie
Program: Horizon 2020
Speaker recognition, Neural networks
Automatické rozpoznávání mluvčího má za úkol oveřit nebo identifikovat osobu na základě nahrávky. Komerční aplikace rozpoznávání mluvčího jsou v přístupových systémech a v bankovnictví, důležité je také užití je v oblasti národní bezpečnosti. Navrhovaný projekt se týká automatického rozpoznávání mluvčího a je inspirován obrovským pokrokem, který v několika minulých letech přinesly do detekčních a rozpoznávacích úloh umělé neuronové sítě (neural networks, NN). Cílem našeho projektu je vyvinout nový typ NN, která bude vhodná pro rozpoznávání mluvčího a dosáhnout stavu, kdy bude tento přístup použitelný pro praktické aplikace. Dosavadní snahy použít NN pro rozpoznávání mluvčího se vždy zaměřovaly jen na to, že se jeden nebo několik funkčních bloků v klasických systémech nahradil za NN. Tento přístup je ale omezen (podobně jako existující systémy) tím, že je pevně předepsáno, co má neuronová síť modelovat. Náš projekt se zaměřuje na náhradu celého řetězce bloků v rozpoznávacím systému jednou neuronovou sítí, která bude celé promluvy zpracovávat v jediném kroku. To by mělo lépe využít schopností NN modelovat složité vzory v řečových signálech. Cíle projektu budou dosaženy teoretickou prací (odvození struktury NN, odvození kritérií pro trénování), implementací (paralelizace, škálování, atd.) a důkladným testováním na reálných řečových datech. Navrhovaný projekt je plně v souladu s Regionální inovační strategií Jihomoravského kraje, a jeho specializační strategií "Smart Specialization strategy (S3)". S3 definuje výzkum a vývoj v oblasti počítačového hardware a software jako jednu z pěti strategických priorit, a zvlášť zmiňuje oblasti IT bezpečnosti a cognitroniky. Navrhovaný projekt zcela spadá do oblasti cognitroniky a vzhledem k hlavním aplikacím rozpoznávání mluvčího se týká i oblasti počítačové bezpečnosti.
2020
- MATĚJKA, P.; PLCHOT, O.; GLEMBEK, O.; BURGET, L.; ROHDIN, J.; ZEINALI, H.; MOŠNER, L.; SILNOVA, A.; NOVOTNÝ, O.; DIEZ SÁNCHEZ, M.; ČERNOCKÝ, J. 13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE. COMPUTER SPEECH AND LANGUAGE, 2020, vol. 2020, no. 63,
p. 1-15. ISSN: 0885-2308. Detail - ROHDIN, J.; SILNOVA, A.; DIEZ SÁNCHEZ, M.; PLCHOT, O.; MATĚJKA, P.; BURGET, L.; GLEMBEK, O. End-to-end DNN based text-independent speaker recognition for long and short utterances. COMPUTER SPEECH AND LANGUAGE, 2020, vol. 2020, no. 59,
p. 22-35. ISSN: 0885-2308. Detail
2019
- ALAM, J.; BOULIANNE, G.; GLEMBEK, O.; LOZANO DÍEZ, A.; MATĚJKA, P.; MIZERA, P.; MONTEIRO, J.; MOŠNER, L.; NOVOTNÝ, O.; PLCHOT, O.; ROHDIN, J.; SILNOVA, A.; SLAVÍČEK, J.; STAFYLAKIS, T.; WANG, S.; ZEINALI, H. ABC NIST SRE 2019 CTS System Description. Proceedings of NIST. Sentosa, Singapore: National Institute of Standards and Technology, 2019.
p. 1-6. Detail - DIEZ SÁNCHEZ, M.; BURGET, L.; WANG, S.; ROHDIN, J.; ČERNOCKÝ, J. Bayesian HMM based x-vector clustering for Speaker Diarization. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019.
p. 346-350. ISSN: 1990-9772. Detail - MATĚJKA, P.; PLCHOT, O.; ZEINALI, H.; MOŠNER, L.; SILNOVA, A.; BURGET, L.; NOVOTNÝ, O.; GLEMBEK, O. Analysis of BUT Submission in Far-Field Scenarios of VOiCES 2019 Challenge. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019.
p. 2448-2452. ISSN: 1990-9772. Detail - ROHDIN, J.; STAFYLAKIS, T.; SILNOVA, A.; ZEINALI, H.; BURGET, L.; PLCHOT, O. Speaker Verification Using End-To-End Adversarial Language Adaptation. In Proceedings of ICASSP 2019. Brighton: IEEE Signal Processing Society, 2019.
p. 6006-6010. ISBN: 978-1-5386-4658-8. Detail - STAFYLAKIS, T.; ROHDIN, J.; PLCHOT, O.; MIZERA, P.; BURGET, L. Self-supervised speaker embeddings. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019.
p. 2863-2867. ISSN: 1990-9772. Detail - WANG, S.; ROHDIN, J.; BURGET, L.; PLCHOT, O.; QIAN, Y.; YU, K.; ČERNOCKÝ, J. On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019.
p. 1148-1152. ISSN: 1990-9772. Detail - ZEINALI, H.; BURGET, L.; ROHDIN, J.; STAFYLAKIS, T.; ČERNOCKÝ, J. How To Improve Your Speaker Embeddings Extractor in Generic Toolkits. In Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP). Brighton: IEEE Signal Processing Society, 2019.
p. 6141-6145. ISBN: 978-1-5386-4658-8. Detail - ZEINALI, H.; STAFYLAKIS, T.; ATHANASOPOULOU, G.; ROHDIN, J.; GKINIS, I.; BURGET, L.; ČERNOCKÝ, J. Detecting Spoofing Attacks Using VGG and SincNet: BUT-Omilia Submission to ASVspoof 2019 Challenge. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019.
p. 1073-1077. ISSN: 1990-9772. Detail
2018
- ALAM, J.; BHATTACHARYA, G.; BRUMMER, J.; BURGET, L.; DIEZ SÁNCHEZ, M.; GLEMBEK, O.; KENNY, P.; KLČO, M.; LANDINI, F.; LOZANO DÍEZ, A.; MATĚJKA, P.; MONTEIRO, J.; MOŠNER, L.; NOVOTNÝ, O.; PLCHOT, O.; PROFANT, J.; ROHDIN, J.; SILNOVA, A.; SLAVÍČEK, J.; STAFYLAKIS, T.; ZEINALI, H. ABC NIST SRE 2018 SYSTEM DESCRIPTION. Proceedings of 2018 NIST SRE Workshop. Athens: National Institute of Standards and Technology, 2018.
p. 1-10. Detail - DIEZ SÁNCHEZ, M.; LANDINI, F.; BURGET, L.; ROHDIN, J.; SILNOVA, A.; ŽMOLÍKOVÁ, K.; NOVOTNÝ, O.; VESELÝ, K.; GLEMBEK, O.; PLCHOT, O.; MOŠNER, L.; MATĚJKA, P. BUT system for DIHARD Speech Diarization Challenge 2018. In Proceedings of Interspeech 2018. Proceedings of Interspeech. Hyderabad: International Speech Communication Association, 2018.
p. 2798-2802. ISSN: 1990-9772. Detail - PLCHOT, O.; MATĚJKA, P.; NOVOTNÝ, O.; CUMANI, S.; LOZANO DÍEZ, A.; SLAVÍČEK, J.; DIEZ SÁNCHEZ, M.; GRÉZL, F.; GLEMBEK, O.; KAMSALI VEERA, M.; SILNOVA, A.; BURGET, L.; ONDEL YANG, L.; KESIRAJU, S.; ROHDIN, J. Analysis of BUT-PT Submission for NIST LRE 2017. In Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Les Sables d'Olonne: International Speech Communication Association, 2018.
p. 47-53. ISSN: 2312-2846. Detail - ROHDIN, J.; SILNOVA, A.; DIEZ SÁNCHEZ, M.; PLCHOT, O.; MATĚJKA, P.; BURGET, L. End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA. In Proceedings of ICASSP. Calgary: IEEE Signal Processing Society, 2018.
p. 4874-4878. ISBN: 978-1-5386-4658-8. Detail
2017
- MATĚJKA, P.; PLCHOT, O.; NOVOTNÝ, O.; CUMANI, S.; LOZANO DÍEZ, A.; SLAVÍČEK, J.; DIEZ SÁNCHEZ, M.; GRÉZL, F.; GLEMBEK, O.; KAMSALI VEERA, M.; SILNOVA, A.; BURGET, L.; ONDEL YANG, L.; KESIRAJU, S.; ROHDIN, J. BUT- PT System Description for NIST LRE 2017. Proceedings of NIST Language Recognition Workshop 2017. Orlando, Florida: National Institute of Standards and Technology, 2017.
p. 1-6. Detail - PLCHOT, O.; MATĚJKA, P.; SILNOVA, A.; NOVOTNÝ, O.; DIEZ SÁNCHEZ, M.; ROHDIN, J.; GLEMBEK, O.; BRÜMMER, N.; SWART, A.; PRIETO, J.; GARCIA PERERA, L.; BUERA, L.; KENNY, P.; ALAM, J.; BHATTACHARYA, G. Analysis and Description of ABC Submission to NIST SRE 2016. In Proceedings of Interspeech 2017. Proceedings of Interspeech. Stockholm: International Speech Communication Association, 2017.
p. 1348-1352. ISSN: 1990-9772. Detail
2016
- BRUMMER, J.; SWART, A.; PRIETO, J.; GARCIA PERERA, L.; MATĚJKA, P.; PLCHOT, O.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; JIANG, X.; NOVOTNÝ, O.; ROHDIN, J.; GLEMBEK, O.; GRÉZL, F.; BURGET, L.; ONDEL YANG, L.; PEŠÁN, J.; ČERNOCKÝ, J.; KENNY, P.; ALAM, J.; BHATTACHARYA, G.; ZEINALI, H. ABC NIST SRE 2016 SYSTEM DESCRIPTION. San Diego: National Institute of Standards and Technology, 2016.
p. 1-8. Detail