Detail projektu
Nové směry ve výzkumu a využití hlasových technologií
Období řešení: 1. 1. 2005 – 31. 12. 2007
Typ projektu: grant
Kód: GA102/05/0278
Agentura: Grantová agentura České republiky
Program: Standardní projekty
hlasové technologie;automatické rozpoznání řeči;multi-lingualní systémy;verifikace a rozpoznání řečníka;rozpoznání spojité řeči;audiovizuální zpracování řeči;rozsáhlé řečové databáze;dialogové systémy;optimalizace prozodie
Projekt navazuje na předchozí úspěšný výzkum v oblasti zpracování řeči podporovaný GA ČR, zahájený komplexním projektem (1996 až 2001) a následovaný současným úkolem (2002-2004). Díky nim došlo k propojení všech předních českých pracovišť zabývajících se analýzou, rozpoznáváním a syntézou řeči a k rozvinutí spolupráce při řešení výzkumných úkolů, přesahujících zaměření jednotlivých dílčích týmů. Na této spolupráci je postaven i předkládaný projekt. Vychází z dosavadních výsledků v oblasti zpracování signálů, z existence vlastních rozsáhlých databází pro tvorbu akustických modelů použitelných v rozpoznávání i při syntéze, z propracovaných metod pravděpodobnostního modelování jazyka i ze zkušeností získaných návrhem funkčních prototypů. S ohledem na současné světové trendy bude hlavní pozornost zaměřena na rozvoj metod a algoritmů použitelných v distribuovaných a autonomních mobilních zařízeních, v rozpoznávacích systémech s velmi rozsáhlými slovníky, v hlasových syntezátorech pro interaktivní komunikační služby, v úlohách automatického přepisu zvukových nahrávek např. zpravodajství, rozhovorů, apod. Řešeno bude též multimodální zpracování řeči s podporou vizuální informace a rovněž otázky spojené s rozpoznáváním osob podle hlasu. Hlavní prioritou bude uplatnit všechny nové poznatky v prostředí češtiny s ohledem na její specifické potřeby.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Grézl František, Ing., Ph.D. (UPGM)
Chalupníček Kamil, Ing. (VZ SPEECH)
Karafiát Martin, Ing., Ph.D. (UPGM)
Matějka Pavel, Ing., Ph.D. (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Schwarz Petr, Ing., Ph.D. (UPGM)
Szőke Igor, Ing., Ph.D. (UPGM)
2007
- BRÜMMER, N.; BURGET, L.; ČERNOCKÝ, J.; GLEMBEK, O.; GRÉZL, F.; KARAFIÁT, M.; VAN LEEUWEN, D.; MATĚJKA, P.; SCHWARZ, P.; STRASHEIM, A. Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation 2006. IEEE Transactions on Audio, Speech, and Language Processing, 2007, vol. 15, no. 7,
p. 2072-2084. ISSN: 1558-7916. Detail - BURGET, L.; MATĚJKA, P.; SCHWARZ, P.; GLEMBEK, O.; ČERNOCKÝ, J. Analysis of feature extraction and channel compensation in GMM speaker recognition system. IEEE Transactions on Audio, Speech, and Language Processing, 2007, vol. 15, no. 7,
p. 1979-1986. ISSN: 1558-7916. Detail - GRÉZL, F.; ČERNOCKÝ, J. TRAP-based Techniques for Recognition of Noisy Speech. In Proc. 10th International Conference on Text Speech and Dialogue (TSD 2007). LNCS. Berlin: Springer Verlag, 2007.
p. 270-277. ISBN: 978-3-540-74627-0. Detail - GRÉZL, F.; KARAFIÁT, M.; ČERNOCKÝ, J. Neural network topologies and bottle neck features in speech recognition. Brno: 2007.
p. 78-82. Detail - HUBEIKA, V.; SZŐKE, I.; BURGET, L.; ČERNOCKÝ, J. Maximum Likelihood and Maximum Mutual Information Training in Gender and Age Recognition System. In Proc. 10th International Conference on Text Speech and Dialogue (TSD 2007). Pilsen: Springer Verlag, 2007.
p. 1-6. ISBN: 978-3-540-74627-0. Detail - MIKOLOV, T.; OPARIN, I.; GLEMBEK, O.; BURGET, L.; KARAFIÁT, M.; ČERNOCKÝ, J. Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek. Praha: Univerzita Karlova v Praze, 2007.
s. 1-5. Detail - SZŐKE, I.; BURGET, L.; KARAFIÁT, M. Combination of Word and Phoneme Approach for Spoken Term Detection. Brno: 2007.
p. 1 (1 s.). Detail - SZŐKE, I.; FAPŠO, M.; KARAFIÁT, M.; BURGET, L.; GRÉZL, F.; SCHWARZ, P.; GLEMBEK, O.; MATĚJKA, P.; KOPECKÝ, J.; ČERNOCKÝ, J. Spoken Term Detection System Based on a Combination of LVCSR and Phonetic Search. Brno: 2007.
p. 1 (1 s.). Detail
2006
- FAPŠO, M.; SMRŽ, P.; SCHWARZ, P.; SZŐKE, I.; SCHWARZ, M.; ČERNOCKÝ, J.; KARAFIÁT, M.; BURGET, L. Information Retrieval from Spoken Documents. In Proceedings of the Seventh International Conference on Intelligent Text Processing and Computational Linguistics (CICLING 2006). Mexico City: Springer Verlag, 2006.
p. 410-416. ISBN: 3-540-32205-1. Detail - HUBEIKA, V. Estimation of Gender and Age from Recorded Speech. In Proc. ACM Student Research competition 2006. Prague: Czech Technical University, 2006.
p. 25-32. ISBN: 80-01-03595-6. Detail - KARAFIÁT, M.; GRÉZL, F.; SCHWARZ, P.; BURGET, L.; ČERNOCKÝ, J. Robust heteroscedastic linear discriminant analysis and LCRC posterior features in meeting data recognition. In Proc. 3nd Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms (MLMI 2006). LNCS 4299. Berlin: Springer Verlag, 2006.
p. 275-284. ISBN: 3-540-69267-3. Detail - MATĚJKA, P.; BURGET, L.; SCHWARZ, P.; ČERNOCKÝ, J. Brno University of Technology System for NIST 2005 Language Recognition Evaluation. In Proceedings of Odyssey 2006: The Speaker and Language Recognition Workshop. San Juan: 2006.
p. 57-64. ISBN: 1-4244-0472-X. Detail
2005
- FAPŠO, M., SCHWARZ, P., SZŐKE, I., ČERNOCKÝ, J., SMRŽ, P., BURGET, L., KARAFIÁT, M. Search Engine for Information Retrieval from Multi-modal Records. Edinburgh: 2005. Detail
- FAPŠO, M., SMRŽ, P., SCHWARZ, P., SZŐKE, I., BURGET, L., KARAFIÁT, M., ČERNOCKÝ, J. Systém pre efektívne vyhľadávanie v rečových databázach. In Sborník databázové konference DATAKON 2005. Brno: Masaryk University, 2005.
s. 323-333. ISBN: 80-210-3813-6. Detail - GRÉZL, F. Spectral plane investigation for probabilistic features for ASR. Edinburgh: 2005.
p. 82 ( p.) Detail - MATĚJKA, P. Phoneme Recognition Tuning for Language Identification System. In Proceedings of the 11th conference STUDENT EEICT 2005. Brno: Faculty of Electrical Engineering and Communication BUT, 2005.
p. 658-653. ISBN: 80-214-2890-2. Detail - MATĚJKA, P., SCHWARZ, P., ČERNOCKÝ, J., CHYTIL, P. Phonotactic Language Identification. In Proceedings of Radioelektronika 2005. Brno: Faculty of Electrical Engineering and Communication BUT, 2005.
p. 140-143. ISBN: 80-214-2904-6. Detail - SZŐKE, I. Smooth Pitch Tracker Based on Harmonic and Noise Model. In STUDENT EEICT 2005. Brno: Faculty of Information Technology BUT, 2005.
p. 673-677. ISBN: 80-214-2890-2. Detail - SZŐKE, I., SCHWARZ, P., BURGET, L., KARAFIÁT, M., MATĚJKA, P., ČERNOCKÝ, J. Phoneme Based Acoustics Keyword Spotting in Informal Continuous Speech. Lecture Notes in Computer Science, 2005, vol. 2005, no. 3658,
p. 302 ( p.) ISSN: 0302-9743. Detail