Detail předmětu
Zpracování řeči a audia člověkem a počítačem
ASD Ak. rok 2024/2025 zimní semestr
Třídenní intenzivní kurz
Interakce mezi lidmi a stroji může být podstatně zkvalitněna, použijeme-li ke komunikaci lidskou řeč. Znalost lidských schopností při zpracování řeči jako přirozeného komunikačního signálu může být velmi užitečná při návrhu technik pro jeho automatické zpracování.
Okruhy otázek k SDZ:
- Která z vlastností lidského slyšení se používá téměř u všech existujících technik rozpoznávání řeči?
- Popište strukturu lidského ucha.
- Jak lidsky sluch provádí frekvenční analýzu zvuku?
- Jak ucho sděluje informace z ucha lidskému mozku?
- Jaká je jedna z důležitých vlastností frekvenčního rozlišení lidského sluchu? Jak se liší od frekvenčního rozlišení Fourierovy analýzy?
- Co je maskováni lidského sluchu? K čemu může být dobré a proč?
- Co je simultánní maskováni a maskování vpřed v lidském sluchu?
- Na čem závisí hlasitost zvuku?
- Na kterých frekvencích slyšíme nejlépe?
- Popište některé techniky analýzy řeči, které využívají pokročilejší znalosti lidského sluchu.
Garant předmětu
Jazyk výuky
Zakončení
Rozsah
- 39 hod. přednášky
Bodové hodnocení
- 100 bodů závěrečná zkouška
Zajišťuje ústav
Cíle předmětu
Kurz vysvětlí koncepci signálu coby nosiče informace, základní principy zpracování kognitivních signálů a uvede posluchače do některých důležitých principů lidského zpracování řeči a obrazu.
Studenti se naučí interpretovat empirická data včetně technik pro jejich modelování a pro použití příslušných modelů při návrhu strojových rozhraní. Zvláštní důraz je kladen na soudobý aktivní výzkum v oblasti modelu lidského zpracování řeči.
Literatura studijní
- Ben Gold, Nelson Morgan, Dan Ellis: Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Wiley-Interscience; 2nd Edition, 2011.
- Brian Moore: An Introduction to the Psychology of Hearing, 6th Edition, BRILL 2013.
- Simon Haykin: Neural Networks And Learning Machines, Pearson Education; Third edition, 2016.
Osnova přednášek
První den
- Úvod do zpracování kognitivních signálů nesoucích informaci - lidská řeč.
- Základy teorie informace a klasifikace vzorů.
- Základy tvorby řeči.
- Standardní techniky pro zpracování řeči (krátkodobá spektrální analýza, filtrace pásmovými propustmi, Fourierova transformace a jí podobné metody zpracování signálu, kepstrum, lineární predikce).
Druhý den
- Základy zpracování zvuku člověkem.
- Vnímání výšky tónu a jeho hlasitosti.
- Vlastnosti sluchu ve spektrální a časové oblasti.
- Fenomén maskování jednoho zvuku druhým.
- Důležité poznatky o zpracování řeči člověkem.
Třetí den
- Úvod do technik zpracování používajících modely lidského sluchu.
- Lineární diskriminační analýza a její použití při návrhu spektrální analýzy.
- Metody zpracování signálu využívající časové oblasti.
- Dynamické příznaky odvozené ze signálu.
- Zpracování řeči využívající principů frekvenčních kanálů.
- Rozpoznávání z časových obrazců a nelineární diskriminační techniky při zpracování řeči.
Průběžná kontrola studia
Ústní zkouška.
Zařazení předmětu ve studijních plánech
- Program DIT, libovolný ročník, povinně volitelný skupina O
- Program DIT, libovolný ročník, povinně volitelný skupina O
- Program DIT-EN (anglicky), libovolný ročník, povinně volitelný skupina O
- Program DIT-EN (anglicky), libovolný ročník, povinně volitelný skupina O
- Program VTI-DR-4, obor DVI4, libovolný ročník, volitelný
- Program VTI-DR-4, obor DVI4, libovolný ročník, volitelný
- Program VTI-DR-4 (anglicky), obor DVI4, libovolný ročník, volitelný