Detail předmětu

Zpracování řečových signálů

ZRE Ak. rok 2024/2025 letní semestr 5 kreditů

Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.

Garant předmětu

Koordinátor předmětu

Jazyk výuky

česky, anglicky

Zakončení

zkouška (písemná)

Rozsah

  • 26 hod. přednášky
  • 2 hod. cvičení
  • 12 hod. pc laboratoře
  • 12 hod. projekty

Bodové hodnocení

  • 51 bodů závěrečná zkouška
  • 14 bodů půlsemestrální test
  • 6 bodů laboratoře
  • 29 bodů projekty

Zajišťuje ústav

Přednášející

Cvičící

Cíle předmětu

Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.
Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.

Literatura studijní

  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, Wiley-Interscience; 2 edition.
  • Yu, D., Deng, L., Automatic speech recognition, Springer, 2016.
  • Rabiner, L. R., & Schafer, R. W. Theory and applications of digital speech processing, Pearson, 2011.
  • Psutka, J., Müller, L., Matoušek, J., & Radová, V., Mluvíme s počítačem česky, Academia, 2006.

Literatura referenční

  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0 
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7 

  • www stránka předmětu https://www.fit.vutbr.cz/study/courses/ZRE/public/

Osnova přednášek

  1. Úvod, aplikace zpracování řeči. 
  2. Číslicové zpracování řečových signálů.
  3. Tvorba a řeči a její signálový model.
  4. Předzpracování a základní parametry, cepstrum. 
  5. Lineárně-prediktivní model. 
  6. Určování základního tónu hlasu
  7. Kódování řeči - základy.
  8. Kódování řeči CELP. 
  9. Základy rozpoznávání řeči, DTW. 
  10. Skryté Markovovy modely HMM. 
  11. Systémy pro rozpoznávání řeči s velkým slovníkem (LVCSR). 
  12. Rozpoznávání mluvčího a jazyka. Využití neuronových sítí ve zpracování řeči. 
  13. Syntéza řeči z textu. 

Osnova numerických cvičení

  1. Paramatrizace, DTW, HMM.

Osnova počítačových cvičení

V laboratořích (kromě poslední) je používán Matlab.
  1. Úvod. 
  2. Lineární predikce a vektorové kvantování. 
  3. Určování základního tónu a kódování řeči.
  4. Základy klasifikace. 
  5. Rozpoznávání - Dynamic time Warping (DTW).
  6. Rozpoznávání - skryté Markovovy modely (HTK).

Průběžná kontrola studia

  • půlsemestrální test 14b
  • projekt 29b
  • presentace výsledků na poč. cvičeních 6b


Rozvrh

DenTypTýdnyMístn.OdDoKapacitaPSKSkupInfo
Po přednáška výuky A112 16:0017:5064 1MIT 2MIT NSPE xx Černocký
Po poč. lab výuky O204 18:0019:5020 1MIT 2MIT xx Černocký

Zařazení předmětu ve studijních plánech

Nahoru