Detail předmětu
Ukládání a příprava dat
UPA Ak. rok 2022/2023 zimní semestr 5 kreditů
Předmět se zaměřuje na moderní databázové systémy jako typické zdroje dat pro získávání znalostí a dále na přípravu dat k získávání znalostí. Jedná se o rozšířené relační (objektově-relační, s podporou pro práci s XML a JSON dokumenty), prostorové a NoSQL databázové systémy. Vysvětlený je odpovídající databázový model, způsob práce s daty a některé metody indexace dat. V kontextu výkladu základních kroků procesu získávání znalostí z dat je věnována pozornost popisným charakteristikám dat a vizualizačním technikám používaným k pochopení dat a jejich vlastností. Dále jsou vysvětleny přístupy řešení typických úloh předzpracování dat pro získávání znalostí, jako je čištění, integrace, transformace, redukce apod. Rovněž jsou prezentovány přístupy k extrakci informace z webu pro účely získávání znalostí, charakterizovány nejčastěji používané jazyky a systémy pro získávání znalostí z dat a je uvedeno několik reálných případových studií.
Garant předmětu
Koordinátor předmětu
Jazyk výuky
Zakončení
Rozsah
- 26 hod. přednášky
- 6 hod. cvičení
- 6 hod. pc laboratoře
- 14 hod. projekty
Bodové hodnocení
- 56 bodů závěrečná zkouška (písemná část)
- 20 bodů půlsemestrální test (písemná část)
- 24 bodů projekty
Zajišťuje ústav
Přednášející
Burgetová Ivana, Ing., Ph.D. (UIFS)
Kolář Dušan, doc. Dr. Ing. (UIFS)
Rychlý Marek, RNDr., Ph.D. (UIFS)
Cvičící
Získané dovednosti, znalosti a kompetence z předmětu
Studenti budou schopni ukládat a manipulovat data ve vhodných databázových systémech, zkoumat vlastnosti dat a připravit je pro následné modelování v rámci získávání znalostí.
- Student lépe zvládne práci s daty v různých situacích.
- Student se zdokonalí v řešení malých projektů v malém týmu.
Cíle předmětu
Cílem předmětu je vysvětlit historický vývoj databázových technologií, motivaci získávání znalostí z dat a základní kroky procesu získávání znalostí, vysvětlit podstatu, vlastnosti a použití rozšířených relačních a NoSQL databází jako zdrojů dat pro získávání znalostí a vysvětlit přístupy a metody používané pro pochopení dat a přípravu dat pro získávání znalostí.
Proč je předmět vyučován
Předmět si klade za cíl ukázat, jak na složitá data kolem nás, jak je uložit, jak se v nich orientovat, získat z nich užitečné charakteristiky a připravit je pro extrakci skrytých informací/znalostí aplikací metod strojového učení a jiných pokročilých metod analýzy.
Požadované prerekvizitní znalosti a dovednosti
- Základy relačních databází a jazyka SQL.
- Objektově orientované paradigma.
- Základy jazyka XML.
- Základy výpočetní geometrie.
- Základy statistiky a pravděpodobnosti.
Osnova přednášek
- Historie vývoje databázových technologií a získávání znalostí z dat, proces získávání znalostí z dat.
- Objektový přístup v databázích.
- NoSQL databáze I - úvod do NoSQL, CAP teorém a BASE, databáze klíč-hodnota a způsob uložení dat, rozdělení (partitioning) a distribuce dat.
- NoSQL databáze II - modely dat v NoSQL databázích (sloupcové, dokumentové a grafové databáze), dotazování a agregace dat, NewSQL databáze.
- Extrakce dat z webu (web scraping).
- Příprava dat - porozumění datům: popisné charakteristiky, vizualizační techniky, korelační analýza.
- Příprava dat - předzpracování I: čištění dat, integrace.
- Příprava dat - předzpracování II: redukce dat a řešení nevyváženosti dat, transformace dat, další úlohy předzpracování.
- Půlsemestrální zkouška.
- Jazyky a systémy pro získávání znalostí z dat, reálné případové studie.
- Podpora pro práci s XML a JSON dokumenty v databázích.
- Prostorové databáze.
- Indexování vícedimenzionálních dat.
Osnova numerických cvičení
- Objekty a dokumenty v databázích
- NoSQL databáze
- Získávání znalostí z dat - příprava dat
Osnova počítačových cvičení
- Objekty a dokumenty v databázích
- NoSQL databáze
- Získávání znalostí z dat - příprava dat
Osnova ostatní - projekty, práce
Vytvoření aplikace pro zpracování rozsáhlých strukturovaných i nestrukturovaných dat, které zahrnuje, mimo jiné, získání a načtení dat, jejich přípravou pro další využití (např. pro získávání znalostí z databází) a tvorbu popisných charakteristik pro zvolená data.
Průběžná kontrola studia
- Půlsemestrální zkouška, u které neexistuje náhradní, či opravný termín.
- Řešení projektu v průběhu semestru a jeho odevzdání ve stanovených termínech.
Kontrolovaná výuka
- Půlsemestrální písemná zkouška, neexistuje náhradní/opravný termín, omluvené neúčasti řeší zástupce garanta.
- Vypracování a odevzdání výsledků projektu v předepsaných termínech, omluvené neúčasti řeší cvičící.
- Závěrečná zkouška, kde je pro získání bodů ze zkoušky nutné zkoušku vypracovat tak, aby byla hodnocena nejméně 20 body (v opačném případě bude zkouška hodnocena 0 body). Omluvenou neúčast řeší zástupce garanta.
Podmínky zápočtu
Student musí během semestru získat alespoň 20 bodů ze 44 možných.
Pokud bude odhaleno plagiátorství nebo nedovolená spolupráce na projektech, či u půlsemestrální zkoušky, zápočet nebude udělen a dále bude zváženo zahájení disciplinárního řízení.
Zařazení předmětu ve studijních plánech