PředmětyPředměty(verze: 852)
Předmět, akademický rok 2019/2020
  
Předzpracování dat - M500004
Anglický název: Data Preprocessing
Zajišťuje: ČVUT v Praze, Fakulta informačních technologií (500)
Platnost: od 2019
Semestr: zimní
Body: zimní s.:4
E-Kredity: zimní s.:4
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:2/1 Z+Zk [hodiny/týden]
Počet míst: neurčen / neurčen (neurčen)
Minimální obsazenost: neomezen
Jazyk výuky: čeština
Způsob výuky: prezenční
Úroveň:  
Pro druh:  
Poznámka: předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: Jiřina Marcel doc. RNDr. Ing. Ph.D.
Záměnnost : N500014
Anotace -
Poslední úprava: Hladíková Jana (05.01.2018)
Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.
Výstupy studia předmětu -
Poslední úprava: Hladíková Jana (05.01.2018)

Studenti budou umět:

připravit surová data pro další zpracování a analýzu.

budou mít znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod.

aplikovat tyto teoretické znalosti při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.

Literatura -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (04.11.2018)

Z: Pokorný L. Metody předzpracování dat při získávání znalostí, VUT Brno 2009, https://core.ac.uk/download/pdf/44386504.pdf

Z: Kalina J., Tebbens J. D., Metody pro redukci dimenze v mnohorozměrné statistice a jejich výpočet, Nečasovo centrum matematického modelování MFF UK, Praha 2013, http://ncmm.karlin.mff.cuni.cz/db/publications/show/613

Z: Zheng, A., Casari, A. "Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists", O'Reilly Media, 2018. ISBN 1491953241.

D: Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. "Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)". Springer, 2006. ISBN 3540354875.

D: Pyle, D. "Data Preparation for Data Mining". Morgan Kaufmann, 1999. ISBN 1558605290.

Studijní opory -
Poslední úprava: Hladíková Jana (05.01.2018)

https://edux.fit.cvut.cz/courses/MI-PDD/

(nutné přihlášení)

Sylabus -
Poslední úprava: Hladíková Jana (05.01.2018)

1. Průzkum dat, techniky exploratorní analýzy, vizualizace surových dat.

2. Deskriptivní statistika.

3. Metody určování významnosti příznaků.

4. Problémy v datech - dimenzionalita, šum, odlehlé hodnoty, nekonzistence, chybějící hodnoty, nenumerická data.

5. Čištění dat, transformace dat, imputing, diskretizace, binning.

6. Redukce dimenzionality dat.

7. Redukce objemu dat, balancování tříd.

8. Extrakce příznaků z textu.

9. Extrakce příznaků z dokumentů, webu, předzpracování strukturovaných dat.

10. Extrakce příznaků z časových řad.

11. Extrakce příznaků z obrazu.

12. Případové studie přípravy dat.

13. Automatizace předzpracování dat.

Studijní prerekvizity -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (08.02.2018)

Statistická analýza dat, Vytěžování znalostí z dat

Podmínky zakončení předmětu
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (07.02.2018)

Pro zı́skánı́ zápočtu je potřeba dostatek bodů ze semestrálnı́ práce a úloh na cvičení. Zkouška se skládá z pı́semné části a nepovinné ústnı́ části.

Zátěž studenta
Činnost Kredity Hodiny
Účast na přednáškách 1 28
Práce na individuálním projektu 1,5 42
Příprava na zkoušku a její absolvování 1 28
Účast na seminářích 0,5 14
4 / 4 112 / 112
Hodnocení studenta
Forma Váha
Protokoly z individuálních projektů 20
Zkouškový test 60
Průběžné a zápočtové testy 20

 
VŠCHT Praha