Předzpracování dat - N500014
Anglický název: Data Preprocessing
Zajišťuje: ČVUT v Praze, Fakulta informačních technologií (500)
Fakulta: Vysoká škola chemicko-technologická v Praze
Platnost: od 2021
Semestr: zimní
Body: zimní s.:4
E-Kredity: zimní s.:4
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:2/1, Z+Zk [HT]
Počet míst: neurčen / neurčen (neurčen)
Minimální obsazenost: neomezen
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Je zajišťováno předmětem: M500004
Pro druh:  
Garant: Jiřina Marcel doc. RNDr. Ing. Ph.D.
Je záměnnost pro: M500004
Termíny zkoušek   Rozvrh   
Anotace -
Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.
Poslední úprava: Jirát Jiří (10.01.2014)
Výstupy studia předmětu -

Studenti budou umět:

připravit surová data pro další zpracování a analýzu.

budou mít znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod.

aplikovat tyto teoretické znalosti při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.

Poslední úprava: Jirát Jiří (13.01.2014)
Literatura -

Z:Pyle, D. ''Data Preparation for Data Mining''. Morgan Kaufmann, 1999. ISBN 1558605290.

Z:Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. ''Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)''. Springer, 2006. ISBN 3540354875.

Poslední úprava: Jirát Jiří (10.01.2014)
Studijní opory -

https://edux.fit.cvut.cz/courses/MI-PDD/

(nutné přihlášení)

Poslední úprava: Jirát Jiří (10.01.2014)
Sylabus -

1. Průzkum dat, techniky exploratorní analýzy, vizualizace surových dat.

2. Deskriptivní statistika.

3. Metody určování významnosti příznaků.

4. Problémy v datech - dimenzionalita, šum, odlehlé hodnoty, nekonzistence, chybějící hodnoty, nenumerická data.

5. Čištění dat, transformace dat, imputing, diskretizace, binning.

6. Redukce dimenzionality dat.

7. Redukce objemu dat, balancování tříd.

8. Extrakce příznaků z textu.

9. Extrakce příznaků z dokumentů, webu, předzpracování strukturovaných dat.

10. Extrakce příznaků z časových řad.

11. Extrakce příznaků z obrazu.

12. Případové studie přípravy dat.

13. Automatizace předzpracování dat.

Poslední úprava: Jirát Jiří (10.01.2014)
Studijní prerekvizity -

Základy statistiky, znalost problematiky vytěžování dat.

Poslední úprava: Jirát Jiří (10.01.2014)
Zátěž studenta
Činnost Kredity Hodiny
Účast na přednáškách 1 28
Práce na individuálním projektu 2.2 61
Účast na seminářích 0.5 14
4 / 4 103 / 112