PředmětyPředměty(verze: 948)
Předmět, akademický rok 2023/2024
  
Předzpracování dat - N500014
Anglický název: Data Preprocessing
Zajišťuje: ČVUT v Praze, Fakulta informačních technologií (500)
Fakulta: Vysoká škola chemicko-technologická v Praze
Platnost: od 2021
Semestr: zimní
Body: zimní s.:4
E-Kredity: zimní s.:4
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:2/1, Z+Zk [HT]
Počet míst: neurčen / neurčen (neurčen)
Minimální obsazenost: neomezen
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Je zajišťováno předmětem: M500004
Pro druh:  
Garant: Jiřina Marcel doc. RNDr. Ing. Ph.D.
Je záměnnost pro: M500004
Termíny zkoušek   Rozvrh   
Anotace -
Poslední úprava: Jirát Jiří Ing. Ph.D. (10.01.2014)
Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.
Výstupy studia předmětu -
Poslední úprava: Jirát Jiří Ing. Ph.D. (13.01.2014)

Studenti budou umět:

připravit surová data pro další zpracování a analýzu.

budou mít znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod.

aplikovat tyto teoretické znalosti při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.

Literatura -
Poslední úprava: Jirát Jiří Ing. Ph.D. (10.01.2014)

Z:Pyle, D. ''Data Preparation for Data Mining''. Morgan Kaufmann, 1999. ISBN 1558605290.

Z:Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. ''Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)''. Springer, 2006. ISBN 3540354875.

Studijní opory -
Poslední úprava: Jirát Jiří Ing. Ph.D. (10.01.2014)

https://edux.fit.cvut.cz/courses/MI-PDD/

(nutné přihlášení)

Sylabus -
Poslední úprava: Jirát Jiří Ing. Ph.D. (10.01.2014)

1. Průzkum dat, techniky exploratorní analýzy, vizualizace surových dat.

2. Deskriptivní statistika.

3. Metody určování významnosti příznaků.

4. Problémy v datech - dimenzionalita, šum, odlehlé hodnoty, nekonzistence, chybějící hodnoty, nenumerická data.

5. Čištění dat, transformace dat, imputing, diskretizace, binning.

6. Redukce dimenzionality dat.

7. Redukce objemu dat, balancování tříd.

8. Extrakce příznaků z textu.

9. Extrakce příznaků z dokumentů, webu, předzpracování strukturovaných dat.

10. Extrakce příznaků z časových řad.

11. Extrakce příznaků z obrazu.

12. Případové studie přípravy dat.

13. Automatizace předzpracování dat.

Studijní prerekvizity -
Poslední úprava: Jirát Jiří Ing. Ph.D. (10.01.2014)

Základy statistiky, znalost problematiky vytěžování dat.

Zátěž studenta
Činnost Kredity Hodiny
Účast na přednáškách 1 28
Práce na individuálním projektu 2.2 61
Účast na seminářích 0.5 14
4 / 4 103 / 112
 
VŠCHT Praha