PředmětyPředměty(verze: 963)
Předmět, akademický rok 2024/2025
  
Předzpracování dat - M500004
Anglický název: Data Preprocessing
Zajišťuje: Ústav informatiky a chemie (143)
Fakulta: Fakulta chemické technologie
Platnost: od 2022
Semestr: zimní
Body: zimní s.:4
E-Kredity: zimní s.:4
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:2/1, Z+Zk [HT]
Počet míst: neomezen / neomezen (neurčen)
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Garant: Jiřina Marcel doc. RNDr. Ing. Ph.D.
Záměnnost : N500014
Anotace -
Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.
Poslední úprava: Hladíková Jana (05.01.2018)
Výstupy studia předmětu -

Studenti budou umět:

připravit surová data pro další zpracování a analýzu.

budou mít znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod.

aplikovat tyto teoretické znalosti při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.

Poslední úprava: Hladíková Jana (05.01.2018)
Podmínky zakončení předmětu (Další požadavky na studenta)

Pro zı́skánı́ zápočtu je potřeba dostatek bodů ze semestrálnı́ práce a úloh na cvičení. Zkouška se skládá z pı́semné části a nepovinné ústnı́ části.

Poslední úprava: Svozil Daniel (07.02.2018)
Literatura -

Z: Pokorný L. Metody předzpracování dat při získávání znalostí, VUT Brno 2009, https://core.ac.uk/download/pdf/44386504.pdf

Z: Kalina J., Tebbens J. D., Metody pro redukci dimenze v mnohorozměrné statistice a jejich výpočet, Nečasovo centrum matematického modelování MFF UK, Praha 2013, http://ncmm.karlin.mff.cuni.cz/db/publications/show/613

Z: Zheng, A., Casari, A. "Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists", O'Reilly Media, 2018. ISBN 1491953241.

D: Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. "Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)". Springer, 2006. ISBN 3540354875.

D: Pyle, D. "Data Preparation for Data Mining". Morgan Kaufmann, 1999. ISBN 1558605290.

Poslední úprava: Svozil Daniel (04.11.2018)
Sylabus -

1. Průzkum dat, techniky exploratorní analýzy, vizualizace surových dat.

2. Deskriptivní statistika.

3. Metody určování významnosti příznaků.

4. Problémy v datech - dimenzionalita, šum, odlehlé hodnoty, nekonzistence, chybějící hodnoty, nenumerická data.

5. Čištění dat, transformace dat, imputing, diskretizace, binning.

6. Redukce dimenzionality dat.

7. Redukce objemu dat, balancování tříd.

8. Extrakce příznaků z textu.

9. Extrakce příznaků z dokumentů, webu, předzpracování strukturovaných dat.

10. Extrakce příznaků z časových řad.

11. Extrakce příznaků z obrazu.

12. Případové studie přípravy dat.

13. Automatizace předzpracování dat.

Poslední úprava: Hladíková Jana (05.01.2018)
Studijní opory -

https://edux.fit.cvut.cz/courses/MI-PDD/

(nutné přihlášení)

Poslední úprava: Hladíková Jana (05.01.2018)
Studijní prerekvizity -

Statistická analýza dat, Vytěžování znalostí z dat

Poslední úprava: Svozil Daniel (08.02.2018)
Zátěž studenta
Činnost Kredity Hodiny
Účast na přednáškách 1 28
Práce na individuálním projektu 1.5 42
Příprava na zkoušku a její absolvování 1 28
Účast na seminářích 0.5 14
4 / 4 112 / 112
 
VŠCHT Praha