Students learn to prepare raw data for further processing and analysis. They learn what algorithms can be used to extract parameters from various data sources, such as images, texts, time series, etc., and learn the skills to apply these theoretical concepts to solve a specific problem in individual projects - e.g., parameter extraction from image data or from Internet.
Last update: Hladíková Jana (05.01.2018)
Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.
Aim of the course -
Last update: Hladíková Jana (05.01.2018)
Students will be able to:
Apply knowledge of algorithms for extraction of parameters from various data sources as a fundamental part of knowledge engineering,
Last update: Hladíková Jana (05.01.2018)
Studenti budou umět:
připravit surová data pro další zpracování a analýzu.
budou mít znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod.
aplikovat tyto teoretické znalosti při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.
Literature -
Last update: Svozil Daniel prof. Mgr. Ph.D. (04.11.2018)
R: Pokorný L. Metody předzpracování dat při získávání znalostí, VUT Brno 2009, https://core.ac.uk/download/pdf/44386504.pdf
R: Kalina J., Tebbens J. D., Metody pro redukci dimenze v mnohorozměrné statistice a jejich výpočet, Nečasovo centrum matematického modelování MFF UK, Praha 2013, http://ncmm.karlin.mff.cuni.cz/db/publications/show/613
R: Zheng, A., Casari, A. "Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists", O'Reilly Media, 2018. ISBN 1491953241.
A: Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. "Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)". Springer, 2006. ISBN 3540354875.
A: Pyle, D. "Data Preparation for Data Mining". Morgan Kaufmann, 1999. ISBN 1558605290.
Last update: Svozil Daniel prof. Mgr. Ph.D. (04.11.2018)
Z: Pokorný L. Metody předzpracování dat při získávání znalostí, VUT Brno 2009, https://core.ac.uk/download/pdf/44386504.pdf
Z: Kalina J., Tebbens J. D., Metody pro redukci dimenze v mnohorozměrné statistice a jejich výpočet, Nečasovo centrum matematického modelování MFF UK, Praha 2013, http://ncmm.karlin.mff.cuni.cz/db/publications/show/613
Z: Zheng, A., Casari, A. "Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists", O'Reilly Media, 2018. ISBN 1491953241.
D: Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. "Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)". Springer, 2006. ISBN 3540354875.
D: Pyle, D. "Data Preparation for Data Mining". Morgan Kaufmann, 1999. ISBN 1558605290.
Learning resources -
Last update: Hladíková Jana (05.01.2018)
https://edux.fit.cvut.cz/courses/MI-PDD/
(login necessary)
Last update: Hladíková Jana (05.01.2018)
https://edux.fit.cvut.cz/courses/MI-PDD/
(nutné přihlášení)
Syllabus -
Last update: Hladíková Jana (05.01.2018)
1. Data exploration, exploratory analysis techniques, visualization of raw data.
2. Descriptive statistics.
3. Methods to determine the relevance of features.
4. Problems with data ? dimensionality, noise, outliers, inconsistency, missing values, non-numeric data.
5. Data cleaning, transformation, imputing, discretization, binning.
6. Reduction of data dimension.
7. Reduction of data volume, class balancing.
8. Feature extraction from text.
9. Feature extraction from documents, web. Preprocessing of structured data.
10. Feature extraction from time series.
11. Feature extraction from images.
12. Data preparation case studies.
13. Automation of data preprocessing.
Last update: Hladíková Jana (05.01.2018)
1. Průzkum dat, techniky exploratorní analýzy, vizualizace surových dat.
2. Deskriptivní statistika.
3. Metody určování významnosti příznaků.
4. Problémy v datech - dimenzionalita, šum, odlehlé hodnoty, nekonzistence, chybějící hodnoty, nenumerická data.
9. Extrakce příznaků z dokumentů, webu, předzpracování strukturovaných dat.
10. Extrakce příznaků z časových řad.
11. Extrakce příznaků z obrazu.
12. Případové studie přípravy dat.
13. Automatizace předzpracování dat.
Registration requirements -
Last update: Svozil Daniel prof. Mgr. Ph.D. (08.02.2018)
Statistical data analysis, Data mining
Last update: Svozil Daniel prof. Mgr. Ph.D. (08.02.2018)
Statistická analýza dat, Vytěžování znalostí z dat
Course completion requirements - Czech
Last update: Svozil Daniel prof. Mgr. Ph.D. (07.02.2018)
Pro zı́skánı́ zápočtu je potřeba dostatek bodů ze semestrálnı́ práce a úloh na cvičení. Zkouška se skládá z pı́semné části a nepovinné ústnı́ části.