PředmětyPředměty(verze: 948)
Předmět, akademický rok 2023/2024
  
Text mining - P500001
Anglický název: Text mining
Zajišťuje: Ústav informatiky a chemie (143)
Fakulta: Fakulta chemické technologie
Platnost: od 2020
Semestr: zimní
Body: zimní s.:0
E-Kredity: zimní s.:0
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:3/0, Jiné [HT]
Počet míst: neomezen / neurčen (neurčen)
Minimální obsazenost: neomezen
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Pro druh: doktorské
Poznámka: předmět je určen pouze pro doktorandy
student může plnit i v dalších letech
Garant: Kroha Petr prof. Dr. Ing. CSc.
Je záměnnost pro: AP500001
Anotace -
Poslední úprava: Svozil Daniel prof. Mgr. Ph.D. (23.05.2018)
S nástupem elektronických dokumentů nastala situace, kdy jejich počet roste mnohem vyšším tempem, než možnosti, schopnosti a ochota lidí je číst. Metody oboru Information Retrieval sice poskytují přehled o tom, ve kterých dokumentech se hledaná informace zřejmě nachází, ale to jenom znamená, že umožňují vybírat dokumenty podle klíčových slov, kterými indexování dokumentů charakterizuje jejich obsah. Tím jen vytvářejí síto, kterým protéká stále větší a větší počet dokumentů. Metody oboru Text Mining mají za cíl nejen dokumenty vybírat podle klíčových slov, ale také určovat, co vypovídají. To je úloha velmi složitá, neboť souvisí se sémantikou přirozeného jazyka, kterou často i školení lidé interpretují nejednoznačně. Používají se statistické metody, metody information retrieval, metody počítačové linguistiky i klasifikační metody umělé intelligence. Text Mining zkoumá zejména následující možnosti práce s textem: Informatin extraction - identifikace klíčových komponent textu a vztahů mezi nimi, Topic tracking - inteligentní filtrování textů na základě profilu uživatele, Summarization - shrnutí obsahu textu, Sentence extraction - identifikace vět, které jsou pro obsah dokumentu klíčové, Kategorizace, klasifikace, clustering - rozdělování textů do tříd podle příbuznosti obsahu, Concept linkage - hledání vztahů mezi texty, které mají společné koncepty
Výstupy studia předmětu -
Poslední úprava: Svozil Daniel prof. Mgr. Ph.D. (25.05.2018)

Studenti budou umět:

  • identifikovat klíčové komponenty textu a vztahy mezi nimi
  • automaticky shrnout obsahu textu
  • identifikovat obsahově klíčové věty
  • kategorizovat texty do tříd podle příbuznosti obsahu
  • hledat vztahy mezi texty se společnými koncepty
Literatura -
Poslední úprava: Svozil Daniel prof. Mgr. Ph.D. (23.05.2018)

Z: R: Weiss, S.M. et all: Text Mining - Predictive Methods for Analyzing Unstructured Information. Springer, 2005

Studijní opory -
Poslední úprava: Svozil Daniel prof. Mgr. Ph.D. (23.05.2018)

materiály přednášejícího

Sylabus -
Poslední úprava: Svozil Daniel prof. Mgr. Ph.D. (25.05.2018)

Text Mining, Data Mining, Knowledge Discovery, Text Processing - základní pojmy

Information Retrieval - základní pojmy, textové dokumenty a klíčová slova, relevance a fuzzy logika, indexování, vektorový model

Latentní semantické indexování a singulární dekompozice matic

Shlukování klíčových slov, shlukování dokumentů

Klasifikace textů, pravděpodobnostní klasifikace - Naive Bayes, klasifikace pomocí metody k-NN, rozhodovacích stromů, neuronových sítí, support vector machine

Metody linguistiky v text mining, lexikon, part-of-speech tagging, named entity recognition, parsing, koreference

Aplikace, automatická extrakce obsahu dokumentu, automatické shrnutí obsahu dokumentu, automatické odpovědi na dotazy

Studijní prerekvizity -
Poslední úprava: Svozil Daniel prof. Mgr. Ph.D. (25.05.2018)

Přednáška Information retrieval

Podmínky zakončení předmětu (Další požadavky na studenta) -
Poslední úprava: Svozil Daniel prof. Mgr. Ph.D. (23.05.2018)

ústní zkouška

 
VŠCHT Praha