PředmětyPředměty(verze: 963)
Předmět, akademický rok 2020/2021
  
Information retrieval - P500003
Anglický název: Information retrieval
Zajišťuje: Ústav informatiky a chemie (143)
Fakulta: Fakulta chemické technologie
Platnost: od 2020
Semestr: letní
Body: letní s.:0
E-Kredity: letní s.:0
Způsob provedení zkoušky: letní s.:
Rozsah, examinace: letní s.:3/0, Jiné [HT]
Počet míst: neomezen / neurčen (neurčen)
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Úroveň:  
Poznámka: předmět je určen pouze pro doktorandy
student může plnit i v dalších letech
Garant: Kroha Petr prof. Dr. Ing. CSc.
Je záměnnost pro: AP500003
Termíny zkoušek   Rozvrh   
Anotace -
S nástupem elektronických dokumentů nastala situace, kdy jejich počet roste mnohem vyšším tempem, než možnosti, schopnosti a ochota lidí je sledovat a číst. Metody oboru Information retrieval pomáhají najít informaci o tom, ve kterých dokumentech se hledaná informace zřejmě nachází. Provádí to tak, že umožňují vybírat dokumenty podle klíčových slov, kterými indexování dokumentů charakterizuje jejich obsah a uživatel cíle svého hledání. Jako nástroje se zde používají metody lineární algebry pro práci s vektorovým modelem hledání, statistické a pravděpodobnostní metody, metody počítačové linguistiky i shlukovací a klasifikační metody umělé intelligence.
Poslední úprava: Svozil Daniel (23.05.2018)
Výstupy studia předmětu -

Studenti budou umět:

  • identifikovat dokumenty obsahující předem definovanou informaci
  • přiřadit relevantní klíčová slova k dokumentu
  • indexovat textové dokumenty
  • normalizovat textové dokumenty
  • chápat hlavní principy klasifikace textových dokumentů
Poslední úprava: Svozil Daniel (23.05.2018)
Podmínky zakončení předmětu (Další požadavky na studenta) -

Ústní zkouška

Poslední úprava: Svozil Daniel (23.05.2018)
Literatura -

Z: Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval. Second edition, Addison-Wesley, 2011.

Z: Weiss, S.M. et all: Text Mining? Predictive Methods for Analyzing Unstructured Information. Springer, 2005.

Poslední úprava: Svozil Daniel (23.05.2018)
Sylabus -

Úvod do problematiky information retrieval, neurčitost, relevance, přístup fuzzy, normalizace textových dokumentů, Zipfův zákon

Indexování, dotazování a hledání v textových dokumentech - metriky, vektorový model - redukce dimenzí, latentní semantické indexování

Shlukování dokumentů a shlukování klíčových slov (clustering), vzdálenost, metriky podobnosti, centroid, metody shlukování

Klasifikace dokumentů. Bayesovská klasifikace, metoda k-NN, metoda rozhodovacích stromů, metoda support vector machine

Cíle a možnosti text miningu, metody linguistiky v text miningu, lexikon, tokenization, part-of-speech tagging, named entity recognition, parsing, koreference

Aplikace metod text mining pro information retrieval: automatická extrakce obsahu dokumentu, automatické shrnutí obsahu dokumentu, automatické odpovědi na dotazy

Poslední úprava: Svozil Daniel (23.05.2018)
Studijní opory -

Materiály přednášejícího

Poslední úprava: Svozil Daniel (23.05.2018)
 
VŠCHT Praha