Information retrieval - P500003
Anglický název: Information retrieval
Zajišťuje: ČVUT v Praze, Fakulta informačních technologií (500)
Platnost: od 2019
Semestr: letní
Body: letní s.:0
E-Kredity: letní s.:0
Způsob provedení zkoušky: letní s.:
Rozsah, examinace: letní s.:3/0 Jiné [hodiny/týden]
Počet míst: neurčen / neurčen (neurčen)
Minimální obsazenost: neomezen
Jazyk výuky: čeština
Způsob výuky: prezenční
Úroveň:  
Pro druh: doktorské
Garant: Kroha Petr prof. Dr. Ing. CSc.
Je záměnnost pro: AP500003
Termíny zkoušek   Rozvrh   
Anotace -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (23.05.2018)
S nástupem elektronických dokumentů nastala situace, kdy jejich počet roste mnohem vyšším tempem, než možnosti, schopnosti a ochota lidí je sledovat a číst. Metody oboru Information retrieval pomáhají najít informaci o tom, ve kterých dokumentech se hledaná informace zřejmě nachází. Provádí to tak, že umožňují vybírat dokumenty podle klíčových slov, kterými indexování dokumentů charakterizuje jejich obsah a uživatel cíle svého hledání. Jako nástroje se zde používají metody lineární algebry pro práci s vektorovým modelem hledání, statistické a pravděpodobnostní metody, metody počítačové linguistiky i shlukovací a klasifikační metody umělé intelligence.
Výstupy studia předmětu -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (23.05.2018)

Studenti budou umět:

  • identifikovat dokumenty obsahující předem definovanou informaci
  • přiřadit relevantní klíčová slova k dokumentu
  • indexovat textové dokumenty
  • normalizovat textové dokumenty
  • chápat hlavní principy klasifikace textových dokumentů
Literatura -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (23.05.2018)

Z: Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval. Second edition, Addison-Wesley, 2011.

Z: Weiss, S.M. et all: Text Mining? Predictive Methods for Analyzing Unstructured Information. Springer, 2005.

Studijní opory -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (23.05.2018)

Materiály přednášejícího

Sylabus -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (23.05.2018)

Úvod do problematiky information retrieval, neurčitost, relevance, přístup fuzzy, normalizace textových dokumentů, Zipfův zákon

Indexování, dotazování a hledání v textových dokumentech - metriky, vektorový model - redukce dimenzí, latentní semantické indexování

Shlukování dokumentů a shlukování klíčových slov (clustering), vzdálenost, metriky podobnosti, centroid, metody shlukování

Klasifikace dokumentů. Bayesovská klasifikace, metoda k-NN, metoda rozhodovacích stromů, metoda support vector machine

Cíle a možnosti text miningu, metody linguistiky v text miningu, lexikon, tokenization, part-of-speech tagging, named entity recognition, parsing, koreference

Aplikace metod text mining pro information retrieval: automatická extrakce obsahu dokumentu, automatické shrnutí obsahu dokumentu, automatické odpovědi na dotazy

Podmínky zakončení předmětu -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (23.05.2018)

Ústní zkouška