Efektivní vyhledávání v textech - M500001
Anglický název: Efficient Text Pattern Matching
Zajišťuje: ČVUT v Praze, Fakulta informačních technologií (500)
Platnost: od 2019
Semestr: zimní
Body: zimní s.:4
E-Kredity: zimní s.:4
Způsob provedení zkoušky: zimní s.:
Rozsah, examinace: zimní s.:2/1 Z+Zk [hodiny/týden]
Počet míst: neomezen / neomezen (neurčen)
Minimální obsazenost: neomezen
Jazyk výuky: čeština
Způsob výuky: prezenční
Úroveň:  
Pro druh:  
Garant: Holub Jan prof. Ing. Ph.D.
Záměnnost : N500001
Termíny zkoušek   
Anotace -
Poslední úprava: Hladíková Jana (05.01.2018)
Studenti získají znalosti efektivních algoritmů vyhledávání v textových informacích. Naučí se pracovat s tzv. zhuštěnými datovými strukturami, které vynikají jak rychlostí přístupu tak úsporou místa v paměti. Získané znalosti budou schopni uplatnit při návrhu aplikací zabývajících se vyhledáváním v textu.
Výstupy studia předmětu -
Poslední úprava: Hladíková Jana (05.01.2018)

Studenti budou umět:

budou mít znalosti efektivních algoritmů vyhledávání v textových informacích.

pracovat s tzv. zhuštěnými datovými strukturami, které vynikají jak rychlostí přístupu tak úsporou místa v paměti.

uplatnit získané znalosti při návrhu aplikací zabývajících se vyhledáváním v textu.

Literatura -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (05.11.2018)

Z: Pokorný J., Dokumentografické informační systémy, Karolinum, 2005, ISBN 80-246-1148-1

Z: M.Crochemore, C. Hancart, T. Lecroq: Algorithms on Strings. Cambridge University Press, 2014. ISBN-10: 1107670993

D: Melichar B., Textové informační systémy, Praha, 1994, ISBN 8001012069, 9788001012062

D: W.F. Smyth: Computing Patterns in Strings, Pearson Addison Wesley (UK), 2003, 423 pp. ISBN-10: 0201398397

D: M.Crochemore, W. Rytter: Jewels of Stringology. World Scientific Publishing Company, 2003. ISBN-10: 9810248970

D: G.Navarro, M. Raffinot: Flexible Pattern Matching in Strings. Cambridge University Press, 2008. ISBN-10: 0521039932

Studijní opory -
Poslední úprava: Hladíková Jana (05.01.2018)

https://edux.fit.cvut.cz/courses/MI-EVY/

(nutné přihlášení)

Sylabus -
Poslední úprava: Hladíková Jana (05.01.2018)

1. Úvod, základní definice, border array.

2. Úplné indexování textu: Suffix array.

3. Úplné indexování textu: Suffix tree, konstrukce LCP.

4. Úplné indexování textu: factor, suffix automata, on-line konstrukce.

5. Algoritmy přesného vyhledávání.

6. FFT ve vyhledávání.

7. Succinct data structure: metody rank & select.

8. Succinct data structure: wavelet tree.

9. FM-Index.

10. Reprezentace slovníku, kontrola pravopisu.

11. Přibližné vyhledávání.

12. Vyhledávání v bioinformatice a v muzikologii.

13. Vyhledávání v bioinformatice a v muzikologii.

Studijní prerekvizity -
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (08.02.2018)

Automaty a gramatiky

Podmínky zakončení předmětu
Poslední úprava: Svozil Daniel doc. Mgr. Ph.D. (07.02.2018)

Pro zı́skánı́ zápočtu je potřeba dostatek bodů ze zápočtových testů. Zkouška se skládá z povinné pı́semné a povinné ústnı́ části.

Zátěž studenta
Činnost Kredity Hodiny
Účast na přednáškách 1 28
Příprava na přednášky, semináře, laboratoře, exkurzi nebo praxi 1 28
Příprava na zkoušku a její absolvování 1,5 42
Účast na seminářích 0,5 14
4 / 4 112 / 112
Hodnocení studenta
Forma Váha
Zkouškový test 30
Průběžné a zápočtové testy 40
Ústní zkouška 30