Přeskočit na hlavní obsah
Přeskočit hlavičku

Metody analýzy textových dat

Typ studia navazující magisterské
Jazyk výuky čeština
Kód 460-4074/01
Zkratka MATD
Název předmětu česky Metody analýzy textových dat
Název předmětu anglicky Methods of Analysis of Textual Data
Kreditů 4
Garantující katedra Katedra informatiky
Garant předmětu doc. Mgr. Jiří Dvorský, Ph.D.

Osnova předmětu

Témata přednášek:
- Úvod do problematiky informačních systémů. Historie a vývoj vyhledávání v textech. Rozdíly mezi faktografickými a dokumentografickými IS. Obecný model dokumentografických systému.
- Algoritmy pro přesné vyhledávání v textech. Algoritmy vyhledávání jednoho vzorku. Algoritmy vyhledávání více vzorků (algoritmus Aho-Corasickové). Vyhledávání regulárních výrazů konečnými automaty. Algoritmy pro přibližné vyhledávání v textech.
- Sufixové stromy. DAWG. Patricia a podobné datové struktury.
- Primární zpracování textů. Lexikální analýza. Stemming. Lematizace. Stop slova.
- Konstrukce indexových systémů. Zipfův zákon a odhad velikosti indexového systému. Indexování založené na třídění. Poziční indexové systémy. Metody vážení termů. TF-IDF váhy termů. Metody komprese indexových systémů. Metody kódování přirozených čísel.
- Dotazovací jazyky. Relevance dokumentu. Míra podobnosti dvojice dokument-dotaz. Relevance vs. podobnost. Struktura a vyhodnocení dotazu. Booleovský DIS. Hodnocení dokumentografických systémů (přesnost, úplnost, F-míra).
- Signaturové metody. Řetězené a vrstvené kódování signatur. Efektivní vyhodnocení dotazů.
- Latentní sémantika. Metody redukce dimenze. Metody založené na rozkladu matic. Náhodná projekce. Vektorové DIS. Konstrukce a vyhodnocení vektorových dotazů. Ostatní typy DIS (rozšířené Booleovské). Indexování, struktura dotazů, vyhodnocení dotazů.
- Vyhledávání na webu. Analýza hypertextových dokumentů, strukturální metody. PageRank a HITS. Metavyhledávání a kooperativní vyhledávání. Aplikace výpočetní inteligence a soft computingu ve zpracování a vyhledání textu.
- Metody automatické sumarizace: abstrakce a extrakce. Detekce a vývoj tématu. Analýza sentimentu, klasifikace a shlukování dokumentů.
- Paralelní a distribuované vyhledávání. Decentralizované a P2P vyhledávání.
- Semantické a kontextové vyhledávání. Neural Information Retrieval.

Témata cvičení:

- Implementace algoritmů pro přesné vyhledávání v textu. Testování výkonnosti.
- Vyhledávání pomocí regulárních výrazů, implementace, využití open-source knihoven.
- Algoritmy pro přibližné vyhledávání v textu
- Využití sufixových stromů, DAWG. Konstrukce slovníků s těmito strukturami.
- Implementace lexikálního analyzátoru. Testování výkonnosti.
- Poziční indexové systémy. TF-IDF vážení termů.
- Metody komprese indexových systémů.
- Dotazování nad Boolovským DIS.
- Latentní sémantika. Výpočet SVD, NMF. Využití open-source knihoven. Náhodné projekce.
- Vektorový DIS.
- Výpočet PageRank.
- Shlukování dokumentů.

Zápočet bude udělen za vypracování referátu na vybrané téma a jeho prezentaci na cvičení. Témata budou zveřejňována pro každý akademický rok na webu přednášejícího.

Povinná literatura

1. Kopecký M., Pokorný J.:Dokumentografické informační systémy, Karolinum 2006, ISBN 8024611481
2. Manning, C. D.; Raghavan, P. & Schutze, H. Introduction to Information Retrieval, Cambridge University Press, 2008
3. Witten I. H., Moffat A., Bell T. C.: Managing Gigabytes (2nd ed.): Compressing and Indexing Documents and Images, Morgan Kaufmann Publishers Inc., 1999, ISBN 1-55860-570-3 
4. Baeza-Yates R. A., Ribeiro-Neto B.: Modern Information Retrieval, Addison-Wesley Longman Publishing Co., Inc., 1999, ISBN 020139829X 
5. Feldman R., Sanger J.: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2006, ISBN 978-0521836579 
6. Berry M. W., Kogan J.: Text Mining: Applications and Theory, Wiley, 2010, ISBN 978-0470749821 
7. Weiss S. M., Indurkhya N., Zhang T.: Fundamentals of Predictive Text Mining, Springer, 2010, ISBN 978-1849962254 
8. Langville, A. N. & Meyer, C. D. Google's PageRank and Beyond: The Science of Search Engine Rankings Princeton University Press, 2006
9. Korfhage, R. R. Information Storage and Retrieval, John Wiley & Sons, 1997

Doporučená literatura

1. Witten, I. H.; Gori, M. & Numerico, T. Web Dragons: Inside the Myths of Search Engine Technology, Morgan Kaufmann, 2006