Přeskočit na hlavní obsah
Přeskočit hlavičku

Metody analýzy textových dat

Anotace

Předmět se zabývá základními principy analýzy textových dokumentů. Textové dokumenty jsou chápány jako typický zástupce slabě strukturovaných dat. Představeny budou jednotlivé oblasti zpracování textových dat - dokumentů, webových stránek. Součástí předmětu jsou algoritmy pro vyhledávání vzorku v textu, konstrukce indexových systémů pro textová data, práce s přirozenými jazyky v nichž jsou texty psány. Dále budou popsány jednotlivé přístupy k vyhledávání v textových datech a to včetně metod analýzy latentní sémantiky. V závěru se předmět věnuje vyhledávání na webu.

Povinná literatura

1. Kopecký M., Pokorný J.:Dokumentografické informační systémy, Karolinum 2006, ISBN 8024611481
2. Manning, C. D.; Raghavan, P. & Schutze, H. Introduction to Information Retrieval, Cambridge University Press, 2008
3. Witten I. H., Moffat A., Bell T. C.: Managing Gigabytes (2nd ed.): Compressing and Indexing Documents and Images, Morgan Kaufmann Publishers Inc., 1999, ISBN 1-55860-570-3 
4. Baeza-Yates R. A., Ribeiro-Neto B.: Modern Information Retrieval, Addison-Wesley Longman Publishing Co., Inc., 1999, ISBN 020139829X 
5. Feldman R., Sanger J.: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2006, ISBN 978-0521836579 
6. Berry M. W., Kogan J.: Text Mining: Applications and Theory, Wiley, 2010, ISBN 978-0470749821 
7. Weiss S. M., Indurkhya N., Zhang T.: Fundamentals of Predictive Text Mining, Springer, 2010, ISBN 978-1849962254 
8. Langville, A. N. & Meyer, C. D. Google's PageRank and Beyond: The Science of Search Engine Rankings Princeton University Press, 2006
9. Korfhage, R. R. Information Storage and Retrieval, John Wiley & Sons, 1997

Doporučená literatura

1. Witten, I. H.; Gori, M. & Numerico, T. Web Dragons: Inside the Myths of Search Engine Technology, Morgan Kaufmann, 2006


Jazyk výuky čeština, angličtina
Kód 460-4074
Zkratka MATD
Název předmětu česky Metody analýzy textových dat
Název předmětu anglicky Methods of Analysis of Textual Data
Garantující katedra Katedra informatiky
Garant předmětu doc. Mgr. Jiří Dvorský, Ph.D.