Témata přednášek:
- Úvod do problematiky informačních systémů. Historie a vývoj vyhledávání v textech. Rozdíly mezi faktografickými a dokumentografickými IS. Obecný model dokumentografických systému.
- Algoritmy pro přesné vyhledávání v textech. Algoritmy vyhledávání jednoho vzorku. Algoritmy vyhledávání více vzorků (algoritmus Aho-Corasickové). Vyhledávání regulárních výrazů konečnými automaty. Algoritmy pro přibližné vyhledávání v textech.
- Sufixové stromy. DAWG. Patricia a podobné datové struktury.
- Primární zpracování textů. Lexikální analýza. Stemming. Lematizace. Stop slova.
- Konstrukce indexových systémů. Zipfův zákon a odhad velikosti indexového systému. Indexování založené na třídění. Poziční indexové systémy. Metody vážení termů. TF-IDF váhy termů. Metody komprese indexových systémů. Metody kódování přirozených čísel.
- Dotazovací jazyky. Relevance dokumentu. Míra podobnosti dvojice dokument-dotaz. Relevance vs. podobnost. Struktura a vyhodnocení dotazu. Booleovský DIS. Hodnocení dokumentografických systémů (přesnost, úplnost, F-míra).
- Signaturové metody. Řetězené a vrstvené kódování signatur. Efektivní vyhodnocení dotazů.
- Latentní sémantika. Metody redukce dimenze. Metody založené na rozkladu matic. Náhodná projekce. Vektorové DIS. Konstrukce a vyhodnocení vektorových dotazů. Ostatní typy DIS (rozšířené Booleovské). Indexování, struktura dotazů, vyhodnocení dotazů.
- Vyhledávání na webu. Analýza hypertextových dokumentů, strukturální metody. PageRank a HITS. Metavyhledávání a kooperativní vyhledávání. Aplikace výpočetní inteligence a soft computingu ve zpracování a vyhledání textu.
- Metody automatické sumarizace: abstrakce a extrakce. Detekce a vývoj tématu. Analýza sentimentu, klasifikace a shlukování dokumentů.
- Paralelní a distribuované vyhledávání. Decentralizované a P2P vyhledávání.
- Semantické a kontextové vyhledávání. Neural Information Retrieval.
Témata cvičení:
- Implementace algoritmů pro přesné vyhledávání v textu. Testování výkonnosti.
- Vyhledávání pomocí regulárních výrazů, implementace, využití open-source knihoven.
- Algoritmy pro přibližné vyhledávání v textu
- Využití sufixových stromů, DAWG. Konstrukce slovníků s těmito strukturami.
- Implementace lexikálního analyzátoru. Testování výkonnosti.
- Poziční indexové systémy. TF-IDF vážení termů.
- Metody komprese indexových systémů.
- Dotazování nad Boolovským DIS.
- Latentní sémantika. Výpočet SVD, NMF. Využití open-source knihoven. Náhodné projekce.
- Vektorový DIS.
- Výpočet PageRank.
- Shlukování dokumentů.
Zápočet bude udělen za vypracování referátu na vybrané téma a jeho prezentaci na cvičení. Témata budou zveřejňována pro každý akademický rok na webu přednášejícího.
- Úvod do problematiky informačních systémů. Historie a vývoj vyhledávání v textech. Rozdíly mezi faktografickými a dokumentografickými IS. Obecný model dokumentografických systému.
- Algoritmy pro přesné vyhledávání v textech. Algoritmy vyhledávání jednoho vzorku. Algoritmy vyhledávání více vzorků (algoritmus Aho-Corasickové). Vyhledávání regulárních výrazů konečnými automaty. Algoritmy pro přibližné vyhledávání v textech.
- Sufixové stromy. DAWG. Patricia a podobné datové struktury.
- Primární zpracování textů. Lexikální analýza. Stemming. Lematizace. Stop slova.
- Konstrukce indexových systémů. Zipfův zákon a odhad velikosti indexového systému. Indexování založené na třídění. Poziční indexové systémy. Metody vážení termů. TF-IDF váhy termů. Metody komprese indexových systémů. Metody kódování přirozených čísel.
- Dotazovací jazyky. Relevance dokumentu. Míra podobnosti dvojice dokument-dotaz. Relevance vs. podobnost. Struktura a vyhodnocení dotazu. Booleovský DIS. Hodnocení dokumentografických systémů (přesnost, úplnost, F-míra).
- Signaturové metody. Řetězené a vrstvené kódování signatur. Efektivní vyhodnocení dotazů.
- Latentní sémantika. Metody redukce dimenze. Metody založené na rozkladu matic. Náhodná projekce. Vektorové DIS. Konstrukce a vyhodnocení vektorových dotazů. Ostatní typy DIS (rozšířené Booleovské). Indexování, struktura dotazů, vyhodnocení dotazů.
- Vyhledávání na webu. Analýza hypertextových dokumentů, strukturální metody. PageRank a HITS. Metavyhledávání a kooperativní vyhledávání. Aplikace výpočetní inteligence a soft computingu ve zpracování a vyhledání textu.
- Metody automatické sumarizace: abstrakce a extrakce. Detekce a vývoj tématu. Analýza sentimentu, klasifikace a shlukování dokumentů.
- Paralelní a distribuované vyhledávání. Decentralizované a P2P vyhledávání.
- Semantické a kontextové vyhledávání. Neural Information Retrieval.
Témata cvičení:
- Implementace algoritmů pro přesné vyhledávání v textu. Testování výkonnosti.
- Vyhledávání pomocí regulárních výrazů, implementace, využití open-source knihoven.
- Algoritmy pro přibližné vyhledávání v textu
- Využití sufixových stromů, DAWG. Konstrukce slovníků s těmito strukturami.
- Implementace lexikálního analyzátoru. Testování výkonnosti.
- Poziční indexové systémy. TF-IDF vážení termů.
- Metody komprese indexových systémů.
- Dotazování nad Boolovským DIS.
- Latentní sémantika. Výpočet SVD, NMF. Využití open-source knihoven. Náhodné projekce.
- Vektorový DIS.
- Výpočet PageRank.
- Shlukování dokumentů.
Zápočet bude udělen za vypracování referátu na vybrané téma a jeho prezentaci na cvičení. Témata budou zveřejňována pro každý akademický rok na webu přednášejícího.