Přeskočit na hlavní obsah
Přeskočit hlavičku

Zpracování rozsáhlých dat

Typ studia doktorské
Jazyk výuky čeština
Kód 9600-0004/01
Zkratka ZRD
Název předmětu česky Zpracování rozsáhlých dat
Název předmětu anglicky Big Data Processing
Kreditů 10
Garantující katedra IT4Innovations
Garant předmětu doc. Mgr. Jiří Dvorský, Ph.D.

Osnova předmětu

Význam rozsáhlých dat pro obchodní rozhodnutí, strategie firem, výzkum chování lidí na sociálních sítích a cílenou reklamu se ukázal v posledních letech jako zcela neoddiskutovatelný. Stejně tak špičková vědecká střediska (např. CERN) ukázala nutnost rutinně ukládat dříve nepředstavitelná množství dat. Klíčovými otázkami zpracování rozsáhlých dat (anglicky big data) je jednak ukládání extrémně velkých datových kolekcí, které mohou představovat kolekce dokumentů, streamová data ze senzorových sítí, časové řady (např. cen akcií na burze, dopravní data), grafová data reprezentující sociální sítě a web, satelitní snímky zemského povrchu atd. Ukazuje se, že pro zpracování takto enormního množství dat nejsou vhodné standardní relační databáze, ale je nutné nasadit masivně paralelní software běžící na stovkách, tisících serverů. V rámci předmětu budou představeny technologie tvořící aktuální stav zpracování rozsáhlých dat, technologie jako jsou Hadoop Distributed File System, NoSQL databáze nebo hierarchický datový formát HDF5. V předmětu budou představeny datové struktury vhodné pro různé druhy dat, manipulace s nimi, efektivní dotazování, ceny I/O operací, komprese specifických typů dat, algoritmy a datové struktury vhodné pro výpočetní akcelerátory (CUDA, Intel Xeon Phi).

Povinná literatura

• S. Sakr, M. Gaber: Large Scale and Big Data: Processing and Management, Auerbach Publications, 2014, ISBN 978-1466581500 
• T. White: Hadoop: The Definitive Guide, Yahoo Press, 2014, ISBN 978-1449311520 
• P. J. Sadalage: NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence, Addison-Wesley Professional, 2012, ISBN 978-0321826626 

Doporučená literatura

• J. Jeffers, J. Reinders: Intel Xeon Phi Coprocessor High-Performance Programming, Morgan Kaufmann, 2013, ISBN 978-0124104143
• G. Barlas: Multicore and GPU Programming: An Integrated Approach, Morgan Kaufmann, 2014, ISBN 978-0124171374 
• J. Leskovec, A. Rajaraman, J. D. Ullman: Mining of Massive Datasets, Cambridge University Press, 2014, ISBN 978-1107077232 
• V. S. Agneeswaran: Big Data Analytics Beyond Hadoop: Real-Time Applications with Storm, Spark, and More Hadoop Alternatives, Pearson FT Press, 2014, ISBN 978-0133837940