Přeskočit na hlavní obsah
Přeskočit hlavičku

Knihovny pro paralelní zpracování dat

Typ studia navazující magisterské
Jazyk výuky čeština
Kód 9600-1020/01
Zkratka KPZD
Název předmětu česky Knihovny pro paralelní zpracování dat
Název předmětu anglicky Libraries for parallel data processing
Kreditů 4
Garantující katedra IT4Innovations
Garant předmětu Ing. Jan Martinovič, Ph.D.

Osnova předmětu

Student po absolvování předmětu získá přehled o knihovnách pro paralelní zpracování velkých dat a získá základní zkušenost s použitím nejznámějších knihoven. Budou představeny základní koncepty jak s velkými daty minipulovat a základní paradigmata a programové modely pro jejich zpracování. Cvičení budou probíhat v jazyce Python, ve kterém existují knhovny pro všechný známé frameworky.

Osnova předmětu:
1. Úvod do zpracování velkých dat
2. Základní manipulace s daty (Pandas, Numpy)
3. Map & Reduce model (Hadoop, Spark, Flink)
4. Paralelní zpracovaní numerických dat v Pythonu (Dask)
5. Knihovny pro neuronové sítě I (Tensorflow, Theano)
6. Knihovny pro neuronové sítě II (Keras)
7. Paralelizace obecných úloh (HyperLoom)
8. Workflow systémy (Luigi, Airflow)

Povinná literatura

• Pandas dokumentace: http://pandas.pydata.org/
• Spark dokumentace: https://spark.apache.org/docs/latest/
• Tensorflow dokumentace: https://www.tensorflow.org/
• Keras dokumentace: https://keras.io/
HENDL, J., Big data - Věda o datech, základy a aplikace, Cosmopolis, 2021.

Doporučená literatura

• Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning, April 2015 ISBN 9781617290343 .