Skip to main content
Skip header

Libraries for parallel data processing

Type of study Follow-up Master
Language of instruction Czech
Code 9600-1020/01
Abbreviation KPZD
Course title Libraries for parallel data processing
Credits 4
Coordinating department IT4Innovations
Course coordinator Ing. Jan Martinovič, Ph.D.

Subject syllabus

Student po absolvování předmětu získá přehled o knihovnách pro paralelní zpracování velkých dat a získá základní zkušenost s použitím nejznámějších knihoven. Budou představeny základní koncepty jak s velkými daty minipulovat a základní paradigmata a programové modely pro jejich zpracování. Cvičení budou probíhat v jazyce Python, ve kterém existují knhovny pro všechný známé frameworky.

Osnova předmětu:
1. Úvod do zpracování velkých dat
2. Základní manipulace s daty (Pandas, Numpy)
3. Map & Reduce model (Hadoop, Spark, Flink)
4. Paralelní zpracovaní numerických dat v Pythonu (Dask)
5. Knihovny pro neuronové sítě I (Tensorflow, Theano)
6. Knihovny pro neuronové sítě II (Keras)
7. Paralelizace obecných úloh (HyperLoom)
8. Workflow systémy (Luigi, Airflow)

Literature

• Pandas documentation: http://pandas.pydata.org/
• Spark documentation: https://spark.apache.org/docs/latest/
• Tensorflow documentation: https://www.tensorflow.org/
• Keras documentation: https://keras.io/
HENDL, J., Big data - Věda o datech, základy a aplikace, Cosmopolis, 2021.

Advised literature

• Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning, April 2015 ISBN 9781617290343 .