Skip to main content
Skip header

Libraries for parallel data processing

* Exchange students do not have to consider this information when selecting suitable courses for an exchange stay.

Course Unit Code9600-1020/01
Number of ECTS Credits Allocated4 ECTS credits
Type of Course Unit *Compulsory
Level of Course Unit *Second Cycle
Year of Study *First Year
Semester when the Course Unit is deliveredWinter Semester
Mode of DeliveryFace-to-face
Language of InstructionCzech
Prerequisites and Co-Requisites There are no prerequisites or co-requisites for this course unit
Name of Lecturer(s)Personal IDName
BOH126Ing. Ada Böhm, Ph.D.
BER0134Ing. Jakub Beránek
Summary
Learning Outcomes of the Course Unit
Students get an overview of libraries and frameworks for parallel processing of large data and gain a basic experience with usage of most famous libraries. The course shows basic concepts and manipulations with big data and basic paradigms and programming models for their processing. Exercises will use Python, a programming language where all well-known frameworks can be used.
Course Contents
Student po absolvování předmětu získá přehled o knihovnách pro paralelní zpracování velkých dat a získá základní zkušenost s použitím nejznámějších knihoven. Budou představeny základní koncepty jak s velkými daty minipulovat a základní paradigmata a programové modely pro jejich zpracování. Cvičení budou probíhat v jazyce Python, ve kterém existují knhovny pro všechný známé frameworky.

Osnova předmětu:
1. Úvod do zpracování velkých dat
2. Základní manipulace s daty (Pandas, Numpy)
3. Map & Reduce model (Hadoop, Spark, Flink)
4. Paralelní zpracovaní numerických dat v Pythonu (Dask)
5. Knihovny pro neuronové sítě I (Tensorflow, Theano)
6. Knihovny pro neuronové sítě II (Keras)
7. Paralelizace obecných úloh (HyperLoom)
8. Workflow systémy (Luigi, Airflow)
Recommended or Required Reading
Required Reading:
• Pandas documentation: http://pandas.pydata.org/
• Spark documentation: https://spark.apache.org/docs/latest/
• Tensorflow documentation: https://www.tensorflow.org/
• Keras documentation: https://keras.io/
• Pandas dokumentace: http://pandas.pydata.org/
• Spark dokumentace: https://spark.apache.org/docs/latest/
• Tensorflow dokumentace: https://www.tensorflow.org/
• Keras dokumentace: https://keras.io/
Recommended Reading:
• Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning, April 2015 ISBN 9781617290343.
• Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning, April 2015 ISBN 9781617290343.
Planned learning activities and teaching methods
Lectures, Tutorials, Project work
Assesment methods and criteria
Task TitleTask TypeMaximum Number of Points
(Act. for Subtasks)
Minimum Number of Points for Task Passing
Graded creditGraded credit100 51