Course Unit Code | 9600-1020/01 |
---|
Number of ECTS Credits Allocated | 4 ECTS credits |
---|
Type of Course Unit * | Compulsory |
---|
Level of Course Unit * | Second Cycle |
---|
Year of Study * | First Year |
---|
Semester when the Course Unit is delivered | Winter Semester |
---|
Mode of Delivery | Face-to-face |
---|
Language of Instruction | Czech |
---|
Prerequisites and Co-Requisites | There are no prerequisites or co-requisites for this course unit |
---|
Name of Lecturer(s) | Personal ID | Name |
---|
| BOH126 | Ing. Ada Böhm, Ph.D. |
| BER0134 | Ing. Jakub Beránek |
Summary |
---|
|
Learning Outcomes of the Course Unit |
---|
Students get an overview of libraries and frameworks for parallel processing of large data and gain a basic experience with usage of most famous libraries. The course shows basic concepts and manipulations with big data and basic paradigms and programming models for their processing. Exercises will use Python, a programming language where all well-known frameworks can be used. |
Course Contents |
---|
Student po absolvování předmětu získá přehled o knihovnách pro paralelní zpracování velkých dat a získá základní zkušenost s použitím nejznámějších knihoven. Budou představeny základní koncepty jak s velkými daty minipulovat a základní paradigmata a programové modely pro jejich zpracování. Cvičení budou probíhat v jazyce Python, ve kterém existují knhovny pro všechný známé frameworky.
Osnova předmětu:
1. Úvod do zpracování velkých dat
2. Základní manipulace s daty (Pandas, Numpy)
3. Map & Reduce model (Hadoop, Spark, Flink)
4. Paralelní zpracovaní numerických dat v Pythonu (Dask)
5. Knihovny pro neuronové sítě I (Tensorflow, Theano)
6. Knihovny pro neuronové sítě II (Keras)
7. Paralelizace obecných úloh (HyperLoom)
8. Workflow systémy (Luigi, Airflow) |
Recommended or Required Reading |
---|
Required Reading: |
---|
• Pandas documentation: http://pandas.pydata.org/
• Spark documentation: https://spark.apache.org/docs/latest/
• Tensorflow documentation: https://www.tensorflow.org/
• Keras documentation: https://keras.io/ |
• Pandas dokumentace: http://pandas.pydata.org/
• Spark dokumentace: https://spark.apache.org/docs/latest/
• Tensorflow dokumentace: https://www.tensorflow.org/
• Keras dokumentace: https://keras.io/
|
Recommended Reading: |
---|
• Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning, April 2015 ISBN 9781617290343. |
• Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning, April 2015 ISBN 9781617290343. |
Planned learning activities and teaching methods |
---|
Lectures, Tutorials, Project work |
Assesment methods and criteria |
---|
Task Title | Task Type | Maximum Number of Points (Act. for Subtasks) | Minimum Number of Points for Task Passing |
---|
Graded credit | Graded credit | 100 | 51 |