Student po absolvování předmětu získá přehled o knihovnách pro paralelní zpracování velkých dat a získá základní zkušenost s použitím nejznámějších knihoven. Budou představeny základní koncepty jak s velkými daty minipulovat a základní paradigmata a programové modely pro jejich zpracování. Cvičení budou probíhat v jazyce Python, ve kterém existují knhovny pro všechný známé frameworky.
Osnova předmětu:
1. Úvod do zpracování velkých dat
2. Základní manipulace s daty (Pandas, Numpy)
3. Map & Reduce model (Hadoop, Spark, Flink)
4. Paralelní zpracovaní numerických dat v Pythonu (Dask)
5. Knihovny pro neuronové sítě I (Tensorflow, Theano)
6. Knihovny pro neuronové sítě II (Keras)
7. Paralelizace obecných úloh (HyperLoom)
8. Workflow systémy (Luigi, Airflow)
Osnova předmětu:
1. Úvod do zpracování velkých dat
2. Základní manipulace s daty (Pandas, Numpy)
3. Map & Reduce model (Hadoop, Spark, Flink)
4. Paralelní zpracovaní numerických dat v Pythonu (Dask)
5. Knihovny pro neuronové sítě I (Tensorflow, Theano)
6. Knihovny pro neuronové sítě II (Keras)
7. Paralelizace obecných úloh (HyperLoom)
8. Workflow systémy (Luigi, Airflow)