Význam rozsáhlých dat pro obchodní rozhodnutí, strategie firem, výzkum chování lidí na sociálních sítích a cílenou reklamu se ukázal v posledních letech jako zcela neoddiskutovatelný. Stejně tak špičková vědecká střediska (např. CERN) ukázala nutnost rutinně ukládat dříve nepředstavitelná množství dat. Klíčovými otázkami zpracování rozsáhlých dat (anglicky big data) je jednak ukládání extrémně velkých datových kolekcí, které mohou představovat kolekce dokumentů, streamová data ze senzorových sítí, časové řady (např. cen akcií na burze, dopravní data), grafová data reprezentující sociální sítě a web, satelitní snímky zemského povrchu atd. Ukazuje se, že pro zpracování takto enormního množství dat nejsou vhodné standardní relační databáze, ale je nutné nasadit masivně paralelní software běžící na stovkách, tisících serverů. V rámci předmětu budou představeny technologie tvořící aktuální stav zpracování rozsáhlých dat, technologie jako jsou Hadoop Distributed File System, NoSQL databáze nebo hierarchický datový formát HDF5. V předmětu budou představeny datové struktury vhodné pro různé druhy dat, manipulace s nimi, efektivní dotazování, ceny I/O operací, komprese specifických typů dat, algoritmy a datové struktury vhodné pro výpočetní akcelerátory (CUDA, Intel Xeon Phi).