Este repositorio contiene las clases del curso en Big Data
-
Syllabus
-
Programación Python
-
Bases de Datos Relacionales
-
Motor Dask para Big Data en Python
- Introducción la procesamiento paralelo con Dask
- Ejecución retrasada (lazzy)
- Mejores prácticas con ejecución retrasada
- Colleciones bag
- Arrays
- Dataframes
- Ejecución distribuida
- Ejecución distribuida avanzada
- Ejecución con un cluster en la nube - Coiled
- Almacenamiento eficiente de dask-dataframes
- Aprendizaje de Maquinas paralelo y distribuido
- Almacenamiento hdf5
-
Spark