Spark sobre COVID-19
- Alejandro Cano Múnera
- Luis Javier Palacio Mesa
https://data.humdata.org/dataset/novel-coronavirus-2019-ncov-cases
https://data.humdata.org/dataset/positive-cases-of-covid-19-in-colombia
Colombia: s3://tet-covid-datasets/colombia
Mundial: s3://tet-covid-datasets/mundial
Se realizó la ingesta de datos en S3:
Posterior a su análisis, los datasets fueron nuevamente guardados en S3:
Outputs: s3://tet-covid-datasets/outputs
Se usó pyspark, además se realizó la limpieza de algunos datos que presentaban inconsistencias, se eliminaron y añadieron columnas.
A continuación se presentarán algunas de las agrupaciones y filtrados realizados en los datasets
Filtro 1: Personas menores de 18 años en estado Grave o Fallecido
Grupo 1: Contador de personas agrupadas por país de procedencia del COVID
Grupo 2: Contador de personas agrupadas por Departamento o Distrito
Grupo 3: Contador de personas Fallecidas agrupadas por Departamento o Distrito
Grupo 4: Casos confirmados, muertes y tasa de fatalidad agrupados por código ISO y por región
Grupo 5: Número de muertes agrupados por código ISO y región
Grupo 6: Número de recuperados agrupados por código ISO y región
Se realizaron visualizaciones de datos de Colombia, el mundo y Colombia vs el mundo.
Gráficas realizadas usando plotly
En esta gráfica se evidencia claramente que Bogotá D.C. tiene un número de casos muy elevados, lo siguen lugares como el Valle del Cauca, Cartagena y el Meta. Los lugares con menor número de casos son Arauca, Putumayo y Sucre.
En este punto evidenciamos que la mayoria de casos se encuentran entre personas con edades entre 25-40 años con un 34.6% y personas entre 40-65 años con un 34.1%
La tasa de letalidad se define como el número de muertes por cien, dividido el número total de casos.
Se puede evidenciar que los paises con mayor tasa de letalidad son Nicaragua, Belgica y Francia, sin embargo, Nicaragua y Bélgica son países con pocos casos confirmados, mientras que países como Francia, Italia y España tienen un número muy alto de casos confirmados y por su alta tasa de letalidad, entonces se tiene mayor número de muertes.
En latinoamérica los países con tasas de letalidad más alta son México, Ecuador y Argentina. Se puede observar que Peru tiene un número de casos confirmados muy alto, sin embargo su tasa de mortalidad ronda el 2.81%. Colombia tienen una tasa de letalidad del 3.86%
En esta gráfica se muestra la curva de crecimiento de los 10 países con mayor número de casos confirmados y Colombia. Es claro que Estados unidos tiene una curva muy elevada a comparación de los demás países.
Eliminando la curva de Estados Unidos, se observa de una manera más clara el comportamiento de los demás paises, podemos evidenciar como algunas curvas siguen en crecimiento y como otras intentan aplanarce con el paso del tiempo.
En latinoamérica el país con mayor número de casos y que presenta una curva en crecimiento exponencial es Perú. Países como México y Chile también presentan curvas en crecimiento. En este punto se puede evidenciar que Colombia se encuentra en un estado intermedio respecto a las curvas de crecimiento de paises vecinos
En este gráfico podemos evidenciar el crecimiento de la pandemia geográficamente, se pueden observar los países con mayor número de muertes con la barra de color, Estados Unidos y Europa presentan cifras altas de muertes.
En esta gráfica se hace una diferenciación de la división politica de una manera más clara y se evidencia como al pasar el tiempo países como China controlan el número de casos confirmados, mientras que países como Estados Unidos aumentan significativamente el número de casos. También se observa crecimiento de número de casos en regiones como Europa y Sur America.