Skip to content

alejocano22/TETproject3

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Proyecto 3 - Tópicos especiales en telemática

Spark sobre COVID-19

Estudiantes

  • Alejandro Cano Múnera
  • Luis Javier Palacio Mesa

Universidad EAFIT

Fuentes de datos

https://data.humdata.org/dataset/novel-coronavirus-2019-ncov-cases
https://data.humdata.org/dataset/positive-cases-of-covid-19-in-colombia

Notebook

Notebook EMR

Ingesta y Almacenamiento de datos en S3

Datasets

Colombia: s3://tet-covid-datasets/colombia
Mundial: s3://tet-covid-datasets/mundial
Datasets

Ingesta de datos en S3

Se realizó la ingesta de datos en S3: Ingesta

Datos guardados en S3

Posterior a su análisis, los datasets fueron nuevamente guardados en S3: Guardados

Outputs

Outputs: s3://tet-covid-datasets/outputs

Análisis descriptivo exploratorio

Se usó pyspark, además se realizó la limpieza de algunos datos que presentaban inconsistencias, se eliminaron y añadieron columnas. A continuación se presentarán algunas de las agrupaciones y filtrados realizados en los datasets
Filtro 1: Personas menores de 18 años en estado Grave o Fallecido filtro1

Grupo 1: Contador de personas agrupadas por país de procedencia del COVID grupo1

Grupo 2: Contador de personas agrupadas por Departamento o Distrito grupo2

Grupo 3: Contador de personas Fallecidas agrupadas por Departamento o Distrito grupo3

Grupo 4: Casos confirmados, muertes y tasa de fatalidad agrupados por código ISO y por región grupo4

Grupo 5: Número de muertes agrupados por código ISO y región grupo5

Grupo 6: Número de recuperados agrupados por código ISO y región grupo6

Gráficas

Se realizaron visualizaciones de datos de Colombia, el mundo y Colombia vs el mundo.
Gráficas realizadas usando plotly

Número de casos por departamento o distrito

En esta gráfica se evidencia claramente que Bogotá D.C. tiene un número de casos muy elevados, lo siguen lugares como el Valle del Cauca, Cartagena y el Meta. Los lugares con menor número de casos son Arauca, Putumayo y Sucre. Image1

Casos positivos en Colombia por edad

En este punto evidenciamos que la mayoria de casos se encuentran entre personas con edades entre 25-40 años con un 34.6% y personas entre 40-65 años con un 34.1% Image2

Países con tasa de letalidad más alta y Colombia

La tasa de letalidad se define como el número de muertes por cien, dividido el número total de casos.
Se puede evidenciar que los paises con mayor tasa de letalidad son Nicaragua, Belgica y Francia, sin embargo, Nicaragua y Bélgica son países con pocos casos confirmados, mientras que países como Francia, Italia y España tienen un número muy alto de casos confirmados y por su alta tasa de letalidad, entonces se tiene mayor número de muertes. Image3

Países latinos con tasa de letalidad más alta y Colombia

En latinoamérica los países con tasas de letalidad más alta son México, Ecuador y Argentina. Se puede observar que Peru tiene un número de casos confirmados muy alto, sin embargo su tasa de mortalidad ronda el 2.81%. Colombia tienen una tasa de letalidad del 3.86% Image4

Casos confirmados por tiempo en los 10 países con más casos y Colombia

En esta gráfica se muestra la curva de crecimiento de los 10 países con mayor número de casos confirmados y Colombia. Es claro que Estados unidos tiene una curva muy elevada a comparación de los demás países. Image5

Casos confirmados por tiempo en los 10 países con más casos sin USA y con Colombia

Eliminando la curva de Estados Unidos, se observa de una manera más clara el comportamiento de los demás paises, podemos evidenciar como algunas curvas siguen en crecimiento y como otras intentan aplanarce con el paso del tiempo. Image6

Casos confirmados por tiempo en algunos países de latinoamérica

En latinoamérica el país con mayor número de casos y que presenta una curva en crecimiento exponencial es Perú. Países como México y Chile también presentan curvas en crecimiento. En este punto se puede evidenciar que Colombia se encuentra en un estado intermedio respecto a las curvas de crecimiento de paises vecinos Image7

Casos confirmados de coronavirus en el mundo por fecha

En este gráfico podemos evidenciar el crecimiento de la pandemia geográficamente, se pueden observar los países con mayor número de muertes con la barra de color, Estados Unidos y Europa presentan cifras altas de muertes. Image8 Image8

Casos confirmados de coronavirus en el mundo (División política)

En esta gráfica se hace una diferenciación de la división politica de una manera más clara y se evidencia como al pasar el tiempo países como China controlan el número de casos confirmados, mientras que países como Estados Unidos aumentan significativamente el número de casos. También se observa crecimiento de número de casos en regiones como Europa y Sur America. Image9 Image9

About

Spark sobre COVID-19

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published