Feito para apresentação no LaCCAN por Yago Andrade.
A atividade visa o tratamento da base de dados de pacientes anônimos com ou sem doenças cardiovasculares e a visualização dos dados coletados através da estatística. Há uma leve aplicação de modelos open-source de aprendizagem de máquina, visando a predição do diagnóstico com base nos dados coletados. Feito no Google Colab.
A base de dados sobre doença cardiovascular utilizada é um conjunto de dados do Kaggle, e consiste em dados de 68,030 pacientes (34,362 apresentando alguma doença cardiovascular e 33,668 não apresentando quaisquer tipo de doença cardiovascular) e contem 11 categorias de análise:
- Idade (Age)
- Altura (Height)
- Peso (Weight)
- Gênero (Gender)
- Pressão arterial sistólica (Systolic blood pressure)
- Pressão arterial diastólica (Diastolic blood pressure)
- Colesterol (Cholesterol)
- Glicose (Glucose)
- Fumante (Smoker)
- Ingestão de álcool (Alcohol intake)
- Atividade física (Physical activity)
Algumas das características são descritas em forma numérica, outras são assignadas códigos de categoria e outros são valores binários. As classes tendem a ser balanceadas, entretanto, foram observadas mais pacientes do gênero feminino do que do gênero masculino.