OCR - Concevez une application au service de la santé publique 70 heures (Mis à jour le vendredi 31 mai 2019)
L'agence "Santé publique France" a lancé un appel à projets pour trouver des idées innovantes d’applications en lien avec l'alimentation. Vous souhaitez y participer et proposer une idée d’application.
Les données Extrait de l’appel à projets : Le jeu de données Open Food Fact est disponible sur le site officiel. Les variables sont définies à cette adresse. Les champs sont séparés en quatre sections :
- Les informations générales sur la fiche du produit : nom, date de modification, etc.
- Un ensemble de tags : catégorie du produit, localisation, origine, etc.
- Les ingrédients composant les produits et leurs additifs éventuels.
- Des informations nutritionnelles : quantité en grammes d’un nutriment pour 100 grammes du produit.
Votre mission Après avoir lu l’appel à projets, voici les différentes étapes que vous avez identifiées :
- Traiter le jeu de données afin de repérer des variables pertinentes pour les traitements à venir. Automatiser ces traitements pour éviter de répéter ces opérations. Le programme doit fonctionner si la base de données est légèrement modifiée (ajout d’entrées, par exemple).
- Tout au long de l’analyse, produire des visualisations afin de mieux comprendre les données. Effectuer une analyse univariée pour chaque variable intéressante, afin de synthétiser son comportement. L’appel à projets spécifie que l’analyse doit être simple à comprendre pour un public néophyte. Soyez donc attentif à la lisibilité : taille des textes, choix des couleurs, netteté suffisante, et variez les graphiques (boxplots, histogrammes, diagrammes circulaires, nuages de points…) pour illustrer au mieux votre propos.
- Confirmer ou infirmer les hypothèses à l’aide d’une analyse multivariée. Effectuer les tests statistiques appropriés pour vérifier la significativité des résultats.
- Élaborer une idée d’application. Identifier des arguments justifiant la faisabilité (ou non) de l’application à partir des données Open Food Facts.
- Rédiger un rapport d’exploration et pitcher votre idée durant la soutenance du projet.
Livrables attendus Un notebook du nettoyage des données (non cleané, pour comprendre votre démarche). Un notebook d’exploration comportant une analyse univariée, multivariée, une réduction dimensionnelle, ainsi que les différentes questions de recherches associées (non cleané, pour comprendre votre démarche). Un rapport d’exploration, à utiliser en support pour la soutenance, comprenant : La présentation de votre idée d’application. Les opérations de nettoyage effectuées. La description et l'analyse univariée des différentes variables importantes avec les visualisations associées. L’analyse multivariée et les résultats statistiques associés, en lien avec votre idée d’application. 3 observations solidement étayées (graphes et/ou tests statistiques à l’appui au besoin) évaluant la pertinence et la faisabilité de votre application. La synthèse des différentes conclusions sur la faisabilité de votre projet.
Modalités de la soutenance 5 min - Présentation de votre idée d’application (à l'aide de votre support). 5 min - Présentation du nettoyage effectué (à l'aide du notebook). 10 min - Présentation de l’analyse exploratoire (à l'aide du notebook). 5 min - Présentation des faits pertinents pour l’application (à l'aide du notebook). 5 à 10 minutes de questions-réponses.
Ressources complémentaires Le cours Décrivez et nettoyez votre jeu de données du parcours Data Analyst.
Compétences évaluées Communiquer ses résultats à l’aide de représentations graphiques lisibles et pertinentes Effectuer des opérations de nettoyage sur des données structurées Effectuer une analyse statistique multivariée Effectuer une analyse statistique univariée