-
Notifications
You must be signed in to change notification settings - Fork 6
fichier R simplifié
Le fichier R a initialement 37 variables. Un certain nombre d'entre elles sont redondantes. En particulier, 15 variables qualitatives sont présentes à la fois avec une modalité codée et avec les libellés associés à ces modalités.
On peut ou bien conserver les libellés ou bien conserver les modalités et associés les libellés par ailleurs, ce choix a été fait ici. Dans le second cas, la base qui fait au départ 69,1 Go produit un csv qui fait 16,1 Go. On trouvera un code qui peut générer ces bases ici
On simplifie aussi en gardant uniquement les information les plus primaires possibles. On supprime donc du fichier initial les information sur le département et la région que l'on peut aisément retrouver à partir du code de la CPAM. Les fichier prennent alors encore un peu moins de place pour un ensemble de csv de 13,5 Go.
Une autre simplification pourrait venir des variables "regroupement de spécialité de professionels de santé".
###Accès via postgresql durant le hackathon Accès par postgresql sur le serveur mis à disposition:
- r_AAAAMM : une table par mois nommée r_AAAAMM, exemple: r_201001
- r_full : une table sur l'ensemble de la période + colonne "mois" indiquant la période
- r_full_geo : une vue SQL sur l'ensemble de la période + colonnes géographiques (département et région)
Chaque champ a été indexé pour permettre des recherches et extractions rapides.
Les libellés ont été reportés dans des tables "lib_xxx", exemple "lib_asu_nat". Les informations sur les CPAM (cpam), département (dpt), région (region) sont regroupées dans une table "cpam".
On peut trouver la liste brute des variables (utiles pour les requêtes SQL) ci-dessous: act_coe act_dnb asu_nat ben_qlt cpam cpl_cod dep_mon exe_spe exe_spe1 exe_stj1 pre_spe pre_spe1 pre_stj1 prs_nat rec_mon rem_mon rem_tau serie sns_date top_slm