Visualisez concrètement comment nous transformons des données brutes
et complexes en fichiers propres, structurés et prêts pour
l'analyse.
1. Nettoyage et Standardisation
Les noms varient, les valeurs manquantes sont incohérentes...
L'analyse est impossible.
Solution :
Les données sont uniformisées, prêtes à être analysées sans
erreur.
AVANT
| ID_PATIENT |
Date |
Marqueur_A |
Resultat |
| PAT-01 |
10/05/2023 |
12.5 |
positif |
| pat-02 |
11-05-2023 |
8.9 |
Pos |
| PAT-03 |
12/05/23 |
15,2 |
negatif |
| PAT-04 |
13/05/2023 |
- |
positif |
| Pat-05 |
2023-05-14 |
11.7 |
NEG |
| PAT-06 |
15/05/2023 |
manquant |
n/a |
APRÈS
| ID_PATIENT |
Date |
Marqueur_A |
Resultat |
| PAT-01 |
2023-05-10 |
12.5 |
positif |
| PAT-02 |
2023-05-11 |
8.9 |
positif |
| PAT-03 |
2023-05-12 |
15.2 |
negatif |
| PAT-04 |
2023-05-13 |
NA |
positif |
| PAT-05 |
2023-05-14 |
11.7 |
negatif |
| PAT-06 |
2023-05-15 |
NA |
NA |
2. Fusion et Agrégation
Les données sont dans plusieurs fichiers, un par expérience. Les
copier-coller sont lents et risqués.
Solution :
Un seul "fichier maître" est créé, incluant une colonne qui trace
l'origine de chaque donnée.
AVANT
Exp1.xlsx
| ID |
Valeur |
| A |
10 |
| B |
12 |
| C |
14 |
| D |
9 |
Exp2.xlsx
| ID |
Valeur |
| A |
15 |
| C |
11 |
| E |
18 |
| F |
13 |
APRÈS
Masterfile.xlsx
| source |
ID |
valeur |
| exp1.xlsx |
A |
10 |
| exp1.xlsx |
B |
12 |
| exp1.xlsx |
C |
14 |
| exp1.xlsx |
D |
9 |
| exp2.xlsx |
A |
15 |
| exp2.xlsx |
C |
11 |
| exp2.xlsx |
E |
18 |
| exp2.xlsx |
F |
13 |
3. Conversion de Format (Wide vers Long)
Le format "large" est facile à lire pour un humain, mais
incompatible avec la plupart des logiciels d'analyse.
Solution : Les
données sont pivotées en format "long" : une ligne par
observation, prêt pour l'analyse statistique.
AVANT
| Sujet |
Jour_0 |
Jour_7 |
| Sujet_1 |
10.2 |
15.4 |
| Sujet_2 |
9.8 |
12.1 |
| Sujet_3 |
11.1 |
14.9 |
| Sujet_4 |
12.0 |
16.2 |
APRÈS
| Sujet |
temps |
valeur |
| Sujet_1 |
jour_0 |
10.2 |
| Sujet_1 |
jour_7 |
15.4 |
| Sujet_2 |
jour_0 |
9.8 |
| Sujet_2 |
jour_7 |
12.1 |
| Sujet_3 |
jour_0 |
11.1 |
| Sujet_3 |
jour_7 |
14.9 |
| Sujet_4 |
jour_0 |
12.0 |
| Sujet_4 |
jour_7 |
16.2 |