3 📊 Analyse Exploratoire des Données (EDA)

3.1 📊 Statistiques Descriptives

L’EDA n’est pas qu’un graphique

Dans l’écosystème analytique de 2026, l’Analyse Exploratoire des Données (EDA) n’est plus une simple étape visuelle : c’est une discipline d’ingénierie rigoureuse. C’est la phase critique de validation de l’intégrité structurelle de vos données avant de déployer le moindre algorithme IA. La première étape consiste à prendre le “pouls” de vos variables grâce aux statistiques descriptives.

L’analyse univariée (l’étude d’une seule variable à la fois) constitue le premier rempart contre les données chaotiques.

3.1.1 🎯 Tendance Centrale

L’objectif est de trouver la valeur qui résume le mieux l’ensemble des données. L’arbitrage classique se fait entre la moyenne et la médiane.

La Moyenne (Mean) : C’est la somme de toutes les valeurs divisée par leur nombre total. Si elle est mathématiquement élégante, elle est structurellement très vulnérable aux valeurs aberrantes (Outliers) en raison de sa dépendance à chaque point de données.
La Médiane (Median) : C’est la valeur centrale une fois les données triées (elle coupe le jeu en deux moitiés de 50%). Elle offre une robustesse statistique bien supérieure face aux valeurs extrêmes.
- Attention Architecturale : Le calcul de la médiane est beaucoup plus coûteux en ressources CPU, car il nécessite d’effectuer une opération de tri (Sort) sur des millions de lignes.
Le Mode : Représente la valeur la plus fréquente, très utile pour les variables textuelles/catégorielles.

3.1.2 📏 Dispersion

Savoir où est le centre ne suffit pas ; il faut savoir si les données sont très resserrées autour de ce centre ou au contraire très étalées.

La Variance et l’Écart-type (Standard Deviation) : Ces mesures évaluent la fluctuation des données autour de la moyenne (\mu). Un écart-type (\sigma) élevé indique une forte volatilité des données.
Quartiles et Percentiles : Ils divisent l’ensemble de données en sections de taille égale (les quartiles divisent en 4 blocs de 25%). Ils sont à la base des graphiques “Boîtes à moustaches” (Boxplots) pour détecter visuellement les valeurs aberrantes.

3.1.3 ⚙️ Précision Numérique

En tant qu’ingénieur, vous devez savoir que les statistiques sur ordinateur sont soumises aux limites du matériel.

L’arithmétique en virgule flottante standard (IEEE 754) est notoirement non-associative : l’ordre des opérations modifie les décimales du résultat. Pour l’IA financière, on utilise désormais des types spécifiques comme Decimal (échelle fixe évitant les débordements) ou Int128. Là où le type classique Int64 est limité à 9 quintillions, le Int128 capture une plage 18 quintillions de fois plus large, évitant la saturation de la RAM lors de calculs d’agrégation massive.

3.1.4 🗺️ Moyenne vs Médiane

Pour choisir la mesure de tendance centrale la plus adaptée, vous devez évaluer la sensibilité aux valeurs aberrantes (outliers) et la complexité de calcul induite.

Ce schéma résume la stratégie de choix et son impact sur les ressources matérielles :

flowchart LR
    A[Données avec Outliers ?] -->|Oui| B(Utiliser la Médiane)
    A -->|Non| C(Utiliser la Moyenne)
    
    B --> D{Coût en RAM/CPU}
    D -.->|Élevé| E[Nécessite un Tri complet]
    
    C --> F{Coût en RAM/CPU}
    F -.->|Faible| G[Opération SIMD directe]
    
    style A fill:#cb4b16,stroke:#073642,color:#fdf6e3
    style B fill:#859900,stroke:#073642,color:#fdf6e3
    style C fill:#859900,stroke:#073642,color:#fdf6e3

3.2 🔗 Relations et Corrélations

Le terrain de jeu des interprétations fallacieuses

L’analyse bivariée permet de déceler les structures cachées et les dépendances entre vos colonnes. Cependant, c’est aussi le domaine où les Data Scientists débutants commettent le plus d’erreurs d’interprétation. Distinguer une simple co-occurrence statistique d’une véritable relation causale est tout l’enjeu de cette étape.

Pour évaluer la force des liens entre vos variables, la communauté s’est longtemps reposée sur des matrices mathématiques classiques. Mais face à la complexité des données modernes (non-linéaires, catégorielles), de nouveaux outils sont apparus.

3.2.1 📉 Linéarité et Rangs

Corrélation de Pearson : Le test statistique le plus célèbre. Il évalue le degré de dépendance linéaire exacte entre deux variables numériques continues.
- Indicateur : Il renvoie un score entre -1 (corrélation négative parfaite) et 1 (corrélation positive parfaite). Un score de 0 indique l’absence de corrélation linéaire.
- Le Piège : Il suppose une relation proportionnelle constante. Si la relation dessine une courbe (ex: une parabole en forme de U), Pearson renverra 0, vous faisant croire à tort qu’il n’y a aucun lien.
Corrélation de Spearman : Contrairement à Pearson, Spearman s’appuie sur les rangs des valeurs plutôt que sur les valeurs brutes.
- L’Avantage : Il est capable de capturer des relations monotones non-linéaires (si X augmente, Y augmente, peu importe la vitesse) et se montre totalement insensible aux valeurs extrêmes qui pollueraient une matrice de Pearson.

3.2.2 🚀 Coefficients Avancés

L’échec des corrélations linéaires a poussé l’industrie à adopter des métriques agnostiques, capables de gérer le mélange de textes et de nombres.

Predictive Power Score (PPS) : Score asymétrique de 0 à 1. Au lieu de faire des mathématiques pures, il entraîne un mini-Arbre de Décision en arrière-plan pour voir si la variable A permet de deviner la variable B.
- Avantage : Il détecte les relations non-linéaires.
- Asymétrie : Le fait que “Code Postal” prédise le “Prix du loyer” ne signifie pas que le “Prix du loyer” permet de prédire exactement un “Code Postal”. Pearson, lui, est toujours symétrique.
Coefficient Phik (\phi_k) : Coefficient de corrélation extrêmement robuste qui fonctionne de manière cohérente pour des types de variables mixtes (catégorielles, ordinales, intervalles).

3.2.3 Simulation : Les limites de Pearson

Pour bien comprendre la différence entre Pearson (linéaire) et une véritable force prédictive (non-linéaire), observez comment les scores réagissent face à différentes distributions de données.

{"component":"LlmGeneratedComponent","props":{"height":"650px","prompt":"Create an interactive scatter plot simulator to teach the limitations of Pearson Correlation. \n\nObjective: Show that a Pearson score of ~0 does not mean there is no relationship, just no LINEAR relationship.\n\nStructure:\n1. A central 2D Scatter Plot canvas showing data points.\n2. A dropdown or button group to select 'Data Patterns': \n   - 'Linear Positive'\n   - 'Linear Negative'\n   - 'Quadratic (U-shape)'\n   - 'Sine Wave'\n   - 'Random Cloud'\n3. A prominent 'Scoreboard' panel displaying two metrics calculated in real-time based on the pattern:\n   - 'Pearson Correlation (r)': Should be near 1 for Linear Positive, -1 for Linear Negative, and near 0 for Quadratic, Sine, and Random.\n   - 'Predictive Power (Non-linear)': Should be high (>0.8) for Linear, Quadratic, and Sine, but near 0 for Random.\n\nBehavior: When the user selects 'Quadratic', explicitly highlight the fact that Pearson drops to 0 despite the clear visual relationship.","id":"im_1110e01afce77639"}}

3.2.4 ⚖️ Corrélation n’est pas Causalité

C’est le mantra de la Data Science. Si l’EDA permet d’observer que deux variables évoluent de pair, ce lien mathématique n’implique jamais de facto qu’une variable est la cause de l’évolution de l’autre.

La variable de confusion : Par exemple, il existe une forte corrélation positive entre les ventes de crèmes glacées et les noyades. Est-ce que manger une glace provoque la noyade ? Non. La variable de confusion cachée est la chaleur estivale, qui provoque simultanément l’augmentation des deux phénomènes.
L’EDA sert de générateur d’hypothèses, qui doivent ensuite être validées par le métier ou par des tests A/B.

3.3 🧩 Regroupement et Segmentation

Méfiez-vous de la moyenne globale

Calculer le salaire moyen de l’ensemble d’une entreprise donne une information, mais elle masque les réalités locales. C’est en segmentant ces données (ex: Salaire moyen par département et par niveau d’ancienneté) que l’on extrait la véritable valeur métier. La transformation de données brutes en segments actionnables repose sur une mécanique que tout ingénieur Data doit maîtriser : le Split-Apply-Combine.

3.3.1 🧩 Split-Apply-Combine

Derrière la célèbre fonction .groupby(), le moteur de calcul (qu’il s’agisse de Pandas ou de Polars) effectue toujours trois opérations distinctes :

Split (Diviser) : Le jeu de données original est scindé en sous-groupes selon des clés définies (ex: le genre, la ville). Cette étape repose sur des algorithmes de hachage (hashing) en mémoire.
Apply (Appliquer) : Une fonction d’agrégation (moyenne, somme, comptage, ou même un modèle IA) est exécutée indépendamment sur chaque sous-groupe.
Combine (Recombiner) : Les résultats isolés sont réassemblés dans une nouvelle structure de données propre et unifiée.

flowchart TD
    A[Données Brutes\n A:10, B:20, A:5, B:5] -->|1. Split| B(Groupe A\n 10, 5)
    A -->|1. Split| C(Groupe B\n 20, 5)
    
    B -->|2. Apply \n Somme| D[15]
    C -->|2. Apply \n Somme| E[25]
    
    D -->|3. Combine| F[Résultat Final\n A:15, B:25]
    E -->|3. Combine| F
    
    style A fill:#268bd2,stroke:#073642,color:#fdf6e3
    style F fill:#859900,stroke:#073642,color:#fdf6e3

3.3.2 🏎️ GroupBy vs Pivot Table

Un point de friction classique pour le Data Scientist est de choisir entre .groupby().agg() et .pivot_table(). Bien qu’elles produisent des résultats similaires, leur mécanique interne est fondamentalement différente.

**L’implémentation de pivot_table** utilise souvent des boucles Python pures sous le capot pour appliquer vos fonctions, ce qui est extrêmement lent.
L’implémentation de groupby().agg()** vérifie d’abord si une fonction optimisée en C/Cython** est disponible pour ce que vous demandez (comme sum ou mean). Si oui, le moteur court-circuite Python et utilise le code C compilé. Sur des millions de lignes, groupby peut être jusqu’à 60 fois plus rapide.

3.3.3 ⚙️ Évolutions Modernes

Face à l’explosion volumétrique, les bibliothèques ont dû repenser leur comportement par défaut.

Pandas 3.0 : Le paramètre observed=True est devenu le standard par défaut. Si vous groupez par une catégorie existante mais absente des données (un “groupe non-observé”), Pandas n’insère plus de ligne vide remplie de NaN. Cela évite la saturation inutile de la RAM.
Polars : Pousse l’optimisation encore plus loin grâce au “Morsel-Driven Parallelism”. Au lieu de traiter un groupe entier sur un seul cœur, Polars découpe les données en petits fragments (morsels) distribués et calculés en parallèle sur tous les cœurs CPU disponibles simultanément.

3.4 🕵️‍♂️ Mission 3

Vous arrivez en trombe sur le quai n°7. La “Mouette” est amarrée. Sur le pont supérieur, vous repérez une caisse massive marquée d’un “C”. Elle est verrouillée par un cadenas numérique à 4 chiffres.

Le capitaine du port vous transmet le manifeste des marchandises chargées aujourd’hui. Exécutez la cellule pour examiner le manifeste :

import pandas as pd

# Manifeste des marchandises du port
data_manifeste = {
    'proprietaire': ['Alice', 'Bob', 'Charlie', 'Alice', 'Charlie', 'Diana', 'Charlie'],
    'type_marchandise': ['Textiles', 'Electronique', 'Poissons', 'Meubles', 'Glace', 'Livres', 'Produits Chimiques'],
    'poids_kg': [150, 420, 1042, 300, 2105, 50, 1000]
}
df_manifeste = pd.DataFrame(data_manifeste)

print("Manifeste récupéré avec succès !")
display(df_manifeste)

Un docker vous glisse une information : “Le code du cadenas est toujours le poids total cumulé des marchandises du propriétaire.”

Votre objectif : Utiliser le regroupement de données (groupby) pour calculer le poids total des marchandises de chaque propriétaire, et déduire le code de Charlie.

3.5 🌉 Conclusion et Transition

L’analyse exploratoire nous a permis de comprendre les tendances et les corrélations au sein de nos données. Pour rendre ces découvertes plus percutantes et accessibles, nous allons maintenant apprendre à les visualiser efficacement.

C’est ce que nous allons explorer dans le Chapitre 4 : Visualisation des Données.