📖 Glossaire
Ce document rassemble tous les termes techniques abordés dans le cours.
Visualisation de 3 variables ou plus
- Heatmap (Carte de Chaleur) : Représentation graphique de données où les valeurs individuelles contenues dans une matrice sont représentées par des couleurs.
- Carte Choroplèthe : Carte thématique où les régions sont colorées ou ombrées proportionnellement à la valeur d’une variable statistique (ex: taux de chômage par région).
- GeoPandas : Extension de Pandas qui ajoute le support des données géospatiales (polygones, lignes, points) pour permettre l’analyse spatiale.
Graphiques bidimensionnels
- Boxplot (Boîte à moustaches) : Graphique synthétisant la distribution d’une variable via ses quartiles et sa médiane.
- Outlier : Valeur située à plus de 1,5 fois l’écart interquartile (IQR) au-dessus de Q3 ou en dessous de Q1.
- Série Temporelle : Suite de valeurs numériques représentant l’évolution d’une quantité spécifique au fil du temps.
Création de tableaux de bord interactifs (Dashboards) avec des outils comme Plotly et Dash
- Dashboard : Interface utilisateur (souvent web) regroupant une vue consolidée de graphiques et de métriques interactives.
- Callback : Fonction qui est automatiquement appelée lorsqu’un événement précis se produit (ex: l’utilisateur modifie un curseur, la fonction recalcule le graphique).
- MVP (Minimum Viable Product) : Version d’un produit avec juste assez de fonctionnalités pour être utilisable par les premiers clients, permettant de récolter rapidement leurs retours.
Regroupement et segmentation des données avec la fonction GroupBy
- Split-Apply-Combine : Stratégie de manipulation de données consistant à diviser un jeu d’informations, y appliquer une fonction de calcul sur chaque morceau, et fusionner les résultats.
- Cython : Langage de programmation qui combine la syntaxe de Python avec la performance du C, massivement utilisé sous le capot de Pandas.
- Groupes non-observés : Catégories qui existent dans la définition d’une variable (ex: un niveau d’abonnement “Premium”) mais pour lesquelles aucune ligne n’est présente dans l’échantillon de données actuel.
Analyse des relations entre variables : Covariance et Corrélation
- Corrélation de Pearson : Mesure normalisée de la covariance allant de -1 à 1, évaluant exclusivement la dépendance linéaire exacte.
- Predictive Power Score (PPS) : Score asymétrique (0 à 1) utilisant des algorithmes d’apprentissage pour mesurer le véritable pouvoir prédictif d’une variable sur une autre, y compris non-linéaire.
- Variable de confusion : Variable externe non prise en compte dans l’analyse qui influence de manière simultanée les deux variables étudiées, créant une illusion de causalité entre elles.
Les statistiques descriptives de base
- Moyenne (Mean) : Mesure de tendance centrale correspondant à la somme de toutes les valeurs divisée par leur nombre total. Très sensible aux extrêmes.
- Médiane (Median) : Mesure représentant la valeur du milieu d’un ensemble trié.
- Variance et Écart-type : Mesures évaluant l’étalement des données autour de la moyenne.
- Valeurs aberrantes (Outliers) : Valeurs extrêmes qui s’écartent fortement des autres observations et peuvent biaiser l’analyse.
Techniques pour atténuer le surajustement
- Data Drift : Modification au fil du temps de la distribution statistique des variables d’entrée par rapport à l’ensemble d’entraînement.
- Concept Drift : Modification de la relation fondamentale entre les variables d’entrée et la variable cible (la cible change de définition).
- PSI (Population Stability Index) : Mesure statistique quantifiant à quel point la distribution d’une variable a changé entre deux périodes.
- EU AI Act : Cadre réglementaire européen visant à classifier et encadrer les risques liés aux systèmes d’intelligence artificielle.
Métriques pour la classification
- Hyperparamètres : Paramètres d’un algorithme définis par l’utilisateur avant l’entraînement (ex: le nombre d’arbres dans une forêt).
- Optimisation Bayésienne : Méthode construisant un modèle probabiliste des performances pour orienter la recherche d’hyperparamètres vers les zones les plus prometteuses.
- Pruning (Élagage) : Mécanisme permettant d’interrompre prématurément un essai d’entraînement si ses résultats partiels suggèrent qu’il n’améliorera pas le record actuel.
Méthodes de validation pour fiabiliser les résultats
- MLOps : Ensemble de pratiques visant à déployer et maintenir des modèles de Machine Learning en production de manière fiable et efficace.
- Docker : Outil de conteneurisation permettant d’encapsuler une application et ses dépendances dans un environnement isolé.
- API (Interface de Programmation d’Application) : Passerelle logicielle permettant à deux applications de communiquer entre elles, généralement via l’échange de fichiers JSON.
- Inférence : L’acte, pour un modèle entraîné en production, de générer une prédiction à partir de nouvelles données.
Métriques pour la régression
- Précision : Capacité du modèle à ne pas déclencher de fausses alertes.
- Rappel (Recall) : Capacité du modèle à ne laisser passer aucun cas réel.
- F1-Score : Indicateur unique équilibrant précision et rappel.
- Déséquilibre de classe (Class Imbalance) : Situation où une catégorie est massivement plus représentée qu’une autre dans les données.
Encodage des variables catégorielles pour les algorithmes : Label Encoding et One-Hot Encoding
- Fléau de la dimensionnalité : Phénomène par lequel l’augmentation du nombre de colonnes (features) dégrade les performances d’un algorithme en nécessitant exponentiellement plus de données.
- Target Leakage (Fuite de la cible) : Biais méthodologique où l’information que l’on essaie de prédire est accidentellement utilisée comme variable d’entrée pendant l’entraînement.
- Fonction de Hachage : Algorithme mathématique qui transforme une chaîne de caractères de taille variable en une valeur de taille fixe (empreinte).
Transformation des données : Normalisation (Min-Max, Z-score) et discrétisation (binning)
- Transformation Monotone : Opération mathématique qui modifie l’échelle des valeurs tout en préservant strictement leur ordre absolu.
- Outlier (Valeur Aberrante) : Point de donnée isolé qui s’écarte considérablement du reste de la distribution globale.
- Batchnorm : Technique utilisée dans les réseaux de neurones pour normaliser les entrées de chaque couche afin de stabiliser et d’accélérer l’apprentissage.
Harmonisation des formats et correction des erreurs
- Regex (Expressions Régulières) : Séquence de caractères formant un motif de recherche, très utilisée pour trouver et remplacer des chaînes de texte spécifiques.
- Norme ISO 8601 : Norme internationale de représentation de la date et de l’heure, conçue pour éviter toute ambiguïté (AAAA-MM-JJ).
- Trim (ou Strip) : Fonction informatique permettant de supprimer les espaces “blancs” situés au début et à la fin d’une chaîne de caractères.
Compréhension des concepts clés
- Underfitting : Modèle incapable de saisir les motifs simples des données.
- Overfitting : Modèle qui mémorise le bruit des données au lieu de la logique.
- Généralisation : Capacité d’un modèle à être performant sur des données totalement nouvelles.
- Régularisation : Technique mathématique qui “punit” la complexité excessive d’un modèle pour éviter l’Overfitting.
Différences fondamentales entre l’apprentissage supervisé et non supervisé
- Apprentissage Supervisé : Approche algorithmique exploitant des données étiquetées pour lesquelles la réponse cible est connue, idéale pour des tâches de prédiction.
- Apprentissage Non Supervisé : Méthode utilisée avec des données non étiquetées, visant à découvrir des structures sous-jacentes par similarité (clustering).
- Données Tabulaires : Données structurées organisées sous forme de tableau (lignes et colonnes hétérogènes), constituant la majorité des bases de données d’entreprise.
Méthodes d’ensemble pour améliorer les performances
- Bagging : Méthode consistant à entraîner plusieurs modèles en parallèle sur des échantillons de données différents et à moyenner leurs prédictions.
- Boosting : Technique séquentielle où chaque nouveau modèle tente de corriger les erreurs de l’ensemble des modèles précédents.
- Apprenant faible (Weak Learner) : Un modèle simple (souvent un arbre très court) qui est juste un peu meilleur que le hasard, mais qui devient puissant une fois combiné à d’autres.
Algorithmes de Clustering et techniques de réduction de dimensionnalité
- Centroïde : Le point central d’un cluster, calculé comme la position moyenne de tous les points de données qui lui sont assignés.
- DBSCAN : Algorithme de regroupement spatial basé sur la densité, capable d’identifier des clusters de formes arbitraires et d’isoler automatiquement le bruit.
- PCA (Analyse en Composantes Principales) : Méthode de réduction de dimensionnalité qui transforme un ensemble de données en de nouvelles composantes principales maximisant la variance.
L’art du “Data Storytelling” : choisir les bonnes visualisations pour faire passer un message
- Data Translator : Rôle hybride faisant le pont entre les équipes techniques (Data Scientists) et les parties prenantes métier pour s’assurer que les modèles répondent à un objectif financier.
- ROI (Return on Investment) : Bénéfice net généré par un projet comparé à son coût de développement et de maintien (infrastructures, salaires, serveurs).
- Matrice de Coûts : Modèle financier qui attribue une valeur monétaire (une pénalité) à chaque type d’erreur de l’algorithme (Faux Positif vs Faux Négatif).
Conception de tableaux de bord interactifs et de rapports écrits
- Pyramide de Minto : Cadre de communication hiérarchique consistant à donner la conclusion en premier, suivie des arguments et des preuves.
- SCQA : Acronyme pour Situation, Complication, Question, Answer. Une structure narrative pour introduire un problème et sa solution de manière impactante.
- Action Titles (Titres d’action) : Phrase complète utilisée comme titre de présentation ou de graphique, énonçant directement l’insight principal à retenir.
- Executive Summary (Synthèse Exécutive) : La première page d’un rapport, condensant l’intégralité du problème et des recommandations pour les décideurs.
Importance de communiquer avec transparence sur la fiabilité et les limites du modèle
- Incertitude Épistémique : Marge d’erreur liée au manque de connaissances ou de données, que l’on peut réduire en travaillant davantage.
- Intervalle de Confiance : Plage de valeurs à l’intérieur de laquelle se trouve probablement le résultat réel, selon un niveau de probabilité donné (souvent 90% ou 95%).
- Hallucination : Phénomène par lequel une IA générative produit une information factuellement fausse tout en affirmant sa véracité avec une grande confiance.
- XAI (Explainable AI) : Ensemble d’outils et de méthodes permettant de comprendre et de justifier les prédictions faites par des modèles complexes (Deep Learning, XGBoost).
- RAG (Retrieval-Augmented Generation) : Méthode consistant à connecter un modèle de langage à une base de données externe vérifiée pour limiter ses hallucinations.