📖 Glossaire
Ce document rassemble tous les termes techniques abordés dans le cours, classés par ordre alphabétique.
A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | X
A
- Accuracy (Exactitude) : Métrique de classification mesurant la proportion de prédictions correctes (positives et négatives) sur le nombre total d’observations.
- API (Interface de Programmation d’Application) : Passerelle logicielle permettant à deux applications de communiquer entre elles, généralement via l’échange de fichiers JSON.
- Apprenant faible (Weak Learner) : Un modèle simple (souvent un arbre de décision très court) qui est juste un peu meilleur que le hasard, mais qui devient puissant une fois combiné à d’autres au sein d’une méthode d’ensemble.
- Apprentissage Non Supervisé : Approche algorithmique utilisée avec des données non étiquetées, visant à découvrir des structures sous-jacentes par similarité (ex: clustering, réduction de dimensionnalité).
- Apprentissage Supervisé : Approche algorithmique exploitant des données étiquetées pour lesquelles la réponse cible est connue, idéale pour les tâches de prédiction (régression et classification).
B
- Bagging (Bootstrap Aggregating) : Méthode d’ensemble consistant à entraîner plusieurs modèles en parallèle sur des échantillons de données différents (obtenus par tirage avec remplacement) et à combiner leurs prédictions (ex: Random Forest).
- Batchnorm : Technique utilisée dans les réseaux de neurones pour normaliser les entrées de chaque couche afin de stabiliser et d’accélérer l’apprentissage.
- Boosting : Technique d’ensemble séquentielle où chaque nouveau modèle est entraîné en accordant plus de poids aux observations mal prédites par les modèles précédents (ex: XGBoost, AdaBoost).
- Boxplot (Boîte à moustaches) : Représentation graphique synthétisant la distribution d’une variable continue à l’aide de ses quartiles, de sa médiane et de ses valeurs aberrantes.
C
- Callback : Fonction qui est automatiquement appelée lorsqu’un événement précis se produit dans une application interactive (ex: l’utilisateur modifie un curseur, la fonction recalcule le graphique).
- Carte Choroplèthe : Carte thématique où les régions géographiques sont colorées ou ombrées proportionnellement à la valeur d’une variable statistique (ex: taux de chômage par région).
- Centroïde : Point central d’un cluster, correspondant à la position moyenne (barycentre) de tous les points de données qui lui sont assignés.
- Clustering (Partitionnement) : Métode d’apprentissage non supervisé consistant à regrouper des points de données similaires au sein de sous-groupes homogènes (clusters).
- Concept Drift : Modification de la relation fondamentale entre les variables d’entrée et la variable cible au fil du temps (la cible change de définition réelle).
- Corrélation de Pearson : Mesure statistique normalisée (allant de -1 à 1) évaluant exclusivement l’existence et la force d’une dépendance linéaire exacte entre deux variables.
- Covariance : Indicateur statistique évaluant la direction de la relation linéaire entre deux variables (positive si elles évoluent ensemble, négative si elles évoluent en sens opposé).
- CRISP-DM (Cross-Industry Standard Process for Data Mining) : Modèle de processus standardisé et itératif décrivant les étapes indispensables pour mener à bien un projet de Data Science (de la compréhension métier au déploiement).
- Cython : Langage de programmation qui combine la syntaxe de Python avec la performance et le typage statique du C, massivement utilisé sous le capot de Pandas pour optimiser les performances.
D
- Dashboard : Interface utilisateur interactive (souvent web) regroupant une vue consolidée de graphiques et de métriques pour faciliter la prise de décision.
- Data Drift : Modification au fil du temps de la distribution statistique des variables d’entrée d’un modèle par rapport à son ensemble de données d’entraînement.
- Data Translator : Rôle hybride faisant le pont entre les équipes techniques (Data Scientists) et les parties prenantes métier pour s’assurer que les modèles répondent à des objectifs financiers et opérationnels concrets.
- Data Wrangling (Préparation des Données) : Processus itératif de nettoyage, structuration et enrichissement des données brutes dans un format adapté à l’analyse et à la modélisation.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise) : Algorithme de clustering basé sur la densité, capable d’identifier des groupes de formes arbitraires et d’exclure automatiquement les points considérés comme du bruit.
- Déséquilibre de classe (Class Imbalance) : Situation où une ou plusieurs catégories sont largement sous-représentées par rapport aux autres dans un jeu de données de classification.
- Docker : Outil de conteneurisation permettant d’encapsuler une application et ses dépendances dans un environnement isolé, garantissant son immuabilité et sa portabilité.
- Données Tabulaires : Données structurées organisées sous forme de tableau (lignes et colonnes hétérogènes), constituant la majorité des bases de données d’entreprise.
E
- Écart-type : Mesure de la dispersion des données autour de leur moyenne, calculée comme la racine carrée de la variance (exprimée dans la même unité que les données d’origine).
- EU AI Act : Cadre réglementaire européen visant à classifier et encadrer les risques liés aux systèmes d’intelligence artificielle.
- Executive Summary (Synthèse Exécutive) : Section introductive d’un rapport synthétisant l’intégralité du problème, des insights découverts et des recommandations pour les décideurs.
F
- F1-Score : Métrique de classification calculée comme la moyenne harmonique de la précision et du rappel, particulièrement utile pour évaluer les modèles sur des classes déséquilibrées.
- Feature Engineering (Ingénierie des Caractéristiques) : Processus de transformation des données brutes en variables explicatives (features) pertinentes afin d’améliorer la performance et l’interprétabilité des modèles de Machine Learning.
- Feature Selection (Sélection de caractéristiques) : Technique consistant à sélectionner un sous-ensemble de variables d’entrée les plus pertinentes pour éliminer le bruit et réduire la complexité du modèle.
- Fléau de la dimensionnalité : Phénomène par lequel l’augmentation exponentielle de l’espace des caractéristiques dégrade les performances des algorithmes et nécessite exponentiellement plus de données d’entraînement.
- Fonction de Hachage : Algorithme mathématique transformant une entrée de taille variable en une empreinte de taille fixe (caractères alphanumériques), de manière irréversible.
G
- Généralisation : Capacité d’un modèle de Machine Learning à produire des prédictions précises sur de nouvelles données jamais observées durant la phase d’entraînement.
- GeoPandas : Extension de Pandas facilitant le traitement et l’analyse de données géospatiales en y intégrant des types géométriques (polygones, lignes, points).
- GridSearchCV (Recherche par Grille) : Méthode d’optimisation explorant de manière exhaustive et systématique toutes les combinaisons possibles d’une grille d’hyperparamètres prédéfinie.
- Groupes non-observés : Catégories définies dans les métadonnées d’une variable catégorielle mais pour lesquelles aucune observation n’est présente dans l’échantillon analysé.
H
- Hallucination : Phénomène par lequel une IA générative produit une réponse factuellement fausse ou inventée tout en la présentant avec une forte assurance.
- Heatmap (Carte de Chaleur) : Représentation graphique bidimensionnelle où les valeurs d’une matrice sont représentées par des nuances de couleurs.
- Hyperparamètres : Paramètres de configuration d’un algorithme définis par l’utilisateur avant le processus d’entraînement (ex: nombre d’arbres, profondeur maximale).
I
- Imputation : Méthode statistique consistant à remplacer les valeurs manquantes d’un jeu de données par des valeurs estimées (moyenne, médiane, k-NN, etc.) pour éviter la perte d’informations.
- Incertitude Épistémique : Part d’incertitude liée au manque de connaissances ou de données, pouvant être réduite en collectant plus d’observations ou en affinant le modèle.
- Inférence : Étape durant laquelle un modèle de Machine Learning entraîné et déployé est sollicité pour générer des prédictions sur de nouvelles données d’entrée.
- Intervalle de Confiance : Plage de valeurs estimée à partir d’un échantillon, contenant le paramètre réel recherché avec un niveau de probabilité donné (ex: 95%).
J
- JSON (JavaScript Object Notation) : Format léger, textuel et structuré d’échange de données semi-structurées, largement utilisé pour les communications avec les APIs.
K
- K-Means (K-Moyennes) : Algorithme populaire d’apprentissage non supervisé (clustering) qui partitionne les données en k groupes, où chaque point appartient au groupe dont le centroïde est le plus proche.
L
- Label Encoding (Encodage par Étiquettes) : Technique d’encodage transformant chaque catégorie textuelle unique en un entier distinct (ex: 0, 1, 2), à réserver principalement aux variables ordinales.
M
- MAE (Mean Absolute Error / Erreur Absolue Moyenne) : Métrique d’évaluation pour la régression mesurant la moyenne des valeurs absolues des écarts entre les prédictions et les valeurs réelles. Elle est très robuste aux valeurs aberrantes.
- Matrice de Confusion : Tableau comparant les prédictions d’un modèle de classification avec les classes réelles, détaillant les Vrais Positifs, Faux Positifs, Vrais Négatifs et Faux Négatifs.
- Matrice de Coûts : Modèle d’évaluation financière ou métier attribuant une pénalité financière ou opérationnelle distincte à chaque type d’erreur de classification (Faux Positif vs Faux Négatif).
- Médiane (Median) : Valeur centrale qui sépare un échantillon de données triées en deux parties égales (50% au-dessus et 50% en dessous), très robuste aux valeurs extrêmes.
- MLOps (Machine Learning Operations) : Pratiques et outils visant à standardiser et automatiser le cycle de vie des modèles (entraînement, test, déploiement, monitoring).
- Moyenne (Mean) : Mesure de tendance centrale correspondant à la somme des valeurs divisée par leur nombre total. Elle est extrêmement sensible aux valeurs aberrantes.
- MVP (Minimum Viable Product) : Version minimaliste et fonctionnelle d’un produit conçue pour être rapidement testée par les utilisateurs afin de collecter des retours d’expérience.
N
- Norme ISO 8601 : Standard international pour la représentation des dates et heures sous format textuel non ambigu (AAAA-MM-JJ).
- NumPy : Bibliothèque Python fondamentale pour le calcul scientifique, fournissant des objets de tableaux multidimensionnels (arrays) performants et des fonctions mathématiques vectorisées.
O
- One-Hot Encoding (Encodage Un-Chaud) : Technique d’encodage consistant à créer une colonne binaire par catégorie unique d’une variable nominale pour éviter d’induire une relation d’ordre artificielle.
- Optimisation Bayésienne : Méthode probabiliste d’optimisation d’hyperparamètres qui construit un modèle de substitution pour prédire la performance et cibler les meilleures configurations à tester.
- OSEMN : Framework alternatif à CRISP-DM découpant le cycle de vie de la donnée en cinq grandes étapes : Obtain (Obtenir), Scrub (Nettoyer), Explore (Explorer), Model (Modéliser), iNterpret (Interpréter).
- Outlier (Valeur Aberrante) : Point de donnée isolé qui s’écarte de manière significative du reste de la distribution globale, souvent identifié par la règle des écarts interquartiles (IQR) (situé à plus de 1,5 fois l’IQR en dessous du premier quartile ou au-dessus du troisième quartile).
- Overfitting (Surajustement) : Phénomène où un modèle apprend le bruit et les spécificités des données d’entraînement au détriment de sa capacité à généraliser sur de nouvelles données.
P
- Pandas (DataFrame & Series) : Bibliothèque Python incontournable pour l’analyse et la manipulation de données structurées sous forme de séries temporelles ou de tableaux (DataFrames).
- PCA (Analyse en Composantes Principales) : Méthode mathématique de réduction de dimensionnalité consistant à projeter les données sur de nouveaux axes orthogonaux maximisant la variance conservée.
- Predictive Power Score (PPS) : Score asymétrique allant de 0 à 1 qui utilise des arbres de décision pour mesurer le pouvoir prédictif d’une variable sur une autre, gérant ainsi les relations non-linéaires.
- Précision : Métrique de classification mesurant la capacité d’un modèle à ne pas générer de fausses alertes (proportion de Vrais Positifs parmi les prédictions positives).
- Pruning (Élagage) : Mécanisme d’optimisation consistant à interrompre un essai d’entraînement si ses performances intermédiaires sont inférieures au record déjà établi.
- Pyramide de Minto : Cadre structuré de communication professionnelle consistant à présenter d’abord la conclusion principale, puis à la justifier par des arguments hiérarchisés.
R
- R² (Coefficient de Détermination) : Indicateur statistique mesurant la proportion de la variance de la variable cible expliquée par un modèle de régression (compris entre -\infty et 1).
- RAG (Retrieval-Augmented Generation) : Architecture connectant un grand modèle de langage (LLM) à une base de connaissances externe pour enrichir ses prompts et limiter les hallucinations.
- RandomizedSearchCV (Recherche Aléatoire) : Méthode d’optimisation d’hyperparamètres échantillonnant de manière aléatoire un nombre fixe de combinaisons au sein d’une distribution de paramètres.
- Rappel (Recall) : Métrique de classification mesurant la capacité d’un modèle à détecter tous les cas réels (proportion de Vrais Positifs détectés sur le total de cas positifs réels).
- Regex (Expressions Régulières) : Suite de caractères spéciaux formant un motif de recherche pour valider, chercher ou remplacer du texte complexe.
- Régularisation : Technique mathématique (L1/Lasso, L2/Ridge) qui applique une pénalité à la complexité des coefficients d’un modèle pour contrer le surajustement.
- ROI (Return on Investment / Retour sur Investissement) : Indicateur évaluant les gains financiers générés par un projet par rapport aux coûts engagés pour son développement et son exploitation.
S
- SCQA (Situation, Complication, Question, Answer) : Structure narrative permettant d’introduire un problème métier complexe de façon claire et percutante pour capter l’attention.
- Série Temporelle : Suite de valeurs numériques observées et enregistrées à intervalles de temps réguliers ou successifs.
- Split-Apply-Combine : Stratégie d’agrégation de données consistant à diviser un dataset en groupes (Split), à appliquer une fonction sur chaque groupe (Apply), puis à fusionner les résultats (Combine).
- SQL (Structured Query Language) : Langage standardisé universel utilisé pour communiquer avec et interroger les bases de données relationnelles.
T
- Target Leakage (Fuite de la Cible) : Biais méthodologique critique où des informations qui ne seront pas disponibles au moment de l’inférence sont incluses par erreur dans l’entraînement du modèle.
- Transformation Monotone : Opération mathématique qui préserve strictement l’ordre relatif des valeurs d’origine tout en modifiant leur échelle absolue (ex: transformation logarithmique).
- Trim (ou Strip) : Fonction de manipulation textuelle supprimant les espaces blancs et caractères invisibles situés au début et à la fin d’une chaîne de caractères.
U
- Underfitting (Sous-ajustement) : Situation où un modèle trop simple est incapable de capturer la structure et les motifs fondamentaux présents dans les données d’entraînement.
V
- Validation Croisée (Cross-Validation) : Méthode robuste de validation consistant à découper les données en plusieurs plis (folds) et à entraîner/tester le modèle à plusieurs reprises pour obtenir une évaluation fiable de ses performances.
- Variable de confusion : Variable externe non prise en compte dans l’analyse qui influence simultanément les variables explicatives et cibles, créant une fausse illusion de causalité directe.
- Variance : Mesure statistique quantifiant la dispersion des points de données par rapport à leur moyenne (moyenne des carrés des écarts).
X
- XAI (Explainable AI / IA Explicable) : Ensemble de techniques (ex: SHAP, LIME) permettant de justifier et d’interpréter les prédictions générées par des modèles complexes (boîtes noires).