📖 Glossaire

Ce document rassemble tous les termes techniques abordés dans le cours, classés par ordre alphabétique.


A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | X


A

  • Accuracy (Exactitude) : Métrique de classification mesurant la proportion de prédictions correctes (positives et négatives) sur le nombre total d’observations.
  • API (Interface de Programmation d’Application) : Passerelle logicielle permettant à deux applications de communiquer entre elles, généralement via l’échange de fichiers JSON.
  • Apprenant faible (Weak Learner) : Un modèle simple (souvent un arbre de décision très court) qui est juste un peu meilleur que le hasard, mais qui devient puissant une fois combiné à d’autres au sein d’une méthode d’ensemble.
  • Apprentissage Non Supervisé : Approche algorithmique utilisée avec des données non étiquetées, visant à découvrir des structures sous-jacentes par similarité (ex: clustering, réduction de dimensionnalité).
  • Apprentissage Supervisé : Approche algorithmique exploitant des données étiquetées pour lesquelles la réponse cible est connue, idéale pour les tâches de prédiction (régression et classification).

B

  • Bagging (Bootstrap Aggregating) : Méthode d’ensemble consistant à entraîner plusieurs modèles en parallèle sur des échantillons de données différents (obtenus par tirage avec remplacement) et à combiner leurs prédictions (ex: Random Forest).
  • Batchnorm : Technique utilisée dans les réseaux de neurones pour normaliser les entrées de chaque couche afin de stabiliser et d’accélérer l’apprentissage.
  • Boosting : Technique d’ensemble séquentielle où chaque nouveau modèle est entraîné en accordant plus de poids aux observations mal prédites par les modèles précédents (ex: XGBoost, AdaBoost).
  • Boxplot (Boîte à moustaches) : Représentation graphique synthétisant la distribution d’une variable continue à l’aide de ses quartiles, de sa médiane et de ses valeurs aberrantes.

C

  • Callback : Fonction qui est automatiquement appelée lorsqu’un événement précis se produit dans une application interactive (ex: l’utilisateur modifie un curseur, la fonction recalcule le graphique).
  • Carte Choroplèthe : Carte thématique où les régions géographiques sont colorées ou ombrées proportionnellement à la valeur d’une variable statistique (ex: taux de chômage par région).
  • Centroïde : Point central d’un cluster, correspondant à la position moyenne (barycentre) de tous les points de données qui lui sont assignés.
  • Clustering (Partitionnement) : Métode d’apprentissage non supervisé consistant à regrouper des points de données similaires au sein de sous-groupes homogènes (clusters).
  • Concept Drift : Modification de la relation fondamentale entre les variables d’entrée et la variable cible au fil du temps (la cible change de définition réelle).
  • Corrélation de Pearson : Mesure statistique normalisée (allant de -1 à 1) évaluant exclusivement l’existence et la force d’une dépendance linéaire exacte entre deux variables.
  • Covariance : Indicateur statistique évaluant la direction de la relation linéaire entre deux variables (positive si elles évoluent ensemble, négative si elles évoluent en sens opposé).
  • CRISP-DM (Cross-Industry Standard Process for Data Mining) : Modèle de processus standardisé et itératif décrivant les étapes indispensables pour mener à bien un projet de Data Science (de la compréhension métier au déploiement).
  • Cython : Langage de programmation qui combine la syntaxe de Python avec la performance et le typage statique du C, massivement utilisé sous le capot de Pandas pour optimiser les performances.

D

  • Dashboard : Interface utilisateur interactive (souvent web) regroupant une vue consolidée de graphiques et de métriques pour faciliter la prise de décision.
  • Data Drift : Modification au fil du temps de la distribution statistique des variables d’entrée d’un modèle par rapport à son ensemble de données d’entraînement.
  • Data Translator : Rôle hybride faisant le pont entre les équipes techniques (Data Scientists) et les parties prenantes métier pour s’assurer que les modèles répondent à des objectifs financiers et opérationnels concrets.
  • Data Wrangling (Préparation des Données) : Processus itératif de nettoyage, structuration et enrichissement des données brutes dans un format adapté à l’analyse et à la modélisation.
  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise) : Algorithme de clustering basé sur la densité, capable d’identifier des groupes de formes arbitraires et d’exclure automatiquement les points considérés comme du bruit.
  • Déséquilibre de classe (Class Imbalance) : Situation où une ou plusieurs catégories sont largement sous-représentées par rapport aux autres dans un jeu de données de classification.
  • Docker : Outil de conteneurisation permettant d’encapsuler une application et ses dépendances dans un environnement isolé, garantissant son immuabilité et sa portabilité.
  • Données Tabulaires : Données structurées organisées sous forme de tableau (lignes et colonnes hétérogènes), constituant la majorité des bases de données d’entreprise.

E

  • Écart-type : Mesure de la dispersion des données autour de leur moyenne, calculée comme la racine carrée de la variance (exprimée dans la même unité que les données d’origine).
  • EU AI Act : Cadre réglementaire européen visant à classifier et encadrer les risques liés aux systèmes d’intelligence artificielle.
  • Executive Summary (Synthèse Exécutive) : Section introductive d’un rapport synthétisant l’intégralité du problème, des insights découverts et des recommandations pour les décideurs.

F

  • F1-Score : Métrique de classification calculée comme la moyenne harmonique de la précision et du rappel, particulièrement utile pour évaluer les modèles sur des classes déséquilibrées.
  • Feature Engineering (Ingénierie des Caractéristiques) : Processus de transformation des données brutes en variables explicatives (features) pertinentes afin d’améliorer la performance et l’interprétabilité des modèles de Machine Learning.
  • Feature Selection (Sélection de caractéristiques) : Technique consistant à sélectionner un sous-ensemble de variables d’entrée les plus pertinentes pour éliminer le bruit et réduire la complexité du modèle.
  • Fléau de la dimensionnalité : Phénomène par lequel l’augmentation exponentielle de l’espace des caractéristiques dégrade les performances des algorithmes et nécessite exponentiellement plus de données d’entraînement.
  • Fonction de Hachage : Algorithme mathématique transformant une entrée de taille variable en une empreinte de taille fixe (caractères alphanumériques), de manière irréversible.

G

  • Généralisation : Capacité d’un modèle de Machine Learning à produire des prédictions précises sur de nouvelles données jamais observées durant la phase d’entraînement.
  • GeoPandas : Extension de Pandas facilitant le traitement et l’analyse de données géospatiales en y intégrant des types géométriques (polygones, lignes, points).
  • GridSearchCV (Recherche par Grille) : Méthode d’optimisation explorant de manière exhaustive et systématique toutes les combinaisons possibles d’une grille d’hyperparamètres prédéfinie.
  • Groupes non-observés : Catégories définies dans les métadonnées d’une variable catégorielle mais pour lesquelles aucune observation n’est présente dans l’échantillon analysé.

H

  • Hallucination : Phénomène par lequel une IA générative produit une réponse factuellement fausse ou inventée tout en la présentant avec une forte assurance.
  • Heatmap (Carte de Chaleur) : Représentation graphique bidimensionnelle où les valeurs d’une matrice sont représentées par des nuances de couleurs.
  • Hyperparamètres : Paramètres de configuration d’un algorithme définis par l’utilisateur avant le processus d’entraînement (ex: nombre d’arbres, profondeur maximale).

I

  • Imputation : Méthode statistique consistant à remplacer les valeurs manquantes d’un jeu de données par des valeurs estimées (moyenne, médiane, k-NN, etc.) pour éviter la perte d’informations.
  • Incertitude Épistémique : Part d’incertitude liée au manque de connaissances ou de données, pouvant être réduite en collectant plus d’observations ou en affinant le modèle.
  • Inférence : Étape durant laquelle un modèle de Machine Learning entraîné et déployé est sollicité pour générer des prédictions sur de nouvelles données d’entrée.
  • Intervalle de Confiance : Plage de valeurs estimée à partir d’un échantillon, contenant le paramètre réel recherché avec un niveau de probabilité donné (ex: 95%).

J

  • JSON (JavaScript Object Notation) : Format léger, textuel et structuré d’échange de données semi-structurées, largement utilisé pour les communications avec les APIs.

K

  • K-Means (K-Moyennes) : Algorithme populaire d’apprentissage non supervisé (clustering) qui partitionne les données en k groupes, où chaque point appartient au groupe dont le centroïde est le plus proche.

L

  • Label Encoding (Encodage par Étiquettes) : Technique d’encodage transformant chaque catégorie textuelle unique en un entier distinct (ex: 0, 1, 2), à réserver principalement aux variables ordinales.

M

  • MAE (Mean Absolute Error / Erreur Absolue Moyenne) : Métrique d’évaluation pour la régression mesurant la moyenne des valeurs absolues des écarts entre les prédictions et les valeurs réelles. Elle est très robuste aux valeurs aberrantes.
  • Matrice de Confusion : Tableau comparant les prédictions d’un modèle de classification avec les classes réelles, détaillant les Vrais Positifs, Faux Positifs, Vrais Négatifs et Faux Négatifs.
  • Matrice de Coûts : Modèle d’évaluation financière ou métier attribuant une pénalité financière ou opérationnelle distincte à chaque type d’erreur de classification (Faux Positif vs Faux Négatif).
  • Médiane (Median) : Valeur centrale qui sépare un échantillon de données triées en deux parties égales (50% au-dessus et 50% en dessous), très robuste aux valeurs extrêmes.
  • MLOps (Machine Learning Operations) : Pratiques et outils visant à standardiser et automatiser le cycle de vie des modèles (entraînement, test, déploiement, monitoring).
  • Moyenne (Mean) : Mesure de tendance centrale correspondant à la somme des valeurs divisée par leur nombre total. Elle est extrêmement sensible aux valeurs aberrantes.
  • MVP (Minimum Viable Product) : Version minimaliste et fonctionnelle d’un produit conçue pour être rapidement testée par les utilisateurs afin de collecter des retours d’expérience.

N

  • Norme ISO 8601 : Standard international pour la représentation des dates et heures sous format textuel non ambigu (AAAA-MM-JJ).
  • NumPy : Bibliothèque Python fondamentale pour le calcul scientifique, fournissant des objets de tableaux multidimensionnels (arrays) performants et des fonctions mathématiques vectorisées.

O

  • One-Hot Encoding (Encodage Un-Chaud) : Technique d’encodage consistant à créer une colonne binaire par catégorie unique d’une variable nominale pour éviter d’induire une relation d’ordre artificielle.
  • Optimisation Bayésienne : Méthode probabiliste d’optimisation d’hyperparamètres qui construit un modèle de substitution pour prédire la performance et cibler les meilleures configurations à tester.
  • OSEMN : Framework alternatif à CRISP-DM découpant le cycle de vie de la donnée en cinq grandes étapes : Obtain (Obtenir), Scrub (Nettoyer), Explore (Explorer), Model (Modéliser), iNterpret (Interpréter).
  • Outlier (Valeur Aberrante) : Point de donnée isolé qui s’écarte de manière significative du reste de la distribution globale, souvent identifié par la règle des écarts interquartiles (IQR) (situé à plus de 1,5 fois l’IQR en dessous du premier quartile ou au-dessus du troisième quartile).
  • Overfitting (Surajustement) : Phénomène où un modèle apprend le bruit et les spécificités des données d’entraînement au détriment de sa capacité à généraliser sur de nouvelles données.

P

  • Pandas (DataFrame & Series) : Bibliothèque Python incontournable pour l’analyse et la manipulation de données structurées sous forme de séries temporelles ou de tableaux (DataFrames).
  • PCA (Analyse en Composantes Principales) : Méthode mathématique de réduction de dimensionnalité consistant à projeter les données sur de nouveaux axes orthogonaux maximisant la variance conservée.
  • Predictive Power Score (PPS) : Score asymétrique allant de 0 à 1 qui utilise des arbres de décision pour mesurer le pouvoir prédictif d’une variable sur une autre, gérant ainsi les relations non-linéaires.
  • Précision : Métrique de classification mesurant la capacité d’un modèle à ne pas générer de fausses alertes (proportion de Vrais Positifs parmi les prédictions positives).
  • Pruning (Élagage) : Mécanisme d’optimisation consistant à interrompre un essai d’entraînement si ses performances intermédiaires sont inférieures au record déjà établi.
  • Pyramide de Minto : Cadre structuré de communication professionnelle consistant à présenter d’abord la conclusion principale, puis à la justifier par des arguments hiérarchisés.

R

  • R² (Coefficient de Détermination) : Indicateur statistique mesurant la proportion de la variance de la variable cible expliquée par un modèle de régression (compris entre -\infty et 1).
  • RAG (Retrieval-Augmented Generation) : Architecture connectant un grand modèle de langage (LLM) à une base de connaissances externe pour enrichir ses prompts et limiter les hallucinations.
  • RandomizedSearchCV (Recherche Aléatoire) : Méthode d’optimisation d’hyperparamètres échantillonnant de manière aléatoire un nombre fixe de combinaisons au sein d’une distribution de paramètres.
  • Rappel (Recall) : Métrique de classification mesurant la capacité d’un modèle à détecter tous les cas réels (proportion de Vrais Positifs détectés sur le total de cas positifs réels).
  • Regex (Expressions Régulières) : Suite de caractères spéciaux formant un motif de recherche pour valider, chercher ou remplacer du texte complexe.
  • Régularisation : Technique mathématique (L1/Lasso, L2/Ridge) qui applique une pénalité à la complexité des coefficients d’un modèle pour contrer le surajustement.
  • ROI (Return on Investment / Retour sur Investissement) : Indicateur évaluant les gains financiers générés par un projet par rapport aux coûts engagés pour son développement et son exploitation.

S

  • SCQA (Situation, Complication, Question, Answer) : Structure narrative permettant d’introduire un problème métier complexe de façon claire et percutante pour capter l’attention.
  • Série Temporelle : Suite de valeurs numériques observées et enregistrées à intervalles de temps réguliers ou successifs.
  • Split-Apply-Combine : Stratégie d’agrégation de données consistant à diviser un dataset en groupes (Split), à appliquer une fonction sur chaque groupe (Apply), puis à fusionner les résultats (Combine).
  • SQL (Structured Query Language) : Langage standardisé universel utilisé pour communiquer avec et interroger les bases de données relationnelles.

T

  • Target Leakage (Fuite de la Cible) : Biais méthodologique critique où des informations qui ne seront pas disponibles au moment de l’inférence sont incluses par erreur dans l’entraînement du modèle.
  • Transformation Monotone : Opération mathématique qui préserve strictement l’ordre relatif des valeurs d’origine tout en modifiant leur échelle absolue (ex: transformation logarithmique).
  • Trim (ou Strip) : Fonction de manipulation textuelle supprimant les espaces blancs et caractères invisibles situés au début et à la fin d’une chaîne de caractères.

U

  • Underfitting (Sous-ajustement) : Situation où un modèle trop simple est incapable de capturer la structure et les motifs fondamentaux présents dans les données d’entraînement.

V

  • Validation Croisée (Cross-Validation) : Méthode robuste de validation consistant à découper les données en plusieurs plis (folds) et à entraîner/tester le modèle à plusieurs reprises pour obtenir une évaluation fiable de ses performances.
  • Variable de confusion : Variable externe non prise en compte dans l’analyse qui influence simultanément les variables explicatives et cibles, créant une fausse illusion de causalité directe.
  • Variance : Mesure statistique quantifiant la dispersion des points de données par rapport à leur moyenne (moyenne des carrés des écarts).

X

  • XAI (Explainable AI / IA Explicable) : Ensemble de techniques (ex: SHAP, LIME) permettant de justifier et d’interpréter les prédictions générées par des modèles complexes (boîtes noires).