📖 Glossaire

Ce document rassemble tous les termes techniques abordés dans le cours, classés par ordre alphabétique.

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | X

A

Accuracy (Exactitude) : Métrique de classification mesurant la proportion de prédictions correctes (positives et négatives) sur le nombre total d’observations.
API (Interface de Programmation d’Application) : Passerelle logicielle permettant à deux applications de communiquer entre elles, généralement via l’échange de fichiers JSON.
Apprenant faible (Weak Learner) : Un modèle simple (souvent un arbre de décision très court) qui est juste un peu meilleur que le hasard, mais qui devient puissant une fois combiné à d’autres au sein d’une méthode d’ensemble.
Apprentissage Non Supervisé : Approche algorithmique utilisée avec des données non étiquetées, visant à découvrir des structures sous-jacentes par similarité (ex: clustering, réduction de dimensionnalité).
Apprentissage Supervisé : Approche algorithmique exploitant des données étiquetées pour lesquelles la réponse cible est connue, idéale pour les tâches de prédiction (régression et classification).

B

Bagging (Bootstrap Aggregating) : Méthode d’ensemble consistant à entraîner plusieurs modèles en parallèle sur des échantillons de données différents (obtenus par tirage avec remplacement) et à combiner leurs prédictions (ex: Random Forest).
Batchnorm : Technique utilisée dans les réseaux de neurones pour normaliser les entrées de chaque couche afin de stabiliser et d’accélérer l’apprentissage.
Boosting : Technique d’ensemble séquentielle où chaque nouveau modèle est entraîné en accordant plus de poids aux observations mal prédites par les modèles précédents (ex: XGBoost, AdaBoost).
Boxplot (Boîte à moustaches) : Représentation graphique synthétisant la distribution d’une variable continue à l’aide de ses quartiles, de sa médiane et de ses valeurs aberrantes.

C

Callback : Fonction qui est automatiquement appelée lorsqu’un événement précis se produit dans une application interactive (ex: l’utilisateur modifie un curseur, la fonction recalcule le graphique).
Carte Choroplèthe : Carte thématique où les régions géographiques sont colorées ou ombrées proportionnellement à la valeur d’une variable statistique (ex: taux de chômage par région).
Centroïde : Point central d’un cluster, correspondant à la position moyenne (barycentre) de tous les points de données qui lui sont assignés.
Clustering (Partitionnement) : Métode d’apprentissage non supervisé consistant à regrouper des points de données similaires au sein de sous-groupes homogènes (clusters).
Concept Drift : Modification de la relation fondamentale entre les variables d’entrée et la variable cible au fil du temps (la cible change de définition réelle).
Corrélation de Pearson : Mesure statistique normalisée (allant de -1 à 1) évaluant exclusivement l’existence et la force d’une dépendance linéaire exacte entre deux variables.
Covariance : Indicateur statistique évaluant la direction de la relation linéaire entre deux variables (positive si elles évoluent ensemble, négative si elles évoluent en sens opposé).
CRISP-DM (Cross-Industry Standard Process for Data Mining) : Modèle de processus standardisé et itératif décrivant les étapes indispensables pour mener à bien un projet de Data Science (de la compréhension métier au déploiement).
Cython : Langage de programmation qui combine la syntaxe de Python avec la performance et le typage statique du C, massivement utilisé sous le capot de Pandas pour optimiser les performances.

D

Dashboard : Interface utilisateur interactive (souvent web) regroupant une vue consolidée de graphiques et de métriques pour faciliter la prise de décision.
Data Drift : Modification au fil du temps de la distribution statistique des variables d’entrée d’un modèle par rapport à son ensemble de données d’entraînement.
Data Translator : Rôle hybride faisant le pont entre les équipes techniques (Data Scientists) et les parties prenantes métier pour s’assurer que les modèles répondent à des objectifs financiers et opérationnels concrets.
Data Wrangling (Préparation des Données) : Processus itératif de nettoyage, structuration et enrichissement des données brutes dans un format adapté à l’analyse et à la modélisation.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) : Algorithme de clustering basé sur la densité, capable d’identifier des groupes de formes arbitraires et d’exclure automatiquement les points considérés comme du bruit.
Déséquilibre de classe (Class Imbalance) : Situation où une ou plusieurs catégories sont largement sous-représentées par rapport aux autres dans un jeu de données de classification.
Docker : Outil de conteneurisation permettant d’encapsuler une application et ses dépendances dans un environnement isolé, garantissant son immuabilité et sa portabilité.
Données Tabulaires : Données structurées organisées sous forme de tableau (lignes et colonnes hétérogènes), constituant la majorité des bases de données d’entreprise.

E

Écart-type : Mesure de la dispersion des données autour de leur moyenne, calculée comme la racine carrée de la variance (exprimée dans la même unité que les données d’origine).
EU AI Act : Cadre réglementaire européen visant à classifier et encadrer les risques liés aux systèmes d’intelligence artificielle.
Executive Summary (Synthèse Exécutive) : Section introductive d’un rapport synthétisant l’intégralité du problème, des insights découverts et des recommandations pour les décideurs.

F

F1-Score : Métrique de classification calculée comme la moyenne harmonique de la précision et du rappel, particulièrement utile pour évaluer les modèles sur des classes déséquilibrées.
Feature Engineering (Ingénierie des Caractéristiques) : Processus de transformation des données brutes en variables explicatives (features) pertinentes afin d’améliorer la performance et l’interprétabilité des modèles de Machine Learning.
Feature Selection (Sélection de caractéristiques) : Technique consistant à sélectionner un sous-ensemble de variables d’entrée les plus pertinentes pour éliminer le bruit et réduire la complexité du modèle.
Fléau de la dimensionnalité : Phénomène par lequel l’augmentation exponentielle de l’espace des caractéristiques dégrade les performances des algorithmes et nécessite exponentiellement plus de données d’entraînement.
Fonction de Hachage : Algorithme mathématique transformant une entrée de taille variable en une empreinte de taille fixe (caractères alphanumériques), de manière irréversible.

G

Généralisation : Capacité d’un modèle de Machine Learning à produire des prédictions précises sur de nouvelles données jamais observées durant la phase d’entraînement.
GeoPandas : Extension de Pandas facilitant le traitement et l’analyse de données géospatiales en y intégrant des types géométriques (polygones, lignes, points).
GridSearchCV (Recherche par Grille) : Méthode d’optimisation explorant de manière exhaustive et systématique toutes les combinaisons possibles d’une grille d’hyperparamètres prédéfinie.
Groupes non-observés : Catégories définies dans les métadonnées d’une variable catégorielle mais pour lesquelles aucune observation n’est présente dans l’échantillon analysé.

H

Hallucination : Phénomène par lequel une IA générative produit une réponse factuellement fausse ou inventée tout en la présentant avec une forte assurance.
Heatmap (Carte de Chaleur) : Représentation graphique bidimensionnelle où les valeurs d’une matrice sont représentées par des nuances de couleurs.
Hyperparamètres : Paramètres de configuration d’un algorithme définis par l’utilisateur avant le processus d’entraînement (ex: nombre d’arbres, profondeur maximale).

I

Imputation : Méthode statistique consistant à remplacer les valeurs manquantes d’un jeu de données par des valeurs estimées (moyenne, médiane, k-NN, etc.) pour éviter la perte d’informations.
Incertitude Épistémique : Part d’incertitude liée au manque de connaissances ou de données, pouvant être réduite en collectant plus d’observations ou en affinant le modèle.
Inférence : Étape durant laquelle un modèle de Machine Learning entraîné et déployé est sollicité pour générer des prédictions sur de nouvelles données d’entrée.
Intervalle de Confiance : Plage de valeurs estimée à partir d’un échantillon, contenant le paramètre réel recherché avec un niveau de probabilité donné (ex: 95%).

J

JSON (JavaScript Object Notation) : Format léger, textuel et structuré d’échange de données semi-structurées, largement utilisé pour les communications avec les APIs.

K

K-Means (K-Moyennes) : Algorithme populaire d’apprentissage non supervisé (clustering) qui partitionne les données en k groupes, où chaque point appartient au groupe dont le centroïde est le plus proche.

L

Label Encoding (Encodage par Étiquettes) : Technique d’encodage transformant chaque catégorie textuelle unique en un entier distinct (ex: 0, 1, 2), à réserver principalement aux variables ordinales.

M

MAE (Mean Absolute Error / Erreur Absolue Moyenne) : Métrique d’évaluation pour la régression mesurant la moyenne des valeurs absolues des écarts entre les prédictions et les valeurs réelles. Elle est très robuste aux valeurs aberrantes.
Matrice de Confusion : Tableau comparant les prédictions d’un modèle de classification avec les classes réelles, détaillant les Vrais Positifs, Faux Positifs, Vrais Négatifs et Faux Négatifs.
Matrice de Coûts : Modèle d’évaluation financière ou métier attribuant une pénalité financière ou opérationnelle distincte à chaque type d’erreur de classification (Faux Positif vs Faux Négatif).
Médiane (Median) : Valeur centrale qui sépare un échantillon de données triées en deux parties égales (50% au-dessus et 50% en dessous), très robuste aux valeurs extrêmes.
MLOps (Machine Learning Operations) : Pratiques et outils visant à standardiser et automatiser le cycle de vie des modèles (entraînement, test, déploiement, monitoring).
Moyenne (Mean) : Mesure de tendance centrale correspondant à la somme des valeurs divisée par leur nombre total. Elle est extrêmement sensible aux valeurs aberrantes.
MVP (Minimum Viable Product) : Version minimaliste et fonctionnelle d’un produit conçue pour être rapidement testée par les utilisateurs afin de collecter des retours d’expérience.

N

Norme ISO 8601 : Standard international pour la représentation des dates et heures sous format textuel non ambigu (AAAA-MM-JJ).
NumPy : Bibliothèque Python fondamentale pour le calcul scientifique, fournissant des objets de tableaux multidimensionnels (arrays) performants et des fonctions mathématiques vectorisées.

O

One-Hot Encoding (Encodage Un-Chaud) : Technique d’encodage consistant à créer une colonne binaire par catégorie unique d’une variable nominale pour éviter d’induire une relation d’ordre artificielle.
Optimisation Bayésienne : Méthode probabiliste d’optimisation d’hyperparamètres qui construit un modèle de substitution pour prédire la performance et cibler les meilleures configurations à tester.
OSEMN : Framework alternatif à CRISP-DM découpant le cycle de vie de la donnée en cinq grandes étapes : Obtain (Obtenir), Scrub (Nettoyer), Explore (Explorer), Model (Modéliser), iNterpret (Interpréter).
Outlier (Valeur Aberrante) : Point de donnée isolé qui s’écarte de manière significative du reste de la distribution globale, souvent identifié par la règle des écarts interquartiles (IQR) (situé à plus de 1,5 fois l’IQR en dessous du premier quartile ou au-dessus du troisième quartile).
Overfitting (Surajustement) : Phénomène où un modèle apprend le bruit et les spécificités des données d’entraînement au détriment de sa capacité à généraliser sur de nouvelles données.

P

Pandas (DataFrame & Series) : Bibliothèque Python incontournable pour l’analyse et la manipulation de données structurées sous forme de séries temporelles ou de tableaux (DataFrames).
PCA (Analyse en Composantes Principales) : Méthode mathématique de réduction de dimensionnalité consistant à projeter les données sur de nouveaux axes orthogonaux maximisant la variance conservée.
Predictive Power Score (PPS) : Score asymétrique allant de 0 à 1 qui utilise des arbres de décision pour mesurer le pouvoir prédictif d’une variable sur une autre, gérant ainsi les relations non-linéaires.
Précision : Métrique de classification mesurant la capacité d’un modèle à ne pas générer de fausses alertes (proportion de Vrais Positifs parmi les prédictions positives).
Pruning (Élagage) : Mécanisme d’optimisation consistant à interrompre un essai d’entraînement si ses performances intermédiaires sont inférieures au record déjà établi.
Pyramide de Minto : Cadre structuré de communication professionnelle consistant à présenter d’abord la conclusion principale, puis à la justifier par des arguments hiérarchisés.

R

R² (Coefficient de Détermination) : Indicateur statistique mesurant la proportion de la variance de la variable cible expliquée par un modèle de régression (compris entre -\infty et 1).
RAG (Retrieval-Augmented Generation) : Architecture connectant un grand modèle de langage (LLM) à une base de connaissances externe pour enrichir ses prompts et limiter les hallucinations.
RandomizedSearchCV (Recherche Aléatoire) : Méthode d’optimisation d’hyperparamètres échantillonnant de manière aléatoire un nombre fixe de combinaisons au sein d’une distribution de paramètres.
Rappel (Recall) : Métrique de classification mesurant la capacité d’un modèle à détecter tous les cas réels (proportion de Vrais Positifs détectés sur le total de cas positifs réels).
Regex (Expressions Régulières) : Suite de caractères spéciaux formant un motif de recherche pour valider, chercher ou remplacer du texte complexe.
Régularisation : Technique mathématique (L1/Lasso, L2/Ridge) qui applique une pénalité à la complexité des coefficients d’un modèle pour contrer le surajustement.
ROI (Return on Investment / Retour sur Investissement) : Indicateur évaluant les gains financiers générés par un projet par rapport aux coûts engagés pour son développement et son exploitation.

S

SCQA (Situation, Complication, Question, Answer) : Structure narrative permettant d’introduire un problème métier complexe de façon claire et percutante pour capter l’attention.
Série Temporelle : Suite de valeurs numériques observées et enregistrées à intervalles de temps réguliers ou successifs.
Split-Apply-Combine : Stratégie d’agrégation de données consistant à diviser un dataset en groupes (Split), à appliquer une fonction sur chaque groupe (Apply), puis à fusionner les résultats (Combine).
SQL (Structured Query Language) : Langage standardisé universel utilisé pour communiquer avec et interroger les bases de données relationnelles.

T

Target Leakage (Fuite de la Cible) : Biais méthodologique critique où des informations qui ne seront pas disponibles au moment de l’inférence sont incluses par erreur dans l’entraînement du modèle.
Transformation Monotone : Opération mathématique qui préserve strictement l’ordre relatif des valeurs d’origine tout en modifiant leur échelle absolue (ex: transformation logarithmique).
Trim (ou Strip) : Fonction de manipulation textuelle supprimant les espaces blancs et caractères invisibles situés au début et à la fin d’une chaîne de caractères.

U

Underfitting (Sous-ajustement) : Situation où un modèle trop simple est incapable de capturer la structure et les motifs fondamentaux présents dans les données d’entraînement.

V

Validation Croisée (Cross-Validation) : Méthode robuste de validation consistant à découper les données en plusieurs plis (folds) et à entraîner/tester le modèle à plusieurs reprises pour obtenir une évaluation fiable de ses performances.
Variable de confusion : Variable externe non prise en compte dans l’analyse qui influence simultanément les variables explicatives et cibles, créant une fausse illusion de causalité directe.
Variance : Mesure statistique quantifiant la dispersion des points de données par rapport à leur moyenne (moyenne des carrés des écarts).

X

XAI (Explainable AI / IA Explicable) : Ensemble de techniques (ex: SHAP, LIME) permettant de justifier et d’interpréter les prédictions générées par des modèles complexes (boîtes noires).

# 📖 Glossaire {.unnumbered} Ce document rassemble tous les termes techniques abordés dans le cours, classés par ordre alphabétique. --- ### [A](#a) | [B](#b) | [C](#c) | [D](#d) | [E](#e) | [F](#f) | [G](#g) | [H](#h) | [I](#i) | [J](#j) | [K](#k) | [L](#l) | [M](#m) | [N](#n) | [O](#o) | [P](#p) | [R](#r) | [S](#s) | [T](#t) | [U](#u) | [V](#v) | [X](#x) --- ## A {#a} * **Accuracy (Exactitude) :** Métrique de classification mesurant la proportion de prédictions correctes (positives et négatives) sur le nombre total d'observations. * **API (Interface de Programmation d'Application) :** Passerelle logicielle permettant à deux applications de communiquer entre elles, généralement via l'échange de fichiers JSON. * **Apprenant faible (Weak Learner) :** Un modèle simple (souvent un arbre de décision très court) qui est juste un peu meilleur que le hasard, mais qui devient puissant une fois combiné à d'autres au sein d'une méthode d'ensemble. * **Apprentissage Non Supervisé :** Approche algorithmique utilisée avec des données non étiquetées, visant à découvrir des structures sous-jacentes par similarité (ex: clustering, réduction de dimensionnalité). * **Apprentissage Supervisé :** Approche algorithmique exploitant des données étiquetées pour lesquelles la réponse cible est connue, idéale pour les tâches de prédiction (régression et classification). ## B {#b} * **Bagging (Bootstrap Aggregating) :** Méthode d'ensemble consistant à entraîner plusieurs modèles en parallèle sur des échantillons de données différents (obtenus par tirage avec remplacement) et à combiner leurs prédictions (ex: Random Forest). * **Batchnorm :** Technique utilisée dans les réseaux de neurones pour normaliser les entrées de chaque couche afin de stabiliser et d'accélérer l'apprentissage. * **Boosting :** Technique d'ensemble séquentielle où chaque nouveau modèle est entraîné en accordant plus de poids aux observations mal prédites par les modèles précédents (ex: XGBoost, AdaBoost). * **Boxplot (Boîte à moustaches) :** Représentation graphique synthétisant la distribution d'une variable continue à l'aide de ses quartiles, de sa médiane et de ses valeurs aberrantes. ## C {#c} * **Callback :** Fonction qui est automatiquement appelée lorsqu'un événement précis se produit dans une application interactive (ex: l'utilisateur modifie un curseur, la fonction recalcule le graphique). * **Carte Choroplèthe :** Carte thématique où les régions géographiques sont colorées ou ombrées proportionnellement à la valeur d'une variable statistique (ex: taux de chômage par région). * **Centroïde :** Point central d'un cluster, correspondant à la position moyenne (barycentre) de tous les points de données qui lui sont assignés. * **Clustering (Partitionnement) :** Métode d'apprentissage non supervisé consistant à regrouper des points de données similaires au sein de sous-groupes homogènes (clusters). * **Concept Drift :** Modification de la relation fondamentale entre les variables d'entrée et la variable cible au fil du temps (la cible change de définition réelle). * **Corrélation de Pearson :** Mesure statistique normalisée (allant de -1 à 1) évaluant exclusivement l'existence et la force d'une dépendance linéaire exacte entre deux variables. * **Covariance :** Indicateur statistique évaluant la direction de la relation linéaire entre deux variables (positive si elles évoluent ensemble, négative si elles évoluent en sens opposé). * **CRISP-DM (Cross-Industry Standard Process for Data Mining) :** Modèle de processus standardisé et itératif décrivant les étapes indispensables pour mener à bien un projet de Data Science (de la compréhension métier au déploiement). * **Cython :** Langage de programmation qui combine la syntaxe de Python avec la performance et le typage statique du C, massivement utilisé sous le capot de Pandas pour optimiser les performances. ## D {#d} * **Dashboard :** Interface utilisateur interactive (souvent web) regroupant une vue consolidée de graphiques et de métriques pour faciliter la prise de décision. * **Data Drift :** Modification au fil du temps de la distribution statistique des variables d'entrée d'un modèle par rapport à son ensemble de données d'entraînement. * **Data Translator :** Rôle hybride faisant le pont entre les équipes techniques (Data Scientists) et les parties prenantes métier pour s'assurer que les modèles répondent à des objectifs financiers et opérationnels concrets. * **Data Wrangling (Préparation des Données) :** Processus itératif de nettoyage, structuration et enrichissement des données brutes dans un format adapté à l'analyse et à la modélisation. * **DBSCAN (Density-Based Spatial Clustering of Applications with Noise) :** Algorithme de clustering basé sur la densité, capable d'identifier des groupes de formes arbitraires et d'exclure automatiquement les points considérés comme du bruit. * **Déséquilibre de classe (Class Imbalance) :** Situation où une ou plusieurs catégories sont largement sous-représentées par rapport aux autres dans un jeu de données de classification. * **Docker :** Outil de conteneurisation permettant d'encapsuler une application et ses dépendances dans un environnement isolé, garantissant son immuabilité et sa portabilité. * **Données Tabulaires :** Données structurées organisées sous forme de tableau (lignes et colonnes hétérogènes), constituant la majorité des bases de données d'entreprise. ## E {#e} * **Écart-type :** Mesure de la dispersion des données autour de leur moyenne, calculée comme la racine carrée de la variance (exprimée dans la même unité que les données d'origine). * **EU AI Act :** Cadre réglementaire européen visant à classifier et encadrer les risques liés aux systèmes d'intelligence artificielle. * **Executive Summary (Synthèse Exécutive) :** Section introductive d'un rapport synthétisant l'intégralité du problème, des insights découverts et des recommandations pour les décideurs. ## F {#f} * **F1-Score :** Métrique de classification calculée comme la moyenne harmonique de la précision et du rappel, particulièrement utile pour évaluer les modèles sur des classes déséquilibrées. * **Feature Engineering (Ingénierie des Caractéristiques) :** Processus de transformation des données brutes en variables explicatives (features) pertinentes afin d'améliorer la performance et l'interprétabilité des modèles de Machine Learning. * **Feature Selection (Sélection de caractéristiques) :** Technique consistant à sélectionner un sous-ensemble de variables d'entrée les plus pertinentes pour éliminer le bruit et réduire la complexité du modèle. * **Fléau de la dimensionnalité :** Phénomène par lequel l'augmentation exponentielle de l'espace des caractéristiques dégrade les performances des algorithmes et nécessite exponentiellement plus de données d'entraînement. * **Fonction de Hachage :** Algorithme mathématique transformant une entrée de taille variable en une empreinte de taille fixe (caractères alphanumériques), de manière irréversible. ## G {#g} * **Généralisation :** Capacité d'un modèle de Machine Learning à produire des prédictions précises sur de nouvelles données jamais observées durant la phase d'entraînement. * **GeoPandas :** Extension de Pandas facilitant le traitement et l'analyse de données géospatiales en y intégrant des types géométriques (polygones, lignes, points). * **GridSearchCV (Recherche par Grille) :** Méthode d'optimisation explorant de manière exhaustive et systématique toutes les combinaisons possibles d'une grille d'hyperparamètres prédéfinie. * **Groupes non-observés :** Catégories définies dans les métadonnées d'une variable catégorielle mais pour lesquelles aucune observation n'est présente dans l'échantillon analysé. ## H {#h} * **Hallucination :** Phénomène par lequel une IA générative produit une réponse factuellement fausse ou inventée tout en la présentant avec une forte assurance. * **Heatmap (Carte de Chaleur) :** Représentation graphique bidimensionnelle où les valeurs d'une matrice sont représentées par des nuances de couleurs. * **Hyperparamètres :** Paramètres de configuration d'un algorithme définis par l'utilisateur avant le processus d'entraînement (ex: nombre d'arbres, profondeur maximale). ## I {#i} * **Imputation :** Méthode statistique consistant à remplacer les valeurs manquantes d'un jeu de données par des valeurs estimées (moyenne, médiane, k-NN, etc.) pour éviter la perte d'informations. * **Incertitude Épistémique :** Part d'incertitude liée au manque de connaissances ou de données, pouvant être réduite en collectant plus d'observations ou en affinant le modèle. * **Inférence :** Étape durant laquelle un modèle de Machine Learning entraîné et déployé est sollicité pour générer des prédictions sur de nouvelles données d'entrée. * **Intervalle de Confiance :** Plage de valeurs estimée à partir d'un échantillon, contenant le paramètre réel recherché avec un niveau de probabilité donné (ex: 95%). ## J {#j} * **JSON (JavaScript Object Notation) :** Format léger, textuel et structuré d'échange de données semi-structurées, largement utilisé pour les communications avec les APIs. ## K {#k} * **K-Means (K-Moyennes) :** Algorithme populaire d'apprentissage non supervisé (clustering) qui partitionne les données en $k$ groupes, où chaque point appartient au groupe dont le centroïde est le plus proche. ## L {#l} * **Label Encoding (Encodage par Étiquettes) :** Technique d'encodage transformant chaque catégorie textuelle unique en un entier distinct (ex: 0, 1, 2), à réserver principalement aux variables ordinales. ## M {#m} * **MAE (Mean Absolute Error / Erreur Absolue Moyenne) :** Métrique d'évaluation pour la régression mesurant la moyenne des valeurs absolues des écarts entre les prédictions et les valeurs réelles. Elle est très robuste aux valeurs aberrantes. * **Matrice de Confusion :** Tableau comparant les prédictions d'un modèle de classification avec les classes réelles, détaillant les Vrais Positifs, Faux Positifs, Vrais Négatifs et Faux Négatifs. * **Matrice de Coûts :** Modèle d'évaluation financière ou métier attribuant une pénalité financière ou opérationnelle distincte à chaque type d'erreur de classification (Faux Positif vs Faux Négatif). * **Médiane (Median) :** Valeur centrale qui sépare un échantillon de données triées en deux parties égales (50% au-dessus et 50% en dessous), très robuste aux valeurs extrêmes. * **MLOps (Machine Learning Operations) :** Pratiques et outils visant à standardiser et automatiser le cycle de vie des modèles (entraînement, test, déploiement, monitoring). * **Moyenne (Mean) :** Mesure de tendance centrale correspondant à la somme des valeurs divisée par leur nombre total. Elle est extrêmement sensible aux valeurs aberrantes. * **MVP (Minimum Viable Product) :** Version minimaliste et fonctionnelle d'un produit conçue pour être rapidement testée par les utilisateurs afin de collecter des retours d'expérience. ## N {#n} * **Norme ISO 8601 :** Standard international pour la représentation des dates et heures sous format textuel non ambigu (AAAA-MM-JJ). * **NumPy :** Bibliothèque Python fondamentale pour le calcul scientifique, fournissant des objets de tableaux multidimensionnels (arrays) performants et des fonctions mathématiques vectorisées. ## O {#o} * **One-Hot Encoding (Encodage Un-Chaud) :** Technique d'encodage consistant à créer une colonne binaire par catégorie unique d'une variable nominale pour éviter d'induire une relation d'ordre artificielle. * **Optimisation Bayésienne :** Méthode probabiliste d'optimisation d'hyperparamètres qui construit un modèle de substitution pour prédire la performance et cibler les meilleures configurations à tester. * **OSEMN :** Framework alternatif à CRISP-DM découpant le cycle de vie de la donnée en cinq grandes étapes : Obtain (Obtenir), Scrub (Nettoyer), Explore (Explorer), Model (Modéliser), iNterpret (Interpréter). * **Outlier (Valeur Aberrante) :** Point de donnée isolé qui s'écarte de manière significative du reste de la distribution globale, souvent identifié par la règle des écarts interquartiles (IQR) (situé à plus de 1,5 fois l'IQR en dessous du premier quartile ou au-dessus du troisième quartile). * **Overfitting (Surajustement) :** Phénomène où un modèle apprend le bruit et les spécificités des données d'entraînement au détriment de sa capacité à généraliser sur de nouvelles données. ## P {#p} * **Pandas (DataFrame & Series) :** Bibliothèque Python incontournable pour l'analyse et la manipulation de données structurées sous forme de séries temporelles ou de tableaux (DataFrames). * **PCA (Analyse en Composantes Principales) :** Méthode mathématique de réduction de dimensionnalité consistant à projeter les données sur de nouveaux axes orthogonaux maximisant la variance conservée. * **Predictive Power Score (PPS) :** Score asymétrique allant de 0 à 1 qui utilise des arbres de décision pour mesurer le pouvoir prédictif d'une variable sur une autre, gérant ainsi les relations non-linéaires. * **Précision :** Métrique de classification mesurant la capacité d'un modèle à ne pas générer de fausses alertes (proportion de Vrais Positifs parmi les prédictions positives). * **Pruning (Élagage) :** Mécanisme d'optimisation consistant à interrompre un essai d'entraînement si ses performances intermédiaires sont inférieures au record déjà établi. * **Pyramide de Minto :** Cadre structuré de communication professionnelle consistant à présenter d'abord la conclusion principale, puis à la justifier par des arguments hiérarchisés. ## R {#r} * **R² (Coefficient de Détermination) :** Indicateur statistique mesurant la proportion de la variance de la variable cible expliquée par un modèle de régression (compris entre $-\infty$ et 1). * **RAG (Retrieval-Augmented Generation) :** Architecture connectant un grand modèle de langage (LLM) à une base de connaissances externe pour enrichir ses prompts et limiter les hallucinations. * **RandomizedSearchCV (Recherche Aléatoire) :** Méthode d'optimisation d'hyperparamètres échantillonnant de manière aléatoire un nombre fixe de combinaisons au sein d'une distribution de paramètres. * **Rappel (Recall) :** Métrique de classification mesurant la capacité d'un modèle à détecter tous les cas réels (proportion de Vrais Positifs détectés sur le total de cas positifs réels). * **Regex (Expressions Régulières) :** Suite de caractères spéciaux formant un motif de recherche pour valider, chercher ou remplacer du texte complexe. * **Régularisation :** Technique mathématique (L1/Lasso, L2/Ridge) qui applique une pénalité à la complexité des coefficients d'un modèle pour contrer le surajustement. * **ROI (Return on Investment / Retour sur Investissement) :** Indicateur évaluant les gains financiers générés par un projet par rapport aux coûts engagés pour son développement et son exploitation. ## S {#s} * **SCQA (Situation, Complication, Question, Answer) :** Structure narrative permettant d'introduire un problème métier complexe de façon claire et percutante pour capter l'attention. * **Série Temporelle :** Suite de valeurs numériques observées et enregistrées à intervalles de temps réguliers ou successifs. * **Split-Apply-Combine :** Stratégie d'agrégation de données consistant à diviser un dataset en groupes (Split), à appliquer une fonction sur chaque groupe (Apply), puis à fusionner les résultats (Combine). * **SQL (Structured Query Language) :** Langage standardisé universel utilisé pour communiquer avec et interroger les bases de données relationnelles. ## T {#t} * **Target Leakage (Fuite de la Cible) :** Biais méthodologique critique où des informations qui ne seront pas disponibles au moment de l'inférence sont incluses par erreur dans l'entraînement du modèle. * **Transformation Monotone :** Opération mathématique qui préserve strictement l'ordre relatif des valeurs d'origine tout en modifiant leur échelle absolue (ex: transformation logarithmique). * **Trim (ou Strip) :** Fonction de manipulation textuelle supprimant les espaces blancs et caractères invisibles situés au début et à la fin d'une chaîne de caractères. ## U {#u} * **Underfitting (Sous-ajustement) :** Situation où un modèle trop simple est incapable de capturer la structure et les motifs fondamentaux présents dans les données d'entraînement. ## V {#v} * **Validation Croisée (Cross-Validation) :** Méthode robuste de validation consistant à découper les données en plusieurs plis (folds) et à entraîner/tester le modèle à plusieurs reprises pour obtenir une évaluation fiable de ses performances. * **Variable de confusion :** Variable externe non prise en compte dans l'analyse qui influence simultanément les variables explicatives et cibles, créant une fausse illusion de causalité directe. * **Variance :** Mesure statistique quantifiant la dispersion des points de données par rapport à leur moyenne (moyenne des carrés des écarts). ## X {#x} * **XAI (Explainable AI / IA Explicable) :** Ensemble de techniques (ex: SHAP, LIME) permettant de justifier et d'interpréter les prédictions générées par des modèles complexes (boîtes noires).