6 🧪 Évaluation des Modèles

6.1 📊 Métriques de Classification

Le piège des métriques de vanité

En 2026, l’industrie a enfin compris que l’Accuracy (exactitude) est souvent une “métrique de vanité”. Dans un système de détection de fraude où 99,9 % des transactions sont légitimes, une précision globale de 99,9 % peut être atteinte par un modèle qui ne détecte absolument rien. L’ingénierie moderne exige donc une vision multidimensionnelle du risque (Imani et al. 2026).

6.1.1 📊 Matrice de Confusion

La matrice de confusion est votre outil de diagnostic fondamental. Elle agit comme un bilan sanguin pour l’algorithme en classant les résultats en quatre quadrants (“Classification: Justesse, Rappel, Précision Et Métriques Associées | Machine Learning” 2026) :

Vrais Positifs (TP) : Le modèle a prédit “Positif” et c’était vrai.
Vrais Négatifs (TN) : Le modèle a prédit “Négatif” et c’était vrai.
Faux Positifs (FP) : La “fausse alerte”. Le modèle a prédit “Positif” mais c’était faux.
Faux Négatifs (FN) : Le “cas manqué”. Le modèle a prédit “Négatif” mais c’était positif.

🕵️‍♂️ Le Décodeur de l’Enquêteur : La Matrice de Confusion

Pour un enquêteur, chaque décision de l’algorithme a une conséquence réelle. Voici la grille de lecture pour interpréter les verdicts du modèle :

	Réalité : Fraude (Positif)	Réalité : Légitime (Négatif)
Prédiction : Bloqué (Positif)	🟢 Vrais Positifs (TP) L’IA suspecte et bloque une fraude à juste titre. 👉 Impact : Argent sauvé !	🔴 Faux Positifs (FP) L’IA suspecte et bloque un client honnête à tort. 👉 Impact : Client frustré.
Prédiction : Autorisé (Négatif)	⚠️ Faux Négatifs (FN) L’IA ne détecte rien et laisse passer un fraudeur à tort. 👉 Impact : Perte financière.	🔵 Vrais Négatifs (TN) L’IA ne détecte rien et laisse passer un client honnête. 👉 Impact : Client heureux.

6.1.2 ⚖️ Précision vs Rappel

En tant qu’architecte, votre choix de métrique dépend du coût de l’erreur dans le monde réel (Pedigo 2026).

La Précision (Fiabilité) :
- Question clé : “Sur toutes mes alertes, combien étaient vraies ?”
- Optimisation : À optimiser lorsque le coût d’une fausse alerte est trop élevé.
- Exemple : Un filtre anti-spam (classer un mail important en spam bloque l’utilisateur).
Le Rappel (Exhaustivité) :
- Question clé : “Sur tous les cas réels, combien en ai-je capturés ?”
- Optimisation : À optimiser lorsque rater un cas positif est extrêmement dangereux.
- Exemple : Le diagnostic médical (mieux vaut une fausse alerte qu’un cancer non soigné).

⚖️ Le Compromis Fondamental : Le Dilemme du Banquier

Il est statistiquement impossible d’avoir à la fois 0 Faux Positif et 0 Faux Négatif. Ajuster le seuil d’alerte déplace simplement le curseur du compromis : baisser le seuil élimine les fraudes (FN) mais bloque tous vos clients (FP), tandis que l’élever libère vos clients mais ouvre les portes aux fraudeurs. C’est l’essence même du Dilemme du Banquier.

Déplacez le curseur ci-dessous pour ajuster la sévérité de l’algorithme. Observez l’impact direct sur les clients légitimes (Faux Positifs) et sur l’argent perdu (Faux Négatifs).

legit_scores = Array.from({length: 400}, (_, i) => 
  Math.max(0, Math.min(100, 30 + Math.sin(i) * 15 + (i % 20) - 10))
)
// Fraudeurs : concentrés vers le haut (moyenne ~75)
fraud_scores = Array.from({length: 80}, (_, i) => 
  Math.max(0, Math.min(100, 75 + Math.cos(i) * 12 + (i % 15) - 7.5))
)

// 2. Input interactif : Le seuil de décision du Banquier
viewof decision_threshold = Inputs.range([10, 90], {
  value: 50, 
  step: 1, 
  label: "🚩 Seuil d'Alerte Fraude (Score) :"
})

// 3. Calcul des conséquences métier (Matrice de confusion simplifiée)
// Faux Positifs : Légitimes bloqués (Score > seuil)
fp_count = legit_scores.filter(s => s >= decision_threshold).length
// Faux Négatifs : Fraudeurs non détectés (Score < seuil)
fn_count = fraud_scores.filter(s => s < decision_threshold).length
// Vrais Positifs : Fraudeurs bloqués (Score >= seuil)
tp_count = fraud_scores.filter(s => s >= decision_threshold).length

// 4. Rendu des KPI (Impact Métier)
ui.render(`
  <div class="ui-metrics-row">
    ${ui.metricCard({ 
      title: "Fraudes Déjouées", 
      value: tp_count, 
      trend: "positive", 
      subtitle: "Vrais Positifs (Succès)" 
    })}
    ${ui.metricCard({ 
      title: "Clients Mécontents", 
      value: fp_count, 
      trend: fp_count > 50 ? "danger" : (fp_count > 20 ? "warning" : "positive"), 
      subtitle: "Bloqués à tort (Faux Positifs)" 
    })}
    ${ui.metricCard({ 
      title: "Fraudes Manquées", 
      value: fn_count, 
      trend: fn_count > 15 ? "danger" : (fn_count > 5 ? "warning" : "positive"), 
      subtitle: "Pertes €€€ (Faux Négatifs)" 
    })}
  </div>
`)

// 5. Rendu du Graphique Plotly (Histogrammes superposés)
ui.plotlyWrapper({
  title: "Distribution des Scores de Risque",
  height: ui.chart.height,
  data: [
    {
      x: legit_scores,
      type: 'histogram',
      name: 'Légitimes',
      marker: { color: ui.colors.green + "99" },
      xbins: { start: 0, end: 100, size: 2 }
    },
    {
      x: fraud_scores,
      type: 'histogram',
      name: 'Fraudeurs',
      marker: { color: ui.colors.red + "b3" },
      xbins: { start: 0, end: 100, size: 2 }
    }
  ],
  layout: {
    barmode: 'overlay', // Superposition des histogrammes pour voir le chevauchement
    xaxis: { title: 'Score de Risque de la Transaction', range: [0, 100] },
    yaxis: { title: 'Nombre de Transactions' },
    legend: { orientation: 'h', y: -0.2 },
    shapes: [
      // La ligne verticale représentant le seuil choisi par l'étudiant
      {
        type: 'line',
        x0: decision_threshold,
        x1: decision_threshold,
        y0: 0,
        y1: 1,
        yref: 'paper', // La ligne prend toute la hauteur du graphique
        line: { color: ui.colors.yellow, width: ui.chart.lineWidth, dash: 'dash' }
      }
    ]
  }
})

6.1.3 🏆 Scores Globaux

Pour ne pas avoir à choisir entre les deux, on utilise des scores de synthèse :

F1-Score : C’est la moyenne harmonique entre précision et rappel. Il est indispensable pour les jeux de données déséquilibrés car il pénalise fortement les modèles qui sacrifient l’une des deux mesures (Bañuelos 2026).
ROC-AUC : Mesure la capacité du modèle à séparer les classes. Un score de 1.0 est parfait, 0.5 équivaut au hasard.

Attention : Pour des données extrêmement déséquilibrées (ex: 1 fraude pour 10 000 transactions), le ROC-AUC est souvent trop optimiste. On préférera alors le PR-AUC (Precision-Recall AUC) (Imani et al. 2026).

6.1.4 🌳 Boussole des Métriques

Pour guider le choix de votre indicateur d’évaluation selon la distribution de vos classes et la nature des risques métiers, suivez cet arbre décisionnel :

flowchart TD
    A[Choix de la Métrique] --> B{Données Équilibrées ?}
    B -->|Oui| C[Accuracy]
    B -->|Non| D{Quel est le pire risque ?}
    
    D -->|Fausse Alerte / FP| E[Optimiser la Précision]
    D -->|Cas Manqué / FN| F[Optimiser le Rappel]
    D -->|Équilibre Critique| G[F1-Score]
    
    style E fill:#dc322f,stroke:#073642,color:#fdf6e3
    style F fill:#859900,stroke:#073642,color:#fdf6e3

6.2 ⚙️ Optimisation des Hyperparamètres

Les manettes de l’algorithme

Les hyperparamètres ne sont pas appris par le modèle (comme les poids d’un réseau de neurones), ils sont définis par vous avant l’entraînement. C’est la profondeur maximale de votre Arbre de Décision, ou le paramètre K de votre algorithme KNN. Un modèle XGBoost mal réglé sera souvent battu par une simple Régression Logistique bien réglée (“Hyperparameter Tuning: Grid Search, Random Search, and Bayesian Optimization” 2024).

Pour trouver la combinaison parfaite d’hyperparamètres (le Tuning), l’industrie a connu trois grandes ères.

6.2.1 🧱 Grid Search et Random Search

Historiquement, le Data Scientist utilisait les outils de scikit-learn.

Grid Search (Recherche par Grille) : Vous définissez une liste de valeurs pour chaque paramètre (ex: 3 valeurs pour le paramètre A, 3 valeurs pour le paramètre B). Le moteur teste exhaustivement toutes les combinaisons possibles.
- Le Problème : Exponentiellement coûteux. Avec 5 paramètres, on atteint des milliers d’entraînements, rendant la méthode inutilisable sur de grands volumes.
Random Search (Recherche Aléatoire) : L’algorithme choisit des combinaisons au hasard dans l’espace disponible pendant un temps défini.
- L’Avantage : Beaucoup plus rapide. Mathématiquement, il trouve de meilleurs résultats que le Grid Search en explorant des zones inattendues.
- Le Problème : C’est une approche “aveugle”. L’itération n’apprend rien des essais précédents.

6.2.2 🧠 Optimisation Bayésienne

En 2026, l’outil Optuna est devenu le standard absolu pour remplacer les anciennes méthodes de recherche. L’optimisation bayésienne agit comme un chercheur d’or : plutôt que de creuser au hasard, elle apprend de ses forages précédents pour déduire où se trouve le filon.

Algorithme TPE (Tree-structured Parzen Estimator) :
1. Sépare l’historique des essais en deux groupes : les bons et les mauvais résultats.
2. Modélise mathématiquement ces densités de probabilité : l(x) pour les bons et g(x) pour les mauvais.
3. Choisit les hyperparamètres qui maximisent le ratio l(x)/g(x). Il cible donc les zones à succès et fuit les échecs.
Élagage (Pruning) : Super-pouvoir d’Optuna. S’il détecte que la courbe d’apprentissage à mi-parcours est désastreuse par rapport aux essais précédents, il stoppe l’entraînement prématurément, économisant d’immenses ressources de calcul.

🏎️ Course à l’Optimum : Grid vs Random vs Bayésien

Sélectionnez une stratégie de recherche et lancez l’entraînement. Observez comment chaque algorithme “creuse” pour tenter de trouver le fond de la vallée (l’optimum global). Le score affiché est l’erreur (Loss) : le but est d’atteindre 0.0.

viewof searchStrategy = Inputs.radio(
  ["Grid Search (Force Brute)", "Random Search (Aléatoire)", "Optimisation Bayésienne (TPE/Optuna)"],
  { value: "Grid Search (Force Brute)", label: "Stratégie de recherche :" }
)

viewof runSimulation = Inputs.button("Lancer l'entraînement")

lossFunction = (x, y) => {
  const r2 = (x - 2) * (x - 2) + (y + 1) * (y + 1);
  return 10 * (1 - Math.exp(-r2 / 4)) + 0.1 * (x * x + y * y) + Math.sin(x) * Math.cos(y);
}

domain = [-5, 5]
trueOptimum = [1.9, -0.9]

trialsPool = {
  runSimulation; 

  const nTrials = 100;
  const seed = 42; 
  const lcg = (a) => () => (a = (a * 16807) % 2147483647) / 2147483647; 
  const rand = lcg(seed);

  let trials = [];

  if (searchStrategy.includes("Grid")) {
    const steps = 10;
    const stepSize = (domain[1] - domain[0]) / (steps - 1);
    for (let i = 0; i < steps; i++) {
      for (let j = 0; j < steps; j++) {
        const x = domain[0] + i * stepSize;
        const y = domain[0] + j * stepSize;
        trials.push({ x, y, loss: lossFunction(x, y) });
      }
    }
  } else if (searchStrategy.includes("Random")) {
    for (let i = 0; i < nTrials; i++) {
      const x = domain[0] + rand() * (domain[1] - domain[0]);
      const y = domain[0] + rand() * (domain[1] - domain[0]);
      trials.push({ x, y, loss: lossFunction(x, y) });
    }
  } else {
    let best = null;
    let currentBestLoss = Infinity;

    for (let i = 0; i < nTrials; i++) {
      let x, y;
      if (i < 10) {
        x = domain[0] + rand() * (domain[1] - domain[0]);
        y = domain[0] + rand() * (domain[1] - domain[0]);
      } else {
        const stdDev = 2 * Math.exp(-i / 30); 
        const gaussian = () => (rand() + rand() + rand() + rand() + rand() + rand() - 3); 
        x = Math.max(domain[0], Math.min(domain[1], best.x + gaussian() * stdDev));
        y = Math.max(domain[0], Math.min(domain[1], best.y + gaussian() * stdDev));
      }
      
      const loss = lossFunction(x, y);
      const trial = { x, y, loss };
      trials.push(trial);
      
      if (loss < currentBestLoss) {
        currentBestLoss = loss;
        best = trial;
      }
    }
  }
  return trials;
}

currentTrialIndex = {
  trialsPool; 
  for (let i = 1; i <= 100; i++) {
    yield Promises.delay(20, i); 
  }
}

currentTrials = trialsPool.slice(0, currentTrialIndex)

bestTrial = {
  let best = null;
  let minLoss = Infinity;
  for (const t of currentTrials) {
    if (t.loss < minLoss) {
      minLoss = t.loss;
      best = t;
    }
  }
  return best;
}

mesh = {
  const res = 50;
  const step = (domain[1] - domain[0]) / res;
  let grid = [];
  for (let x = domain[0]; x <= domain[1]; x += step) {
    for (let y = domain[0]; y <= domain[1]; y += step) {
      grid.push({x, y, loss: lossFunction(x, y)});
    }
  }
  return grid;
}

// 4. Observable Plot object
optimumPlot = Plot.plot({
  height: 360,
  width: 540,
  style: { background: "var(--sol-base03)", color: "var(--sol-base0)", fontVariantNumeric: "tabular-nums" },
  x: { domain: domain, label: "Hyperparamètre X →", grid: true },
  y: { domain: domain, label: "Hyperparamètre Y ↑", grid: true },
  color: {
    type: "diverging",
    scheme: "Turbo",
    label: "Perte (Loss)",
    reverse: true,
    domain: [0, 15]
  },
  marks: [
    Plot.cell(mesh, {x: "x", y: "y", fill: "loss", inset: 0.5, opacity: 0.8}),
    Plot.dot([trueOptimum], {x: d => d[0], y: d => d[1], symbol: "star", r: 10, fill: "var(--sol-base3)", stroke: "var(--sol-base03)", strokeWidth: 2}),
    Plot.dot(currentTrials, {
      x: "x", 
      y: "y", 
      fill: "var(--sol-base3)", 
      stroke: "var(--sol-base03)",
      r: 3.5, 
      opacity: 0.75
    }),
    bestTrial ? Plot.dot([bestTrial], {
      x: "x", 
      y: "y", 
      fill: "none", 
      stroke: "var(--sol-yellow)",
      r: 9, 
      strokeWidth: 3.5
    }) : null
  ]
})

optimum_dashboard_html = {
  const logs = [
    ui.logLine({ message: `Méthode : ${searchStrategy.split(" ")[0]} Search`, type: "info" }),
    ui.logLine({ message: `Statut : Essai ${currentTrialIndex} / 100`, type: "info" }),
    bestTrial
      ? ui.logLine({ message: `Meilleur essai : x=${bestTrial.x.toFixed(2)}, y=${bestTrial.y.toFixed(2)} (Loss=${bestTrial.loss.toFixed(4)})`, type: "success" })
      : ui.logLine({ message: "Recherche en cours...", type: "warning" })
  ];

  return html`
    <div class="ui-vector-container">
      
      <div class="ui-metrics-row">
        ${ui.metricCard({ title: "Essais Réalisés", value: `${currentTrialIndex} / 100`, trend: "neutral" })}
        ${ui.metricCard({ title: "Meilleur Score (Loss)", value: bestTrial ? bestTrial.loss.toFixed(4) : "N/A", trend: bestTrial ? (bestTrial.loss < 0.2 ? "positive" : "neutral") : "neutral" })}
      </div>

      <div class="ui-vector-layout">
        <div class="ui-vector-panel">
          <div class="ui-vector-space" style="border: 1px solid var(--sol-base2); border-radius: 8px; overflow: hidden; background: var(--sol-base03); display: flex; align-items: center; justify-content: center; height: 380px;">
            ${optimumPlot}
          </div>
        </div>
        
        <div class="ui-vector-sidebar">
          ${ui.terminalConsole({ header: "Console d'Entraînement", logs: logs })}
        </div>
      </div>

    </div>
  `;
}

ui.render(optimum_dashboard_html)

💡 Analyse Pédagogique : Comprendre la course à l’Optimum

md`
${searchStrategy.includes("Grid")
  ? "Le **Grid Search (Recherche par Grille)** quadrille la zone de manière parfaitement rigide. Il gaspille énormément de ressources et de temps à tester des régions d'erreurs élevées car il n'apprend pas de ses échecs. Si le véritable minimum (l'étoile blanche) n'est pas précisément situé sur l'une des intersections prédéfinies de la grille, l'algorithme passera juste à côté sans jamais le détecter."
  : searchStrategy.includes("Random")
    ? "Le **Random Search (Recherche Aléatoire)** explore l'espace au hasard. Il a statistiquement plus de chances de s'approcher du véritable optimum global (l'étoile centrale) que la grille car il teste des coordonnées variées et non-alignées. Cependant, il reste totalement 'aveugle' : chaque nouvel essai est indépendant et n'exploite jamais les informations cruciales découvertes lors des essais précédents."
    : "L'**Optimisation Bayésienne (Optuna/TPE)** commence par explorer l'espace au hasard (exploration), puis construit un modèle probabiliste pour prédire où se trouvent les zones de faible erreur (exploitation). Dès qu'elle détecte la pente de la vallée, elle concentre intelligemment ses essais (les points blancs s'agglutinent) autour du minimum global pour converger rapidement vers l'étoile. C'est le standard industriel moderne de précision."
}
`

6.2.3 💻 Optuna vs Scikit-Learn

import optuna
from xgboost import XGBClassifier

# 1. On définit une "fonction objectif" à optimiser
def objective(trial):
    # Optuna suggère intelligemment des valeurs à chaque essai
    param = {
        'max_depth': trial.suggest_int('max_depth', 3, 9),
        'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.3)
    }
    
    # On entraîne le modèle avec ces paramètres
    model = XGBClassifier(**param)
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    
    return score # Optuna va essayer de maximiser ce score

# 2. On lance l'étude (Le chercheur d'or se met au travail)
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=50) # 50 essais intelligents

print("Meilleurs hyperparamètres :", study.best_params)

6.3 🕵️‍♂️ Mission 6

Charlie se vante sur le Dark Web : son algorithme de détection de la police aurait une “Accuracy” de 90%. Il se croit intouchable et a confirmé la transaction de ce soir pour la vente des sujets d’examen.

Vous avez réussi à intercepter les données de test de son algorithme. Exécutez la cellule pour examiner les résultats bruts de ses 100 dernières simulations :

import pandas as pd
import numpy as np

# 0 = Pas de police (Voie libre), 1 = Police présente (Danger)
# Dans 90 cas sur 100, il n'y a pas de police. Charlie a simplement fait un modèle qui prédit TOUJOURS 0 !
y_vrai = np.array([0]*90 + [1]*10)
y_prediction = np.array([0]*100)

print(f"Précision globale (Accuracy) calculée par Charlie : {np.mean(y_vrai == y_prediction) * 100}%")

90% de précision… Cela semble excellent. Mais en tant que Data Detectives, vous savez qu’il faut regarder sous le capot, surtout quand les événements (la présence de la police) sont rares.

Votre objectif : Générez la Matrice de Confusion pour analyser les erreurs du modèle de Charlie. Combien de fois son IA a-t-elle indiqué “Voie libre” (0) alors que la police était “Présente” (1) ? C’est ce qu’on appelle les Faux Négatifs, et c’est notre porte d’entrée !

6.4 🚢 Déploiement et MLOps

Le syndrome du ‘Ça marche sur ma machine’

En 2026, un modèle bloqué dans un Notebook Jupyter n’est qu’un “artefact inutile”. Le MLOps (Machine Learning Operations) est la discipline qui fusionne la Data Science et le DevOps pour transformer un code de recherche en un service logiciel industriel, robuste et accessible par des millions d’utilisateurs.

Le cycle de vie d’un modèle en production repose sur la résolution de trois grands défis : la mémoire, le partage, et l’accès.

6.4.1 📖 Traçabilité (MLflow & DVC)

Lorsqu’un Data Scientist fait 50 essais d’optimisation (voir Module 6.2), il oublie souvent quels paramètres ont donné quel résultat.

MLflow : C’est le standard industriel pour le suivi des expérimentations (Experiment Tracking). Il enregistre automatiquement chaque version de votre code, les hyperparamètres utilisés, et les métriques de performance obtenues. Son composant Model Registry fait office de “tour de contrôle” pour approuver le passage d’un modèle en production (Sharma 2026).
DVC (Data Version Control) : Fait la même chose que Git, mais pour vos énormes fichiers de données (qui sont trop lourds pour GitHub).

6.4.2 📦 Encapsulation (Docker & uv)

Imaginons que votre modèle fonctionne parfaitement sur votre ordinateur portable (Windows, Python 3.10, Pandas 2.0). Si vous l’envoyez sur le serveur de production (Linux, Python 3.12, Pandas 3.0), il va planter instantanément.

La Conteneurisation (Docker) : Docker résout ce problème d’environnement. Il crée une “boîte” (un conteneur) qui englobe votre modèle d’IA, la bonne version de Python, et exactement les bibliothèques nécessaires. Ce conteneur est immuable : s’il marche chez vous, il marchera à l’identique sur n’importe quel serveur au monde (Mathukiya 2026).
L’outil “uv” : En 2026, l’outil pip a largement été remplacé par uv (écrit en Rust) pour installer les bibliothèques Python. Il est 10 à 100 fois plus rapide, ce qui permet de construire ces conteneurs Docker de manière quasi-instantanée.

6.4.3 🔌 Service API (FastAPI)

Votre modèle est dans un conteneur, mais comment une application web ou mobile (ex: l’application de votre banque) peut-elle lui “parler” pour obtenir une prédiction ?

On utilise une API REST.

FastAPI : C’est le framework Python ultra-dominant pour servir des modèles. Il est asynchrone (très rapide) et génère automatiquement sa propre documentation technique (Otto 2026).
Le Fonctionnement : L’application web envoie une requête HTTP contenant un fichier JSON avec les données du client. FastAPI reçoit le JSON, le donne au modèle XGBoost, récupère la prédiction, et la renvoie à l’application web sous forme de réponse JSON.

Comprendre le système : L’API de Prédiction

🌐 Simulateur d’API de Prédiction : FastAPI en Action

Testez cette interface client. Modifiez les paramètres du crédit et cliquez sur “Envoyer”. Observez comment l’application cliente transforme vos actions en un fichier JSON, l’envoie sur le réseau, et comment le serveur ML (FastAPI) calcule et renvoie sa prédiction.

viewof age = Inputs.range([18, 80], {value: 35, step: 1, label: "Âge de l'emprunteur :"})
viewof salary = Inputs.range([1500, 10000], {value: 3000, step: 100, label: "Salaire mensuel (€) :"})
viewof amount = Inputs.range([1000, 100000], {value: 50000, step: 1000, label: "Montant demandé (€) :"})
viewof sendBtn = Inputs.button("🚀 Envoyer la requête POST /predict")

// 2. Machine à états (Générateur asynchrone) pour simuler le cycle de vie de la requête
apiSimulation = {
  sendBtn; 
  
  if (sendBtn === 0) return { step: "idle", response: null };

  yield { step: "sending", response: null };
  await Promises.delay(800);

  yield { step: "processing", response: null };
  await Promises.delay(1500);

  const risk = (amount / (salary * 12)) + (age < 25 ? 0.2 : 0) - (age > 50 ? 0.1 : 0);
  const proba = Math.min(0.99, Math.max(0.01, risk));
  const res = {
    statut: proba > 0.45 ? "Refusé" : "Accepté",
    probabilite_defaut: parseFloat(proba.toFixed(2))
  };

  yield { step: "returning", response: res };
  await Promises.delay(800);

  return { step: "done", response: res };
}

api_dashboard_html = {
  const step = apiSimulation ? apiSimulation.step : 'idle';
  const response = apiSimulation ? apiSimulation.response : null;

  const statusBadge = step === 'idle' 
    ? `<span class="ui-status-badge is-idle">En attente...</span>`
    : step === 'sending'
    ? `<span class="ui-status-badge is-active">Envoi JSON...</span>`
    : step === 'processing'
    ? `<span class="ui-status-badge is-active">Calcul ML... ⚙️</span>`
    : step === 'returning'
    ? `<span class="ui-status-badge is-active">Réponse...</span>`
    : `<span class="ui-status-badge is-done">Prêt</span>`;

  const finalResultHtml = step === 'done'
    ? `<div class="ui-final-badge ${response.statut === 'Accepté' ? 'is-accepted' : 'is-refused'}">
        💰 Résultat final : Crédit ${response.statut}
       </div>`
    : ``;

  const serverResponseJson = (step === 'returning' || step === 'done')
    ? `{\n  "statut": "${response.statut}",\n  "probabilite_defaut": ${response.probabilite_defaut.toFixed(2)}\n}`
    : `// Modèle en veille...`;

  return html`
    <style>
      .ui-status-badge {
        display: inline-block;
        padding: 4px 10px;
        border-radius: 12px;
        font-size: 0.8em;
        font-weight: bold;
        text-transform: uppercase;
        letter-spacing: 0.05em;
      }
      .ui-status-badge.is-idle {
        background: var(--sol-base2);
        color: var(--sol-base01);
      }
      .ui-status-badge.is-active {
        background: var(--sol-yellow);
        color: var(--sol-base03);
        animation: ui-pulse 1s infinite alternate;
      }
      .ui-status-badge.is-done {
        background: var(--sol-green);
        color: #ffffff;
      }

      .ui-final-badge {
        font-size: 1.05em;
        font-weight: bold;
        padding: 8px 16px;
        border-radius: 6px;
        text-align: center;
        width: 100%;
        animation: ui-scale-in 0.3s ease-out forwards;
      }
      .ui-final-badge.is-accepted {
        background: rgba(var(--sol-green-rgb), 0.15);
        color: var(--sol-green);
        border: 1px solid var(--sol-green);
      }
      .ui-final-badge.is-refused {
        background: rgba(var(--sol-red-rgb), 0.15);
        color: var(--sol-red);
        border: 1px solid var(--sol-red);
      }

      .ui-json-block {
        background: var(--sol-base03);
        color: var(--sol-cyan);
        padding: 12px 15px;
        border-radius: 6px;
        font-family: var(--sol-font-mono, monospace);
        white-space: pre-wrap;
        font-size: 0.85em;
        min-height: 100px;
        border: 1px solid var(--sol-base02);
        box-shadow: inset 0 2px 4px rgba(0, 0, 0, 0.15);
      }

      @keyframes ui-pulse {
        from { opacity: 1; }
        to { opacity: 0.5; }
      }
      @keyframes ui-scale-in {
        from { transform: scale(0.95); opacity: 0; }
        to { transform: scale(1); opacity: 1; }
      }
      @keyframes goRight {
        0% { left: 0; opacity: 0; transform: scale(0.8); }
        20% { opacity: 1; transform: scale(1); }
        80% { opacity: 1; transform: scale(1); }
        100% { left: 50px; opacity: 0; transform: scale(0.8); }
      }
      @keyframes goLeft {
        0% { right: 0; opacity: 0; transform: scale(0.8); }
        20% { opacity: 1; transform: scale(1); }
        80% { opacity: 1; transform: scale(1); }
        100% { right: 50px; opacity: 0; transform: scale(0.8); }
      }
    </style>

    <div class="ui-vector-container">
      <div class="ui-metrics-row">
        ${ui.metricCard({ title: "Âge Client", value: age, trend: "neutral" })}
        ${ui.metricCard({ title: "Revenus Annuels", value: `${(salary * 12).toLocaleString()} €`, trend: "neutral" })}
        ${ui.metricCard({ title: "Demande de Crédit", value: `${amount.toLocaleString()} €`, trend: "neutral" })}
      </div>

      <div class="ui-vector-layout">
        <!-- Client app box -->
        <div class="ui-vector-panel" style="flex: 1.1; border-top: 4px solid var(--sol-blue); display: flex; flex-direction: column; gap: 10px;">
          <h4 style="margin: 0; color: var(--sol-base02); font-weight: bold; display: flex; align-items: center; gap: 8px;">
            <span>📱 App Client (Frontend)</span>
          </h4>
          <p style="font-size: 0.8em; color: var(--sol-base1); margin: 0;">Payload JSON envoyé au serveur :</p>
          <div class="ui-json-block">{
  "age": ${age},
  "salaire": ${salary},
  "montant": ${amount}
}</div>
          <div style="margin-top: auto; padding-top: 15px; display: flex; align-items: center; min-height: 50px;">
            ${finalResultHtml}
          </div>
        </div>

        <!-- Network connection -->
        <div style="display: flex; flex-direction: column; justify-content: center; align-items: center; width: 70px; min-width: 70px;">
          <div style="text-align: center; color: var(--sol-base1); font-weight: bold; font-size: 0.75em; text-transform: uppercase; margin-bottom: 8px;">Réseau</div>
          <div style="position: relative; width: 70px; height: 35px; border-bottom: 2px dashed var(--sol-base2);">
            ${step === 'sending' ? `<div style="position: absolute; left: 0; animation: goRight 0.8s forwards; font-size: 26px;">📦</div>` : ''}
            ${step === 'returning' ? `<div style="position: absolute; right: 0; animation: goLeft 0.8s forwards; font-size: 26px;">📩</div>` : ''}
          </div>
        </div>

        <!-- Server FastAPI box -->
        <div class="ui-vector-panel" style="flex: 1.1; border-top: 4px solid var(--sol-green); display: flex; flex-direction: column; gap: 10px;">
          <div style="display: flex; justify-content: space-between; align-items: center;">
            <h4 style="margin: 0; color: var(--sol-base02); font-weight: bold;">☁️ Serveur (FastAPI)</h4>
            ${statusBadge}
          </div>
          <p style="font-size: 0.8em; color: var(--sol-base1); margin: 0;">Réponse JSON renvoyée :</p>
          <div class="ui-json-block">${serverResponseJson}</div>
        </div>
      </div>
    </div>
  `;
}

ui.render(api_dashboard_html)

💡 Analyse Pédagogique : Séparation Client / Serveur

Remarquez la séparation absolue des rôles. L’application mobile (le client) ne connaît rien au Machine Learning ni à l’algorithme XGBoost ; elle se contente d’afficher un JSON. Inversement, le serveur (FastAPI + ML) se moque de savoir si l’utilisateur est sur iOS, Android ou un site web : il ingère des données brutes et renvoie des probabilités. C’est ce qu’on appelle une architecture découplée.

6.4.4 🏗️ L’Architecture MLOps Complète

Le cycle de vie complet du déploiement industriel d’un modèle d’IA s’articule autour d’un pipeline automatisé, de l’expérimentation locale jusqu’au service Cloud exposé aux clients :

graph LR
    subgraph Developpement [Environnement Local]
        A[Notebook Jupyter] -->|Entraînement| B(MLflow Tracking)
    end
    
    subgraph Package [Intégration]
        B -->|Validation| C{Model Registry}
        C -->|Approuvé| D[Image Docker\n+ FastAPI]
    end
    
    subgraph Production [Serveur Cloud]
        D -->|Déploiement| E((API REST))
        F[Application Web] -- "JSON: {Age: 35...}" --> E
        E -- "JSON: {Fraude: 95%}" --> F
    end

    style Developpement fill:#268bd2,stroke:#073642,color:#fdf6e3
    style Package fill:#6c71c4,stroke:#073642,color:#fdf6e3
    style Production fill:#859900,stroke:#073642,color:#fdf6e3

6.5 🚨 Surveillance et Dérive

Un modèle naît en mourant

Il existe un mythe tenace selon lequel une fois déployé, le travail du Data Scientist est terminé. En réalité, un modèle commence à “pourrir” dès son premier jour en production (“AI Model Monitoring in Production: Drift and Decay in 2026” 2026). Un algorithme est figé dans le passé (ses données d’entraînement), tandis que le monde réel, lui, évolue en permanence. Ce phénomène de dégradation silencieuse s’appelle la Dérive (Drift).

Il est vital de comprendre que si un modèle d’IA se trompe de plus en plus au fil du temps, ce n’est pas parce que son code s’est cassé, mais parce que le monde a changé.

6.5.1 📉 Les Deux Dérives

On distingue deux phénomènes majeurs qui nécessitent une surveillance algorithmique constante.

Dérive des Données (Data Drift) : La relation métier reste vraie, mais la population d’entrée a changé.
- La Métaphore : Vous avez appris à conduire dans une petite ville de campagne (données d’entraînement) et on vous lâche en plein Paris. Les règles du code sont identiques, mais l’environnement (distribution des données) a totalement muté.
- Exemple Business : Un modèle de crédit entraîné sur des clients de plus de 40 ans reçoit soudainement des profils étudiants de 20 ans.
Dérive de Concept (Concept Drift) : Les données d’entrée semblent identiques, mais la vérité mathématique a changé (les règles du jeu ont changé dans votre dos).
- Exemple Business : La détection de fraude. Un achat de 500€ de nuit depuis l’étranger était systématiquement une fraude en 2024. En 2026, avec les néo-banques, c’est devenu banal et légitime. Le concept même de la fraude a évolué.

Interactif : Le Simulateur de Dérive

Pour bien saisir la différence entre ces deux dérives, manipulez ce simulateur. Observez comment la ligne de décision (votre modèle figé) devient obsolète face à l’évolution du monde.

🚨 Simulateur de Crash Silencieux : Concept & Data Drift

Le graphique ci-dessous représente votre modèle en production. Le fond de couleur (Bleu/Rouge) représente les zones de décision figées de l’algorithme. Observez comment la précision de votre modèle s’effondre lorsque le monde réel (les points) évolue, sans même qu’une ligne de code n’ait été modifiée.

// 1. Contrôles de simulation unifiés via ui.toggle
viewof driftMode = ui.toggle({
  label: "État du Monde Réel :",
  options: [
    "État Initial (Tout va bien)", 
    "💥 Data Drift (Changement de population)", 
    "🎭 Concept Drift (Changement de comportement)"
  ],
  value: "État Initial (Tout va bien)",
  states: {
    "État Initial (Tout va bien)": "success",
    "💥 Data Drift (Changement de population)": "warning",
    "🎭 Concept Drift (Changement de comportement)": "danger"
  }
})

// 5. Observable Plot object
driftPlot = Plot.plot({
  height: 360,
  width: 540,
  style: { background: "var(--sol-base03)", color: "var(--sol-base0)", fontVariantNumeric: "tabular-nums" },
  x: { domain: [-6, 6], label: "Caractéristique Client →", grid: true },
  y: { domain: [-4, 4], label: "← Comportement →", grid: true },
  marks: [
    Plot.rect([{x1: -10, x2: 0, y1: -10, y2: 10}], {x1: "x1", x2: "x2", y1: "y1", y2: "y2", fill: "rgba(38, 139, 210, 0.08)"}),
    Plot.rect([{x1: 0, x2: 10, y1: -10, y2: 10}], {x1: "x1", x2: "x2", y1: "y1", y2: "y2", fill: "rgba(220, 50, 47, 0.08)"}),
    
    Plot.ruleX([0], {stroke: "var(--sol-base01)", strokeWidth: 3, strokeDasharray: "6,3"}),
    Plot.text([{x: 0, y: 3.5}], {text: () => "Frontière Figée", fill: "var(--sol-base1)", fontWeight: "bold", dy: -8}),

    Plot.dot(currentData, {
      x: "x", 
      y: "y", 
      fill: d => d.label === "Légitime" ? "var(--sol-blue)" : "var(--sol-red)", 
      stroke: d => d.isCorrect ? "var(--sol-base3)" : "#ffffff", 
      strokeWidth: d => d.isCorrect ? 0.8 : 2.5,
      r: 5.5
    })
  ]
})

drift_dashboard_html = {
  const logs = [
    ui.logLine({ message: `Scénario : ${driftMode.split(" (")[0]}`, type: "info" }),
    ui.logLine({ 
      message: `Précision : ${accuracy.toFixed(1)}% (Seuil critique: 85%)`, 
      type: accuracy > 85 ? "success" : "danger" 
    }),
    ui.logLine({ 
      message: accuracy > 85 
        ? "Statut : Modèle stable, distribution OK." 
        : "Alerte : Dérive statistique détectée !", 
      type: accuracy > 85 ? "success" : "warning" 
    })
  ];

  return html`
    <div class="ui-vector-container">
      
      <div class="ui-metrics-row">
        ${ui.metricCard({ 
          title: "Précision Globale", 
          value: `${accuracy.toFixed(1)} %`, 
          trend: accuracy > 85 ? "positive" : "negative" 
        })}
        ${ui.metricCard({ 
          title: "Statut Modèle", 
          value: accuracy > 85 ? "Fiable" : "Alerte Drift", 
          trend: accuracy > 85 ? "positive" : "negative" 
        })}
        ${ui.metricCard({ 
          title: "Ré-entraînement", 
          value: accuracy > 85 ? "Non requis" : "Requis (PSI élevé)", 
          trend: accuracy > 85 ? "positive" : "negative" 
        })}
      </div>

      <div class="ui-vector-layout">
        <div class="ui-vector-panel">
          <div class="ui-vector-space" style="border: 1px solid var(--sol-base2); border-radius: 8px; overflow: hidden; background: var(--sol-base03); display: flex; align-items: center; justify-content: center; height: 380px;">
            ${driftPlot}
          </div>
        </div>
        
        <div class="ui-vector-sidebar">
          ${ui.terminalConsole({ header: "Surveillance de Production", logs: logs })}
        </div>
      </div>

    </div>
  `;
}

ui.render(drift_dashboard_html)

💡 Analyse Pédagogique : Comprendre les Dérives de Production

md`
${driftMode.includes("Initial")
  ? "Tout va bien. La majorité des transactions Légitimes (points bleus) sont dans la zone bleue du modèle, et les Fraudes (points rouges) dans la zone rouge. Le modèle est parfaitement synchronisé avec le monde réel."
  : driftMode.includes("Data Drift")
    ? "**Data Drift détecté !** La définition intrinsèque de la fraude n'a pas bougé, mais la population de départ s'est décalée. Les clients légitimes (points bleus) ont migré vers la droite (ex: hausse légitime des scores d'achats). Le modèle figé les perçoit désormais à tort comme des fraudeurs, générant un pic critique de **Faux Positifs** (les points bleus entourés de blanc dans la zone rouge)."
    : "**Concept Drift détecté !** Les points n'ont pas bougé de place, mais la vérité métier s'est retournée. Les fraudeurs ont appris à calquer leur comportement sur celui des clients honnêtes (les points rouges à gauche de la ligne). Le modèle est aveugle à cette mutation des règles et laisse passer de graves **Faux Négatifs**."
}
`

6.5.2 🕵️‍♂️ Boucle de Ré-entraînement

Pour survivre à la dérive, les architectures MLOps de 2026 intègrent des mécanismes de Continuous Training (Entraînement Continu) (“Model Monitoring & Drift Detection” 2026).

Indicateur d’Alarme (PSI) : Le Population Stability Index compare la distribution statistique des données d’aujourd’hui avec celle du jour de l’entraînement. Si le PSI dépasse 0.2, une alerte rouge est levée : la population a trop muté.
Boucle de Ré-entraînement : Dès que le PSI dépasse la limite, le pipeline extrait les données récentes, ré-entraîne le modèle, valide s’il est plus performant, et le déploie de manière transparente.

graph LR
    A[Modèle en Production] -->|Monitoring en temps réel| B{"Détection de Drift ?"}
    B -->|PSI > 0.2| C[Extraction des données récentes]
    B -->|PSI < 0.2| A
    C --> D["Ré-entraînement automatique<br/>via Optuna"]
    D --> E{"Le nouveau modèle<br/>est-il meilleur ?"}
    E -->|Oui| F["Déploiement Transparent<br/>(Shadow Mode)"]
    E -->|Non| G[Alerte Data Scientist]
    F --> A
    
    style B fill:#dc322f,stroke:#073642,color:#fdf6e3
    style E fill:#cb4b16,stroke:#073642,color:#fdf6e3
    style F fill:#859900,stroke:#073642,color:#fdf6e3

6.5.3 ⚖️ L’EU AI Act

En 2026, surveiller la dérive n’est plus seulement une bonne pratique technique, c’est une obligation légale.

L’EU AI Act (Législation européenne sur l’IA) impose des contraintes sévères sur les modèles déployés, en particulier ceux dits “à haut risque” (banque, médical, ressources humaines) (Pregasen 2026) :

Article 15 (Robustesse) : Exige que les modèles maintiennent leur précision tout au long de leur cycle de vie et soient surveillés contre les dégradations statistiques (“Article 15: Accuracy, Robustness and Cybersecurity | EU Artificial Intelligence Act” 2026).
Une entreprise dont l’algorithme “dérive” au point de devenir discriminatoire (ex: un Data Drift qui le pousse à refuser systématiquement des crédits à une minorité) s’expose à des amendes se chiffrant en millions d’euros. Le MLOps est votre bouclier juridique.

6.6 🚀 Le MLOps & La Surveillance en Production

🎒 Astuce Pro : Le MLOps

Ne considérez jamais le déploiement comme une fin. Un bon “Raffineur” consacre autant d’énergie à la surveillance du modèle qu’à son entraînement initial.

Le MLOps (Machine Learning Operations) est la contraction de Machine Learning et Operations. C’est l’ensemble des pratiques visant à déployer et maintenir des modèles d’IA en production de manière fiable et efficace.

📈 Simulateur de Dérive (Drift) : Le mythe de l’IA éternelle

En production, les performances d’un modèle se dégradent naturellement avec le temps (les comportements des utilisateurs changent, l’économie évolue…). C’est ce qu’on appelle la dérive (Concept Drift). Utilisez le curseur pour simuler l’intervention de l’équipe MLOps (ré-entraînement du modèle avec de nouvelles données) et observez l’impact sur la fiabilité de l’IA à la fin de l’année.

viewof intervention_month = Inputs.range([0, 11], {
  value: 0, 
  step: 1, 
  label: "🛠️ Mois du ré-entraînement MLOps (0 = Jamais) :"
})

// 2. Logique du modèle : Génération de la précision sur 12 mois
months = Array.from({length: 12}, (_, i) => i + 1)

calculate_accuracy = (month, intervention) => {
  // Dérive initiale (le modèle perd environ 2.5% de précision par mois)
  let base_acc = 95 - (month * 2.5)
  
  // Si l'équipe intervient, la précision remonte au mois de l'intervention
  if (intervention > 0 && month >= intervention) {
      let months_since_retrain = month - intervention
      base_acc = 95 - (months_since_retrain * 2.5)
  }
  
  // On s'assure que ça reste réaliste (pas en dessous de 50%)
  return Math.max(50, base_acc)
}

// Construction du tableau de données dynamique
accuracies = months.map(m => calculate_accuracy(m, intervention_month))

// 3. Extraction de la métrique clé pour la carte de score
final_accuracy = accuracies[11]
trend_color = final_accuracy >= 80 ? "positive" : (final_accuracy >= 65 ? "warning" : "negative")
trend_subtitle = intervention_month === 0 ? "Modèle à l'abandon" : (intervention_month < 6 ? "Intervention trop précoce" : "Modèle maintenu")

// 4. Rendu du KPI via ta molécule metricCard
ui.render(`
  <div class="ui-metrics-row">
    ${ui.metricCard({ 
      title: "Précision Finale (Mois 12)", 
      value: final_accuracy.toFixed(1) + " %", 
      trend: trend_color, 
      subtitle: trend_subtitle
    })}
  </div>
`)

// 5. Rendu du Graphique Plotly
ui.plotlyWrapper({
  title: "Surveillance MLOps en Production",
  height: ui.chart.height,
  data: [
    // Trace 1 : La courbe de précision
    {
      x: months,
      y: accuracies,
      mode: 'lines+markers',
      type: 'scatter',
      name: 'Précision',
      line: { color: ui.colors.blue, width: ui.chart.lineWidth },
      marker: { 
        size: ui.chart.markerSize, 
        color: ui.colors.blue,
        line: { color: ui.colors.base03, width: ui.chart.markerLineWidth }
      }
    },
    // Trace 2 (Optionnelle) : La ligne verticale d'intervention
    intervention_month > 0 ? {
      x: [intervention_month, intervention_month],
      y: [50, 100],
      mode: 'lines',
      name: 'Ré-entraînement',
      line: { color: ui.colors.orange, width: ui.chart.markerLineWidth, dash: 'dot' },
      hoverinfo: 'none'
    } : {}
  ].filter(trace => trace.x), // Le filter permet d'ignorer la trace 2 si on est à 0
  
  layout: {
    xaxis: { title: 'Temps en production (Mois)', tickmode: 'linear', dtick: 1 },
    yaxis: { title: 'Précision (%)', range: [50, 100] },
    margin: { t: 40, r: 20, b: 40, l: 40 },
    showlegend: false
  }
})

6.7 🌉 Conclusion et Transition

Nous avons maintenant des modèles robustes et évalués. La dernière étape, et non la moindre, consiste à communiquer ces résultats de manière claire et impactante aux parties prenantes.

C’est l’art que nous allons explorer dans le Chapitre 7 : Communication des Résultats.

“AI Model Monitoring in Production: Drift and Decay in 2026.” 2026. Logiciel. 2026. https://logiciel.io/blog/ai-model-monitoring-drift-decay-2026.

“Article 15: Accuracy, Robustness and Cybersecurity | EU Artificial Intelligence Act.” 2026. European Union. 2026. https://artificialintelligenceact.eu/article/15/.

Bañuelos, Jaime. 2026. “F1 Score: Precision-Recall Balance.” Openlayer. 2026. https://www.openlayer.com/blog/post/f1-score-precision-recall-balance.

“Classification: Justesse, Rappel, Précision Et Métriques Associées | Machine Learning.” 2026. Google for Developers. 2026. https://developers.google.com/machine-learning/crash-course/classification/accuracy-precision-recall?hl=fr.

“Hyperparameter Tuning: Grid Search, Random Search, and Bayesian Optimization.” 2024. Keylabs. 2024. https://keylabs.ai/blog/hyperparameter-tuning-grid-search-random-search-and-bayesian-optimization/.

Imani, Mehdi, Majid Joudaki, Ayoub Bagheri, and Hamid R. Arabnia. 2026. “Why ROC-AUC Is Misleading for Highly Imbalanced Data : In-Depth Evaluation of MCC, F2-Score, h-Measure, and AUC-Based Metrics Across Diverse Classifiers.” Technologies 14 (1). https://www.diva-portal.org/smash/record.jsf?pid=diva2:2037946.

Mathukiya, Jash. 2026. “MLOps in 2026: Best Practices for Scalable ML Deployment.” Kernshell. 2026. https://www.kernshell.com/best-practices-for-scalable-machine-learning-deployment/.

“Model Monitoring & Drift Detection.” 2026. DS STREAM. 2026. https://www.dsstream.com/provider/model-monitoring-drift-detection.

Otto. 2026. “Build a Production-Ready FastAPI Backend in 2026: 5 Templates That Ship in Minutes.” DEV Community. 2026. https://dev.to/ottoaria/build-a-production-ready-fastapi-backend-in-2026-5-templates-that-ship-in-minutes-1kfl.

Pedigo, Mark. 2026. “Précision Et Rappel : Le Guide Essentiel Du Machine Learning.” DataCamp. 2026. https://www.datacamp.com/fr/tutorial/precision-vs-recall.

Pregasen, Melissa. 2026. “U.s. Companies Face EU AI Act’s Possible August 2026 Compliance Deadline | Insights.” Holland & Knight. 2026. https://www.hklaw.com/en/insights/publications/2026/04/us-companies-face-eu-ai-acts-possible-august-2026-compliance-deadline.

Sharma, Swapnil. 2026. “8 MLOps Best Practices You Should Implement in 2026.” Azilen Technologies. 2026. https://www.azilen.com/blog/mlops-best-practices/.