7 📢 Communication des Résultats

7.1 🎨 L’Art du Data Storytelling

Le Paradoxe de l’IA en 2026

En 2026, 78 % des organisations déclarent utiliser l’IA, mais moins de 31 % des projets franchissent réellement l’étape de la mise en production (Rathod 2026). Ce taux d’échec massif n’est pas dû à de mauvais algorithmes, mais à une rupture de communication. Un modèle parfait qui ne convainc pas le comité de direction (Comex) est un modèle mort.

Le rôle du Data Translator (Traducteur de Données) est devenu la fonction la plus critique pour garantir le Retour sur Investissement (ROI) des initiatives analytiques. Son but ? Transformer la technicité brute en un levier de croissance stratégique.

7.1.1 🧱 Métriques et Décideurs

Les indicateurs de performance classiques de la Data Science (vus au Module 6) sont inaudibles, voire trompeurs, pour un dirigeant.

L’erreur du RMSE : Présenter un “Root Mean Square Error” (RMSE) à un directeur financier est une faute stratégique. Le RMSE n’est pas “scale invariant” (il dépend de l’échelle des données) (“Root Mean Square Error (RMSE),” n.d.). Le directeur ne saura jamais si un RMSE de 42 est une excellente nouvelle ou une catastrophe financière.
L’erreur de l’Accuracy : Nous l’avons vu, une exactitude de 99 % sur un jeu de données déséquilibré (détection de fraude) masque souvent un modèle qui ne détecte rien. Pour un Comex, vous devez dépasser ces chiffres pour parler de coût d’opportunité et de risque résiduel.

7.1.2 💱 Dictionnaire du Data Translator

Le Data Translator ne prononce jamais les mots “Précision” ou “Rappel” devant le Comex. Il les convertit en monnaie sonnante et trébuchante.

F1-Score (Fraude et Churn) : Équilibre la précision et le rappel.
- Argument technique : “Le modèle a un Recall de 95% et une Précision de 80%.”
- Traduction Business : “L’IA va capturer la quasi-totalité des tentatives de fraude, ce qui va diviser nos pertes financières directes par deux. En contrepartie, 20 % des alertes seront de fausses alarmes, ce qui nécessitera l’embauche temporaire de 2 modérateurs pour ne pas bloquer nos clients légitimes.” (“Evaluation Metrics in Machine Learning” 2026)
RMSE (Supply Chain et Logistique) :
- Argument technique : “Nous avons abaissé la RMSE de 15 à 8.”
- Traduction Business : “Nous avons réduit l’incertitude de nos prévisions de ventes. Cela se traduit par une baisse de 30% des ruptures de stock (ventes manquées) et une diminution massive de nos coûts de surstockage, libérant ainsi 2 millions d’euros de capital immobilisé.”
AUC-ROC (Marketing) :
- Traduction Business : Cette métrique se traduit directement par l’optimisation du Coût d’Acquisition Client (CAC) ou l’efficacité du ciblage publicitaire.

7.1.3 🚀 Framework O.I.A.

Pour éviter le “Data Dumping” (le déversement de statistiques stériles qui endort l’audience), l’industrie utilise le modèle OIA (Turner 2026). Chaque diapositive de votre présentation doit répondre à la question : “So What ?” (Et alors ?).

Observation (Le Fait) : Une donnée brute incontestable. (Ex: Le taux de désabonnement a augmenté de 14 % au dernier trimestre).
Insight (L’Interprétation) : Le “Pourquoi”. (Ex: Notre modèle de Machine Learning montre que cette hausse est fortement corrélée à l’introduction du nouveau parcours de paiement sur mobile).
Action (La Recommandation) : Le choix stratégique. (Ex: Nous devons simplifier l’étape de validation SMS pour réduire la friction immédiate et récupérer 5% de CA).

graph LR
    A[Observation\nLa Donnée Brute] -->|So What ?| B[Insight\nL'explication ML]
    B -->|So What ?| C[Action\nLa Recommandation Business]
    
    style A fill:#268bd2,stroke:#073642,color:#fdf6e3
    style B fill:#cb4b16,stroke:#073642,color:#fdf6e3
    style C fill:#859900,stroke:#073642,color:#fdf6e3

7.2 🕵️‍♂️ Mission 7

BAM ! Les portes de l’entrepôt virtuel explosent. L’équipe de sécurité interpelle Charlie au moment exact où il allait transférer les données à ses acheteurs. L’opération est un succès total !

Mais il reste une dernière tâche, et non des moindres : rédiger le rapport officiel pour le conseil de discipline. Un bon Data Scientist sait transformer ses variables brutes en une histoire compréhensible par tous (le Data Storytelling).

Exécutez la cellule pour recharger en mémoire les pièces à conviction accumulées lors de votre enquête :

# Pièces à conviction rassemblées par les Data Detectives
coupable_identifie = "Charlie"
donnees_volees = "Sujets d'Examens"
nombre_acheteurs_vip = 3
taux_echec_ia_suspect = 100  # 10 échecs sur 10 vrais dangers

print("Pièces à conviction chargées sur le bureau du directeur.")

Votre objectif : Rédiger le rapport automatisé. Utilisez la puissance des f-strings de Python pour injecter directement vos variables dans le texte de conclusion.

7.3 🔺 Pyramide de Minto et SCQA

Le temps, l’ultime ressource

Le temps d’attention d’un décideur (C-Level) est extrêmement limité. Naturellement, un Data Scientist a tendance à présenter son travail de manière chronologique : la collecte, le nettoyage, les tentatives d’algorithmes, et enfin le résultat. C’est la structure d’un film policier (les indices d’abord, le coupable à la fin).

Face à un Comex, vous devez donner le nom du coupable dès la première seconde.

Pour capter l’attention et pousser à l’action, l’industrie s’appuie sur deux frameworks narratifs majeurs.

7.3.1 🔺 Pyramide de Minto

Développée dans les années 1960 par Barbara Minto chez McKinsey, cette approche est devenue le standard mondial de la communication exécutive (“Minto Pyramid & SCQA,” n.d.).

Le principe du “Answer First” (La réponse d’abord) : La Pyramide de Minto renverse l’ordre académique en plaçant la recommandation principale tout en haut avant de descendre vers les détails.
1. La Recommandation (Le Sommet) : L’action demandée à l’audience.
2. Les Arguments de Soutien (Le Milieu) : Généralement 3 arguments clés (ex: gain financier, réduction du risque).
3. Les Données et Preuves (La Base) : Les graphiques, les métriques ML, les détails techniques.
L’Art des “Action Titles” (Titres d’action) : Les titres de diapositives ne doivent jamais être descriptifs.
- À éviter : ❌ “Performance des canaux d’acquisition en 2026” (Neutre).
- À préférer : ✅ “Le canal SEO génère une valeur vie client (LTV) 30% supérieure” (Turner 2026).

7.3.2 📖 Framework SCQA

Pour vos introductions ou vos synthèses exécutives (Executive Summaries), le framework SCQA permet de justifier un investissement technologique en racontant une histoire captivante (“SCQA,” n.d.).

Il se décompose en 4 étapes :

S (Situation) : Le point de départ, le contexte connu et stable.
- Ex: “Notre moteur de recommandation actuel génère 10% de notre chiffre d’affaires.”
C (Complication) : Le problème, l’obstacle ou la menace qui vient perturber la situation.
- Ex: “Cependant, nos concurrents utilisent désormais des modèles en temps réel, captant l’intention d’achat immédiate et réduisant nos parts de marché.”
Q (Question) : La problématique centrale qui découle de la complication.
- Ex: “Comment pouvons-nous moderniser notre infrastructure pour repasser devant la concurrence ?”
A (Answer / Réponse) : La solution stratégique (votre projet Data).
- Ex: “Nous recommandons d’investir 100k€ pour déployer un nouveau modèle de Machine Learning qui personnalisera l’offre à chaque clic, avec un ROI attendu de +15% d’ici 6 mois.”

7.3.3 🏗️ Architecture d’une présentation percutante

Pour maximiser l’impact sur un comité de direction, structurez vos livrables de communication en entonnoir ascendant selon le modèle pyramidal de McKinsey :

flowchart TD
    subgraph Minto [La Pyramide de Minto]
        A[1. Synthèse Executive\nLe SCQA + La Recommandation] --> B[2. Argument 1\nImpact Financier]
        A --> C[2. Argument 2\nImpact Client]
        A --> D[2. Argument 3\nFaisabilité Technique]
        
        B --> E[3. Preuves & Graphiques]
        C --> E
        D --> E
    end
    
    style A fill:#b58900,stroke:#073642,color:#fdf6e3
    style E fill:#eee8d5,stroke:#073642,color:#657b83

7.4 🕹️ Tableaux de Bord Interactifs

La fin du reporting figé

En 2026, fournir un rapport PDF statique à un décideur n’est plus suffisant. L’interactivité n’est plus un gadget esthétique, c’est une nécessité stratégique pour le “drill-down” (l’exploration en profondeur). Un décideur doit pouvoir zoomer sur une région, filtrer par année ou exclure une catégorie d’un simple clic. C’est ici qu’interviennent les Dashboards (Tableaux de bord).

7.4.1 🕹️ Le Moteur Plotly

Avant de construire une application web complète, il faut changer la nature de nos graphiques. Avec Matplotlib ou Seaborn, le code génère une image “morte” (un fichier PNG).

Avec Plotly, le code Python génère un objet web interactif interprété par le navigateur.

Avantage immédiat : L’utilisateur peut survoler les points pour lire les valeurs (Hover), zoomer, ou désactiver des courbes dans la légende.
Haute Performance : Grâce à l’utilisation de WebGL/WebGPU, Plotly peut rendre des millions de points directement dans le navigateur en déchargeant le calcul sur la carte graphique (GPU) (Plotly 2026).

7.4.2 🥊 Streamlit vs Dash

Pour encapsuler ces graphiques Plotly dans une vraie page web avec des boutons, des menus déroulants et des curseurs, le marché est dominé par deux philosophies.

Streamlit : Le Roi du Prototypage

C’est l’outil adoré des Data Scientists pour créer un MVP (Minimum Viable Product) en quelques heures.

Architecture : Il fonctionne sur un modèle de script linéaire. À chaque fois que l’utilisateur clique sur un bouton, le script entier est ré-exécuté de haut en bas.
La limite : Cette exécution linéaire peut être catastrophique en termes de performance si votre code charge un fichier de 5 Go à chaque clic. Il faut donc impérativement maîtriser le système de cache (@st.cache_data) pour mettre les données en mémoire.

Dash by Plotly : L’Échelle Entreprise

C’est le choix privilégié pour des applications de production robustes et complexes (Gotsman 2026).

Architecture : Il repose sur Flask et React.js. Il utilise un système de callbacks asynchrones. Si l’utilisateur clique sur un filtre, seul le graphique concerné est recalculé et rechargé, pas toute la page.
La limite : Une courbe d’apprentissage beaucoup plus abrupte et le risque du “Callback Hell” (quand des dizaines de fonctions de mise à jour s’entrecroisent et deviennent impossibles à maintenir).

7.4.3 🏗️ Architecture d’Exécution

Pour concevoir des applications fluides et performantes, il est crucial de comprendre comment la structure interne du framework réagit aux interactions de l’utilisateur :

flowchart LR
    subgraph Streamlit [Streamlit : Exécution Linéaire]
        S1[Clic Bouton] --> S2[Rechargement complet du script]
        S2 --> S3[Rechargement Data\n'sauf si cache']
        S3 --> S4[Mise à jour Page]
    end

    subgraph Dash [Dash : Callbacks Asynchrones]
        D1[Clic Bouton] --> D2{Callback associé}
        D2 --> D3[Recalcul spécifique]
        D3 --> D4[Mise à jour du Composant Uniquement]
    end
    
    style Streamlit fill:#dc322f,stroke:#073642,color:#fdf6e3
    style Dash fill:#859900,stroke:#073642,color:#fdf6e3

7.4.4 ⚡ Révolution Zéro Latence

Construire des tableaux de bord interactifs sur de l’énorme volumétrie (Big Data) était autrefois synonyme d’interface lente (l’application “freeze” pendant le calcul). L’écosystème Python a résolu cela en 2026 via deux avancées :

L’architecture Apache Arrow : Elle permet le “Zero-copy”. Les données circulent entre votre moteur de calcul (Polars) et votre dashboard web sans nécessiter de coûteuses conversions de formats (Narendran 2026).
CPython 3.14 (Free-threading) : Le verrou global (GIL) de Python ayant été supprimé, les serveurs de dashboards peuvent enfin utiliser le véritable multi-threading pour calculer les filtres des utilisateurs en parallèle sur plusieurs cœurs.

[ACTION REQUISE] : Ajouter capture d’écran d’un Dashboard Streamlit complet (avec sidebar, filtres et graphique interactif Plotly).

7.5 🛡️ Transparence et Limites

L’illusion de la certitude

Un Data Scientist junior a souvent peur d’avouer à sa direction que son modèle n’est pas sûr à 100%. Il va donc présenter un chiffre absolu (ex: “Nous ferons 12% de croissance”). C’est une erreur grave. En 2026, l’éthique de la Data Science impose de communiquer l’incertitude. Un dirigeant préférera toujours un expert qui maîtrise ses marges d’erreur plutôt qu’un “devin” qui se trompe avec aplomb (Worrell 2025).

Pour instaurer une confiance durable avec un Conseil d’Administration, il faut transformer la notion mathématique d’erreur en outil de gestion des risques.

7.5.1 🎲 Deux Visages de l’Incertitude

Un expert doit éduquer ses décideurs sur la nature du risque auquel ils font face (Thom 2026) :

L’Incertitude Aléatoire (Random/Aleatoric) : Elle provient de la variabilité naturelle du monde (ex: la météo, un krach boursier soudain, le comportement humain). Elle est irréductible. On ne peut que l’absorber avec des marges financières (des buffers).
L’Incertitude Épistémique (Knowledge) : Elle est due à un manque de données ou à un modèle trop faible. Elle est réductible. Si le Comex veut réduire ce risque, vous pouvez leur demander du budget pour acheter de nouvelles données ou entraîner un modèle plus puissant.

7.5.2 📊 Communiquer le Doute

Bannissez les prévisions sous forme de points fixes. Utilisez des probabilités et des intervalles.

Intervalles de Confiance (IC) : Au lieu de dire “Ce projet rapportera 2 millions d’euros”, on utilise la statistique pour annoncer : “Nous avons 95% de chances de générer entre 1,6 et 2,4 millions d’euros de ROI” (“Understanding Confidence Intervals and How to Calculate Them,” n.d.). Cela montre que vous maîtrisez la variabilité.
Graphiques pour Dirigeants : Pour rendre l’incertitude actionnable, on utilise des visualisations spécifiques (Team 2025) :
- Graphique en Éventail (Fan Chart) : Utilisé par les banques centrales, il montre un cône s’élargissant au fil du temps. Il illustre visuellement que plus la prédiction est lointaine, plus l’incertitude grandit.
- Graphique en Tornade (Tornado Chart) : Il classe les variables du modèle de la plus impactante à la moins impactante pour voir immédiatement les principaux facteurs de risque.

7.5.3 🤖 GenAI, Hallucinations et XAI

Si vous utilisez des modèles massifs (Deep Learning ou LLMs comme ChatGPT), la communication de leurs limites est une obligation légale et éthique, notamment face au risque d’hallucination (qui peut atteindre plus de 80% d’erreurs sur des tâches juridiques complexes) (“LLM Hallucination Statistics 2026: AI Gets Facts Wrong up to 82% of the Time” 2026).

IA Explicable (XAI) : Un décideur n’acceptera jamais qu’une IA refuse un crédit “parce que l’algorithme l’a dit”. Vous devez utiliser des techniques comme SHAP ou LIME pour ouvrir la “boîte noire” (ex: expliquer le poids du ratio d’endettement).
RAG comme Garde-Fou : L’architecture Retrieval-Augmented Generation force le LLM à lire uniquement dans une base sécurisée interne. Si l’information n’y est pas, il refuse de répondre, bloquant ainsi l’hallucination.

7.5.4 🛡️ Architecture RAG pour le Comex

Pour rassurer vos décideurs sur la fiabilité de l’IA générative et éliminer tout risque d’invention factuelle, voici le flux logique de sécurisation par la recherche documentaire (RAG) :

flowchart LR
    A[Question Utilisateur] --> B[Recherche dans la\nBase Documentaire Interne]
    B --> C{Information\ntrouvée ?}
    C -->|Oui| D[Le LLM synthétise la réponse\navec les sources exactes]
    C -->|Non| E[Le LLM refuse de répondre\nPas d'Hallucination]
    
    style B fill:#268bd2,stroke:#073642,color:#fdf6e3
    style D fill:#859900,stroke:#073642,color:#fdf6e3
    style E fill:#dc322f,stroke:#073642,color:#fdf6e3

7.6 TP3 : L’Exploration Exoplanétaire (Synthèse Kepler)

Pour couronner ce cours, vous allez réaliser un Travail Pratique de synthèse de grande envergure. Vous y appliquerez l’intégralité du cycle de vie des données (les 7 étapes du cycle de la data science) sur un jeu de données réelles d’exoplanètes observées par le télescope spatial Kepler de la NASA.

L’objectif final est de concevoir un pipeline complet : depuis l’acquisition automatisée jusqu’à la modélisation par partitionnement non supervisé (K-Means), pour finir sur le déploiement d’une application web interactive de communication des résultats.

7.6.1 🗺️ Le Cycle de Vie Complet Appliqué

Dans ce TP de synthèse, vous allez parcourir pas à pas les 7 phases fondamentales que nous avons explorées tout au long de ce module :

📥 Acquisition : Importation et téléchargement automatique du jeu de données astrophysiques en utilisant l’API kagglehub.
🧼 Nettoyage : Extraction robuste des valeurs numériques centrales à partir de formats complexes combinant du texte et des incertitudes de mesure symétriques ou asymétriques (ex: 0.7±0.1 ou 1891+56−48) grâce à des expressions régulières (Regex) en Python.
📊 Visualisation : Conception de graphiques statiques avec Matplotlib et interactifs avec Plotly Express en utilisant des échelles logarithmiques pour appréhender les ordres de grandeur spatiaux.
🔍 Analyse Exploratoire (EDA) : Étude des distributions des masses et périodes des planètes, et analyse des méthodes d’observation dominantes (Transit, Vitesse Radiale).
🤖 Modélisation : Transformation logarithmique de Feature Engineering pour corriger l’écrasement des distances et entraînement de l’algorithme de partitionnement non supervisé K-Means (Scikit-Learn).
🎯 Évaluation & Interprétation : Audit statistique et astrophysique des clusters trouvés autonomement par l’IA afin de les faire correspondre aux grandes catégories cosmiques réelles (Jupiters chauds, Mini-Neptunes, Géantes froides).
📢 Communication : Conception et déploiement local d’un tableau de bord interactif avec Dash (Plotly) pour permettre à des tiers d’explorer visuellement vos résultats de classification.

7.6.2 🎯 Objectifs Pédagogiques

Intégration End-to-End : Assembler toutes les compétences du cours au sein d’un unique pipeline opérationnel et reproductible.
Rigueur Algorithmique : Comprendre l’effet d’écrasement des variables à grande dispersion sur la distance euclidienne et savoir appliquer le Feature Engineering adapté.
Esprit Critique & Scientifique : Interpréter physiquement les résultats d’un modèle d’IA et auditer sa cohérence métier.

7.6.3 📁 Fichiers du TP

Vous pouvez explorer l’arborescence des fichiers du TP ci-dessous et télécharger directement l’archive complète de départ :

7.7 🌉 Conclusion

Félicitations ! Vous avez parcouru l’ensemble du cycle de vie de la Data Science, de l’acquisition des données à la communication des résultats. Vous avez maintenant les bases solides pour mener vos propres projets de Data Science.

“Evaluation Metrics in Machine Learning.” 2026. GeeksforGeeks. https://www.geeksforgeeks.org/machine-learning/metrics-for-machine-learning-model/.

Gotsman, Tom. 2026. “Streamlit Vs. Dash for Python Dashboards: Which One Should You Actually Use? (April 2026).” Reflex Blog. https://reflex.dev/blog/streamlit-vs-dash-python-dashboards/.

“LLM Hallucination Statistics 2026: AI Gets Facts Wrong up to 82% of the Time.” 2026. SQ Magazine. https://sqmagazine.co.uk/llm-hallucination-statistics/.

“Minto Pyramid & SCQA.” n.d. ModelThinkers. https://modelthinkers.com/mental-model/minto-pyramid-scqa.

Narendran, Aanchal. 2026. “Polars + DuckDB: The New Power Combo for in-Process Analytics.” Open Source For You. https://www.opensourceforu.com/2026/03/polars-duckdb-the-new-power-combo-for-in-process-analytics/.

Plotly. 2026. “High Performance Visualization in Python.” https://plotly.com/python/performance/.

Rathod, Atman. 2026. “RAG & AI Trust Statistics 2026: From Hallucinations to Reliable AI Systems.” CMARIX. https://www.cmarix.com/blog/rag-ai-statistics/.

“Root Mean Square Error (RMSE).” n.d. C3 AI. https://c3.ai/glossary/data-science/root-mean-square-error-rmse/.

“SCQA.” n.d. story53. https://story53.com/scqa/.

Team, Dev3lop. 2025. “Visualizing Uncertainty: Techniques for Representing Data Confidence.” https://dev3lop.com/blog/visualizing-uncertainty-techniques-for-representing-data-confidence/.

Thom, Maureen. 2026. “Uncertainty Analysis: Definition, Types, Methods and Techniques.” Galorath. https://galorath.com/risk/uncertainty-analysis/.

Turner, Jordan. 2026. “Data Storytelling That Works: 5 Proof-Backed Frameworks for Communicating Insights Clearly.” The Beautiful Blog. https://www.beautiful.ai/blog/data-storytelling-that-works-5-proof-backed-frameworks-for-communicating-insights-clearly.

“Understanding Confidence Intervals and How to Calculate Them.” n.d. Amplitude. https://amplitude.com/explore/experiment/confidence-intervals.

Worrell, Nate. 2025. “Communicating Uncertainty.” The Actuary Magazine. https://www.theactuarymagazine.org/communicating-uncertainty/.