graph LR
A[Observation\nLa Donnée Brute] -->|So What ?| B[Insight\nL'explication ML]
B -->|So What ?| C[Action\nLa Recommandation Business]
style A fill:#268bd2,stroke:#073642,color:#fdf6e3
style B fill:#cb4b16,stroke:#073642,color:#fdf6e3
style C fill:#859900,stroke:#073642,color:#fdf6e3
7 đą Communication des RĂ©sultats
7.1 đš LâArt du Data Storytelling
Le Paradoxe de lâIA en 2026
En 2026, 78 % des organisations dĂ©clarent utiliser lâIA, mais moins de 31 % des projets franchissent rĂ©ellement lâĂ©tape de la mise en production (Rathod 2026). Ce taux dâĂ©chec massif nâest pas dĂ» Ă de mauvais algorithmes, mais Ă une rupture de communication. Un modĂšle parfait qui ne convainc pas le comitĂ© de direction (Comex) est un modĂšle mort.
Le rÎle du Data Translator (Traducteur de Données) est devenu la fonction la plus critique pour garantir le Retour sur Investissement (ROI) des initiatives analytiques. Son but ? Transformer la technicité brute en un levier de croissance stratégique.
7.1.1 𧱠Métriques et Décideurs
Les indicateurs de performance classiques de la Data Science (vus au Module 6) sont inaudibles, voire trompeurs, pour un dirigeant.
- Lâerreur du RMSE : PrĂ©senter un âRoot Mean Square Errorâ (RMSE) Ă un directeur financier est une faute stratĂ©gique. Le RMSE nâest pas âscale invariantâ (il dĂ©pend de lâĂ©chelle des donnĂ©es) (âRoot Mean Square Error (RMSE),â n.d.). Le directeur ne saura jamais si un RMSE de 42 est une excellente nouvelle ou une catastrophe financiĂšre.
- Lâerreur de lâAccuracy : Nous lâavons vu, une exactitude de 99 % sur un jeu de donnĂ©es dĂ©sĂ©quilibrĂ© (dĂ©tection de fraude) masque souvent un modĂšle qui ne dĂ©tecte rien. Pour un Comex, vous devez dĂ©passer ces chiffres pour parler de coĂ»t dâopportunitĂ© et de risque rĂ©siduel.
7.1.2 đ± Dictionnaire du Data Translator
Le Data Translator ne prononce jamais les mots âPrĂ©cisionâ ou âRappelâ devant le Comex. Il les convertit en monnaie sonnante et trĂ©buchante.
- F1-Score (Fraude et Churn) : Ăquilibre la prĂ©cision et le rappel.
- Argument technique : âLe modĂšle a un Recall de 95% et une PrĂ©cision de 80%.â
- Traduction Business : âLâIA va capturer la quasi-totalitĂ© des tentatives de fraude, ce qui va diviser nos pertes financiĂšres directes par deux. En contrepartie, 20 % des alertes seront de fausses alarmes, ce qui nĂ©cessitera lâembauche temporaire de 2 modĂ©rateurs pour ne pas bloquer nos clients lĂ©gitimes.â (âEvaluation Metrics in Machine Learningâ 2026)
- RMSE (Supply Chain et Logistique) :
- Argument technique : âNous avons abaissĂ© la RMSE de 15 Ă 8.â
- Traduction Business : âNous avons rĂ©duit lâincertitude de nos prĂ©visions de ventes. Cela se traduit par une baisse de 30% des ruptures de stock (ventes manquĂ©es) et une diminution massive de nos coĂ»ts de surstockage, libĂ©rant ainsi 2 millions dâeuros de capital immobilisĂ©.â
- AUC-ROC (Marketing) :
- Traduction Business : Cette mĂ©trique se traduit directement par lâoptimisation du CoĂ»t dâAcquisition Client (CAC) ou lâefficacitĂ© du ciblage publicitaire.
7.1.3 đ Framework O.I.A.
Pour Ă©viter le âData Dumpingâ (le dĂ©versement de statistiques stĂ©riles qui endort lâaudience), lâindustrie utilise le modĂšle OIA (Turner 2026). Chaque diapositive de votre prĂ©sentation doit rĂ©pondre Ă la question : âSo What ?â (Et alors ?).
- Observation (Le Fait) : Une donnée brute incontestable. (Ex: Le taux de désabonnement a augmenté de 14 % au dernier trimestre).
- Insight (LâInterprĂ©tation) : Le âPourquoiâ. (Ex: Notre modĂšle de Machine Learning montre que cette hausse est fortement corrĂ©lĂ©e Ă lâintroduction du nouveau parcours de paiement sur mobile).
- Action (La Recommandation) : Le choix stratĂ©gique. (Ex: Nous devons simplifier lâĂ©tape de validation SMS pour rĂ©duire la friction immĂ©diate et rĂ©cupĂ©rer 5% de CA).
7.2 đ”ïžââïž Mission 7
BAM ! Les portes de lâentrepĂŽt virtuel explosent. LâĂ©quipe de sĂ©curitĂ© interpelle Charlie au moment exact oĂč il allait transfĂ©rer les donnĂ©es Ă ses acheteurs. LâopĂ©ration est un succĂšs total !
Mais il reste une derniÚre tùche, et non des moindres : rédiger le rapport officiel pour le conseil de discipline. Un bon Data Scientist sait transformer ses variables brutes en une histoire compréhensible par tous (le Data Storytelling).
ExĂ©cutez la cellule pour recharger en mĂ©moire les piĂšces Ă conviction accumulĂ©es lors de votre enquĂȘte :
# PiÚces à conviction rassemblées par les Data Detectives
coupable_identifie = "Charlie"
donnees_volees = "Sujets d'Examens"
nombre_acheteurs_vip = 3
taux_echec_ia_suspect = 100 # 10 échecs sur 10 vrais dangers
print("PiÚces à conviction chargées sur le bureau du directeur.")Votre objectif : Rédiger le rapport automatisé. Utilisez la puissance des f-strings de Python pour injecter directement vos variables dans le texte de conclusion.
7.3 đș Pyramide de Minto et SCQA
Le temps, lâultime ressource
Le temps dâattention dâun dĂ©cideur (C-Level) est extrĂȘmement limitĂ©. Naturellement, un Data Scientist a tendance Ă prĂ©senter son travail de maniĂšre chronologique : la collecte, le nettoyage, les tentatives dâalgorithmes, et enfin le rĂ©sultat. Câest la structure dâun film policier (les indices dâabord, le coupable Ă la fin).
Face Ă un Comex, vous devez donner le nom du coupable dĂšs la premiĂšre seconde.
Pour capter lâattention et pousser Ă lâaction, lâindustrie sâappuie sur deux frameworks narratifs majeurs.
7.3.1 đș Pyramide de Minto
DĂ©veloppĂ©e dans les annĂ©es 1960 par Barbara Minto chez McKinsey, cette approche est devenue le standard mondial de la communication exĂ©cutive (âMinto Pyramid & SCQA,â n.d.).
- Le principe du âAnswer Firstâ (La rĂ©ponse dâabord) : La Pyramide de Minto renverse lâordre acadĂ©mique en plaçant la recommandation principale tout en haut avant de descendre vers les dĂ©tails.
- La Recommandation (Le Sommet) : Lâaction demandĂ©e Ă lâaudience.
- Les Arguments de Soutien (Le Milieu) : Généralement 3 arguments clés (ex: gain financier, réduction du risque).
- Les Données et Preuves (La Base) : Les graphiques, les métriques ML, les détails techniques.
- LâArt des âAction Titlesâ (Titres dâaction) : Les titres de diapositives ne doivent jamais ĂȘtre descriptifs.
- Ă Ă©viter : â âPerformance des canaux dâacquisition en 2026â (Neutre).
- Ă prĂ©fĂ©rer : â âLe canal SEO gĂ©nĂšre une valeur vie client (LTV) 30% supĂ©rieureâ (Turner 2026).
7.3.2 đ Framework SCQA
Pour vos introductions ou vos synthĂšses exĂ©cutives (Executive Summaries), le framework SCQA permet de justifier un investissement technologique en racontant une histoire captivante (âSCQA,â n.d.).
Il se décompose en 4 étapes :
- S (Situation) : Le point de départ, le contexte connu et stable.
- Ex: âNotre moteur de recommandation actuel gĂ©nĂšre 10% de notre chiffre dâaffaires.â
- C (Complication) : Le problĂšme, lâobstacle ou la menace qui vient perturber la situation.
- Ex: âCependant, nos concurrents utilisent dĂ©sormais des modĂšles en temps rĂ©el, captant lâintention dâachat immĂ©diate et rĂ©duisant nos parts de marchĂ©.â
- Q (Question) : La problématique centrale qui découle de la complication.
- Ex: âComment pouvons-nous moderniser notre infrastructure pour repasser devant la concurrence ?â
- A (Answer / Réponse) : La solution stratégique (votre projet Data).
- Ex: âNous recommandons dâinvestir 100k⏠pour dĂ©ployer un nouveau modĂšle de Machine Learning qui personnalisera lâoffre Ă chaque clic, avec un ROI attendu de +15% dâici 6 mois.â
7.3.3 đïž Architecture dâune prĂ©sentation percutante
Pour maximiser lâimpact sur un comitĂ© de direction, structurez vos livrables de communication en entonnoir ascendant selon le modĂšle pyramidal de McKinsey :
flowchart TD
subgraph Minto [La Pyramide de Minto]
A[1. SynthĂšse Executive\nLe SCQA + La Recommandation] --> B[2. Argument 1\nImpact Financier]
A --> C[2. Argument 2\nImpact Client]
A --> D[2. Argument 3\nFaisabilité Technique]
B --> E[3. Preuves & Graphiques]
C --> E
D --> E
end
style A fill:#b58900,stroke:#073642,color:#fdf6e3
style E fill:#eee8d5,stroke:#073642,color:#657b83
7.4 đčïž Tableaux de Bord Interactifs
La fin du reporting figé
En 2026, fournir un rapport PDF statique Ă un dĂ©cideur nâest plus suffisant. LâinteractivitĂ© nâest plus un gadget esthĂ©tique, câest une nĂ©cessitĂ© stratĂ©gique pour le âdrill-downâ (lâexploration en profondeur). Un dĂ©cideur doit pouvoir zoomer sur une rĂ©gion, filtrer par annĂ©e ou exclure une catĂ©gorie dâun simple clic. Câest ici quâinterviennent les Dashboards (Tableaux de bord).
7.4.1 đčïž Le Moteur Plotly
Avant de construire une application web complĂšte, il faut changer la nature de nos graphiques. Avec Matplotlib ou Seaborn, le code gĂ©nĂšre une image âmorteâ (un fichier PNG).
Avec Plotly, le code Python génÚre un objet web interactif interprété par le navigateur.
- Avantage immĂ©diat : Lâutilisateur peut survoler les points pour lire les valeurs (Hover), zoomer, ou dĂ©sactiver des courbes dans la lĂ©gende.
- Haute Performance : GrĂące Ă lâutilisation de WebGL/WebGPU, Plotly peut rendre des millions de points directement dans le navigateur en dĂ©chargeant le calcul sur la carte graphique (GPU) (Plotly 2026).
7.4.2 đ„ Streamlit vs Dash
Pour encapsuler ces graphiques Plotly dans une vraie page web avec des boutons, des menus déroulants et des curseurs, le marché est dominé par deux philosophies.
Streamlit : Le Roi du Prototypage
Câest lâoutil adorĂ© des Data Scientists pour crĂ©er un MVP (Minimum Viable Product) en quelques heures.
- Architecture : Il fonctionne sur un modĂšle de script linĂ©aire. Ă chaque fois que lâutilisateur clique sur un bouton, le script entier est rĂ©-exĂ©cutĂ© de haut en bas.
- La limite : Cette exĂ©cution linĂ©aire peut ĂȘtre catastrophique en termes de performance si votre code charge un fichier de 5 Go Ă chaque clic. Il faut donc impĂ©rativement maĂźtriser le systĂšme de cache (
@st.cache_data) pour mettre les données en mémoire.
Dash by Plotly : LâĂchelle Entreprise
Câest le choix privilĂ©giĂ© pour des applications de production robustes et complexes (Gotsman 2026).
- Architecture : Il repose sur Flask et React.js. Il utilise un systĂšme de callbacks asynchrones. Si lâutilisateur clique sur un filtre, seul le graphique concernĂ© est recalculĂ© et rechargĂ©, pas toute la page.
- La limite : Une courbe dâapprentissage beaucoup plus abrupte et le risque du âCallback Hellâ (quand des dizaines de fonctions de mise Ă jour sâentrecroisent et deviennent impossibles Ă maintenir).
7.4.3 đïž Architecture dâExĂ©cution
Pour concevoir des applications fluides et performantes, il est crucial de comprendre comment la structure interne du framework rĂ©agit aux interactions de lâutilisateur :
flowchart LR
subgraph Streamlit [Streamlit : Exécution Linéaire]
S1[Clic Bouton] --> S2[Rechargement complet du script]
S2 --> S3[Rechargement Data\n'sauf si cache']
S3 --> S4[Mise Ă jour Page]
end
subgraph Dash [Dash : Callbacks Asynchrones]
D1[Clic Bouton] --> D2{Callback associé}
D2 --> D3[Recalcul spécifique]
D3 --> D4[Mise Ă jour du Composant Uniquement]
end
style Streamlit fill:#dc322f,stroke:#073642,color:#fdf6e3
style Dash fill:#859900,stroke:#073642,color:#fdf6e3
7.4.4 ⥠Révolution Zéro Latence
Construire des tableaux de bord interactifs sur de lâĂ©norme volumĂ©trie (Big Data) Ă©tait autrefois synonyme dâinterface lente (lâapplication âfreezeâ pendant le calcul). LâĂ©cosystĂšme Python a rĂ©solu cela en 2026 via deux avancĂ©es :
- Lâarchitecture Apache Arrow : Elle permet le âZero-copyâ. Les donnĂ©es circulent entre votre moteur de calcul (Polars) et votre dashboard web sans nĂ©cessiter de coĂ»teuses conversions de formats (Narendran 2026).
- CPython 3.14 (Free-threading) : Le verrou global (GIL) de Python ayant Ă©tĂ© supprimĂ©, les serveurs de dashboards peuvent enfin utiliser le vĂ©ritable multi-threading pour calculer les filtres des utilisateurs en parallĂšle sur plusieurs cĆurs.
[ACTION REQUISE] : Ajouter capture dâĂ©cran dâun Dashboard Streamlit complet (avec sidebar, filtres et graphique interactif Plotly).
7.5 đĄïž Transparence et Limites
Lâillusion de la certitude
Un Data Scientist junior a souvent peur dâavouer Ă sa direction que son modĂšle nâest pas sĂ»r Ă 100%. Il va donc prĂ©senter un chiffre absolu (ex: âNous ferons 12% de croissanceâ). Câest une erreur grave. En 2026, lâĂ©thique de la Data Science impose de communiquer lâincertitude. Un dirigeant prĂ©fĂ©rera toujours un expert qui maĂźtrise ses marges dâerreur plutĂŽt quâun âdevinâ qui se trompe avec aplomb (Worrell 2025).
Pour instaurer une confiance durable avec un Conseil dâAdministration, il faut transformer la notion mathĂ©matique dâerreur en outil de gestion des risques.
7.5.1 đČ Deux Visages de lâIncertitude
Un expert doit éduquer ses décideurs sur la nature du risque auquel ils font face (Thom 2026) :
- LâIncertitude AlĂ©atoire (Random/Aleatoric) : Elle provient de la variabilitĂ© naturelle du monde (ex: la mĂ©tĂ©o, un krach boursier soudain, le comportement humain). Elle est irrĂ©ductible. On ne peut que lâabsorber avec des marges financiĂšres (des buffers).
- LâIncertitude ĂpistĂ©mique (Knowledge) : Elle est due Ă un manque de donnĂ©es ou Ă un modĂšle trop faible. Elle est rĂ©ductible. Si le Comex veut rĂ©duire ce risque, vous pouvez leur demander du budget pour acheter de nouvelles donnĂ©es ou entraĂźner un modĂšle plus puissant.
7.5.2 đ Communiquer le Doute
Bannissez les prévisions sous forme de points fixes. Utilisez des probabilités et des intervalles.
- Intervalles de Confiance (IC) : Au lieu de dire âCe projet rapportera 2 millions dâeurosâ, on utilise la statistique pour annoncer : âNous avons 95% de chances de gĂ©nĂ©rer entre 1,6 et 2,4 millions dâeuros de ROIâ (âUnderstanding Confidence Intervals and How to Calculate Them,â n.d.). Cela montre que vous maĂźtrisez la variabilitĂ©.
- Graphiques pour Dirigeants : Pour rendre lâincertitude actionnable, on utilise des visualisations spĂ©cifiques (Team 2025) :
- Graphique en Ăventail (Fan Chart) : UtilisĂ© par les banques centrales, il montre un cĂŽne sâĂ©largissant au fil du temps. Il illustre visuellement que plus la prĂ©diction est lointaine, plus lâincertitude grandit.
- Graphique en Tornade (Tornado Chart) : Il classe les variables du modÚle de la plus impactante à la moins impactante pour voir immédiatement les principaux facteurs de risque.
7.5.3 đ€ GenAI, Hallucinations et XAI
Si vous utilisez des modĂšles massifs (Deep Learning ou LLMs comme ChatGPT), la communication de leurs limites est une obligation lĂ©gale et Ă©thique, notamment face au risque dâhallucination (qui peut atteindre plus de 80% dâerreurs sur des tĂąches juridiques complexes) (âLLM Hallucination Statistics 2026: AI Gets Facts Wrong up to 82% of the Timeâ 2026).
- IA Explicable (XAI) : Un dĂ©cideur nâacceptera jamais quâune IA refuse un crĂ©dit âparce que lâalgorithme lâa ditâ. Vous devez utiliser des techniques comme SHAP ou LIME pour ouvrir la âboĂźte noireâ (ex: expliquer le poids du ratio dâendettement).
- RAG comme Garde-Fou : Lâarchitecture Retrieval-Augmented Generation force le LLM Ă lire uniquement dans une base sĂ©curisĂ©e interne. Si lâinformation nây est pas, il refuse de rĂ©pondre, bloquant ainsi lâhallucination.
7.5.4 đĄïž Architecture RAG pour le Comex
Pour rassurer vos dĂ©cideurs sur la fiabilitĂ© de lâIA gĂ©nĂ©rative et Ă©liminer tout risque dâinvention factuelle, voici le flux logique de sĂ©curisation par la recherche documentaire (RAG) :
flowchart LR
A[Question Utilisateur] --> B[Recherche dans la\nBase Documentaire Interne]
B --> C{Information\ntrouvée ?}
C -->|Oui| D[Le LLM synthétise la réponse\navec les sources exactes]
C -->|Non| E[Le LLM refuse de répondre\nPas d'Hallucination]
style B fill:#268bd2,stroke:#073642,color:#fdf6e3
style D fill:#859900,stroke:#073642,color:#fdf6e3
style E fill:#dc322f,stroke:#073642,color:#fdf6e3
7.6 TP3 : LâExploration ExoplanĂ©taire (SynthĂšse Kepler)
Pour couronner ce cours, vous allez rĂ©aliser un Travail Pratique de synthĂšse de grande envergure. Vous y appliquerez lâintĂ©gralitĂ© du cycle de vie des donnĂ©es (les 7 Ă©tapes du cycle de la data science) sur un jeu de donnĂ©es rĂ©elles dâexoplanĂštes observĂ©es par le tĂ©lescope spatial Kepler de la NASA.
Lâobjectif final est de concevoir un pipeline complet : depuis lâacquisition automatisĂ©e jusquâĂ la modĂ©lisation par partitionnement non supervisĂ© (K-Means), pour finir sur le dĂ©ploiement dâune application web interactive de communication des rĂ©sultats.
7.6.1 đșïž Le Cycle de Vie Complet AppliquĂ©
Dans ce TP de synthÚse, vous allez parcourir pas à pas les 7 phases fondamentales que nous avons explorées tout au long de ce module :
- đ„ Acquisition : Importation et tĂ©lĂ©chargement automatique du jeu de donnĂ©es astrophysiques en utilisant lâAPI
kagglehub. - đ§Œ Nettoyage : Extraction robuste des valeurs numĂ©riques centrales Ă partir de formats complexes combinant du texte et des incertitudes de mesure symĂ©triques ou asymĂ©triques (ex:
0.7±0.1ou1891+56â48) grĂące Ă des expressions rĂ©guliĂšres (Regex) en Python. - đ Visualisation : Conception de graphiques statiques avec Matplotlib et interactifs avec Plotly Express en utilisant des Ă©chelles logarithmiques pour apprĂ©hender les ordres de grandeur spatiaux.
- đ Analyse Exploratoire (EDA) : Ătude des distributions des masses et pĂ©riodes des planĂštes, et analyse des mĂ©thodes dâobservation dominantes (Transit, Vitesse Radiale).
- đ€ ModĂ©lisation : Transformation logarithmique de Feature Engineering pour corriger lâĂ©crasement des distances et entraĂźnement de lâalgorithme de partitionnement non supervisĂ© K-Means (Scikit-Learn).
- đŻ Ăvaluation & InterprĂ©tation : Audit statistique et astrophysique des clusters trouvĂ©s autonomement par lâIA afin de les faire correspondre aux grandes catĂ©gories cosmiques rĂ©elles (Jupiters chauds, Mini-Neptunes, GĂ©antes froides).
- đą Communication : Conception et dĂ©ploiement local dâun tableau de bord interactif avec Dash (Plotly) pour permettre Ă des tiers dâexplorer visuellement vos rĂ©sultats de classification.
7.6.2 đŻ Objectifs PĂ©dagogiques
- IntĂ©gration End-to-End : Assembler toutes les compĂ©tences du cours au sein dâun unique pipeline opĂ©rationnel et reproductible.
- Rigueur Algorithmique : Comprendre lâeffet dâĂ©crasement des variables Ă grande dispersion sur la distance euclidienne et savoir appliquer le Feature Engineering adaptĂ©.
- Esprit Critique & Scientifique : InterprĂ©ter physiquement les rĂ©sultats dâun modĂšle dâIA et auditer sa cohĂ©rence mĂ©tier.
7.6.3 đ Fichiers du TP
Vous pouvez explorer lâarborescence des fichiers du TP ci-dessous et tĂ©lĂ©charger directement lâarchive complĂšte de dĂ©part :
7.7 đ Conclusion
FĂ©licitations ! Vous avez parcouru lâensemble du cycle de vie de la Data Science, de lâacquisition des donnĂ©es Ă la communication des rĂ©sultats. Vous avez maintenant les bases solides pour mener vos propres projets de Data Science.