flowchart TD
A[Machine Learning] --> B(Apprentissage Supervisé)
A --> C(Apprentissage Non Supervisé)
B --> D[DonnĂ©es ĂtiquetĂ©es\nLe but : PrĂ©dire l'avenir]
C --> E[Données Brutes\nLe but : Trouver des structures]
D --> F(Classification\nEx: Chien ou Chat ?)
D --> G(Régression\nEx: Quel prix ?)
E --> H(Clustering\nEx: Groupes de clients)
E --> I(Détection d'Anomalies\nEx: Fraude)
style B fill:#268bd2,stroke:#073642,color:#fdf6e3
style C fill:#6c71c4,stroke:#073642,color:#fdf6e3
5 đ€ ModĂ©lisation et Machine Learning
5.1 đ€ SupervisĂ© vs Non SupervisĂ©
Tabulaire vs Non-Structuré : Le choc des réalités
Avant de plonger dans les algorithmes, il faut faire un point sur lâĂ©tat de lâart. On entend beaucoup parler de Deep Learning (RĂ©seaux de Neurones profonds), mais il faut savoir quâils excellent surtout sur des donnĂ©es non structurĂ©es (images, son, texte) qui possĂšdent une hiĂ©rarchie spatiale.
Dans le monde de lâentreprise, 90% des bases de donnĂ©es sont tabulaires (des colonnes hĂ©tĂ©rogĂšnes : Ăąge, revenu, statut). Sur ce terrain, les algorithmes classiques basĂ©s sur les arbres (Random Forest, XGBoost) dominent encore largement lâindustrie face au Deep Learning (Nishida 2026).
Pour naviguer dans cet Ă©cosystĂšme algorithmique, il faut dâabord comprendre la sĂ©paration philosophique majeure du Machine Learning : lâutilisation (ou non) dâĂ©tiquettes.
5.1.1 đšâđ« 1. LâApprentissage SupervisĂ© (Avec Ătiquettes)
Lâapprentissage supervisĂ© est de loin lâapproche la plus utilisĂ©e en entreprise.
- Le Concept : Le modĂšle apprend Ă partir dâun jeu de donnĂ©es oĂč la ârĂ©ponseâ (la cible Ă prĂ©dire) est dĂ©jĂ connue et fournie sous forme dâĂ©tiquette (Label).
- La MĂ©taphore PĂ©dagogique : Imaginez un Ă©lĂšve travaillant sous la tutelle dâun professeur. Le professeur donne des exercices dont les solutions sont Ă©crites au dos de la page. LâĂ©lĂšve fait lâexercice, compare sa rĂ©ponse avec la solution, et ajuste sa mĂ©thode de calcul (ses âpoids synaptiquesâ) en fonction de son erreur pour faire mieux la prochaine fois (Kushwaha and Kudale 2026).
Cas dâusage mĂ©tiers :
Lâobjectif est de formuler des prĂ©dictions concrĂštes sur de nouvelles donnĂ©es.
- Prognostic mĂ©dical : Fournir les symptĂŽmes dâun patient Ă lâIA pour quâelle prĂ©dise la malignitĂ© dâune tumeur (Classification).
- Analyse de risque financier : Ăvaluer la probabilitĂ© quâun client fasse dĂ©faut sur son crĂ©dit immobilier.
- Prévision du Churn : Déterminer si un client va résilier son abonnement le mois prochain.
5.1.2 đ”ïžââïž 2. LâApprentissage Non SupervisĂ© (Sans Ătiquettes)
Ici, il nây a pas de professeur, pas de corrigĂ©, et pas de cible explicite Ă prĂ©dire.
- Le Concept : Lâalgorithme est lĂąchĂ© dans un jeu de donnĂ©es brut et on lui demande de âtrouver du sensâ ou de dĂ©couvrir des structures latentes par lui-mĂȘme.
- La MĂ©taphore PĂ©dagogique : Câest un explorateur (ou un dĂ©tective) qui arrive dans une nouvelle ville sans carte. Il va regrouper les habitants par similaritĂ© (ceux qui sâhabillent pareil, ceux qui frĂ©quentent les mĂȘmes lieux) en se basant sur une notion mathĂ©matique de âdistanceâ (Karl 2024).
Cas dâusage mĂ©tiers :
Lâobjectif est dâexplorer et de structurer la donnĂ©e.
- Segmentation de clientĂšle (Clustering) : Regrouper des clients aux comportements dâachat similaires pour crĂ©er des campagnes marketing ultra-ciblĂ©es, rĂ©vĂ©lant des profils insoupçonnĂ©s par lâĂ©quipe marketing.
- DĂ©tection dâanomalies : Identifier des transactions bancaires dont la structure diverge radicalement de la ânormeâ Ă©tablie par les autres transactions, signalant potentiellement une fraude (Karl 2024).
5.1.3 đ§ SynthĂšse des deux mondes
Pour résumer la bifurcation fondamentale du Machine Learning, voici une cartographie claire distinguant le mode supervisé (guidé par des étiquettes) du mode non supervisé (guidé par la structure intrinsÚque) :
5.2 đ·ïž RĂ©gression vs Classification
đĄ Concept ClĂ© : Apprendre du PassĂ©
Une fois les indices Ă©tiquetĂ©s, nous voulons que la machine apprenne la fonction mathĂ©matique qui relie nos entrĂ©es (ex: caractĂ©ristiques dâun suspect) Ă une sortie (ex: probabilitĂ© de culpabilitĂ©). Selon la nature de ce que lâon prĂ©dit, on choisit son arme : la RĂ©gression ou la Classification.
5.2.1 âïž Comparaison des Approches
Régression
PrĂ©dire une Valeur Lâobjectif est dâestimer un nombre continu.
- Régression Linéaire : Trace la droite la plus proche des points.
- Exemple : PrĂ©dire le prix dâun appartement ou la tempĂ©rature de demain.
Classification
Ranger dans des BoĂźtes Lâobjectif est de prĂ©dire une catĂ©gorie.
- KNN : âDis-moi qui sont tes voisinsâŠâ.
- SVM : Maximiser la marge entre les classes.
- Exemple : Spam ou Non-Spam, Chat ou Chien.
đŹ ExpĂ©rimentation : La Magie du KNN
Le paramĂštre K (le nombre de voisins) est le curseur de sensibilitĂ© de votre enquĂȘteur. Manipulez K pour voir comment la frontiĂšre de dĂ©cision Ă©volue entre le bruit et la tendance lourde.
â ïž Danger : Le Surapprentissage
Un modĂšle trop complexe (ex: KNN avec K=1) apprendra les bruits de la scĂšne de crime par cĆur au lieu de comprendre la logique gĂ©nĂ©rale. Câest ce quâon appelle lâOverfitting.
đ Astuce Pro : Le SVM
Pour les problĂšmes oĂč les classes sont difficilement sĂ©parables, le SVM est votre meilleur alliĂ©. Il cherche Ă tracer lâautoroute la plus large possible entre deux groupes pour Ă©viter toute ambiguĂŻtĂ©.
5.3 đŻ Clustering et PCA
Lâart de lâexploration Ă lâaveugle
Contrairement Ă la rĂ©gression ou la classification, lâapprentissage non supervisĂ© travaille sur des donnĂ©es non Ă©tiquetĂ©es. Lâobjectif nâest pas de prĂ©dire une rĂ©ponse prĂ©cise, mais dâexplorer les donnĂ©es pour y dĂ©couvrir des motifs cachĂ©s ou une structure naturelle (Inconnu 2026). Les deux grandes familles de ces algorithmes sont le Clustering (regroupement) et la RĂ©duction de dimensionnalitĂ©.
5.3.1 đŻ Le Clustering
Le but du clustering est de diviser un jeu de donnĂ©es en groupes (clusters) de telle sorte que les points dâun mĂȘme groupe soient trĂšs similaires, et trĂšs diffĂ©rents des autres groupes.
Le K-Means (Lâalgorithme des centres de gravitĂ©)
Câest le grand classique. Il partitionne les donnĂ©es en un nombre âKâ de groupes en minimisant la distance entre les points et le centre de leur groupe (le CentroĂŻde) (Satish, Bowers, and Bhatt 2026).
- Le Fonctionnement : On place K points au hasard. Chaque donnĂ©e sâaccroche au point le plus proche. Puis, on dĂ©place le point au centre gĂ©omĂ©trique du groupe formĂ©. On recommence jusquâĂ ce que plus rien ne bouge.
- Les Limites : Il nĂ©cessite de dĂ©finir K (le nombre de groupes) Ă lâavance. Surtout, il force la crĂ©ation de clusters de forme sphĂ©rique et est trĂšs vulnĂ©rable aux valeurs aberrantes (Karl 2024).
Le DBSCAN (Lâalgorithme de la foule)
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est basé sur la densité spatiale (Karl 2024).
- LâAvantage : Pas besoin de lui donner un nombre de groupes Ă lâavance ! Il regroupe les points fortement concentrĂ©s et peut dĂ©tecter des clusters de formes arbitraires (ex: une forme de lune ou dâanneau).
- DĂ©tection dâAnomalies : Contrairement au K-Means qui force chaque point Ă rejoindre un groupe, DBSCAN identifie automatiquement les donnĂ©es isolĂ©es comme du âbruitâ (valeurs aberrantes) (Karl 2024).
Interactif : La faille du K-Means
Pour bien comprendre la différence entre ces deux algorithmes, observez comment ils réagissent face à des formes complexes (comme deux demi-lunes imbriquées). K-Means va les couper brutalement avec une ligne droite (car il cherche des sphÚres), tandis que DBSCAN va suivre la courbe de densité.
{"component":"LlmGeneratedComponent","props":{"height":"700px","prompt":"Objectif : CrĂ©er un visualiseur interactif pour comparer les algorithmes de clustering K-Means et DBSCAN.\n\nĂtat des donnĂ©es : \n1. GĂ©nĂ©rer deux ensembles de donnĂ©es virtuels commutables via un menu : 'Nuages sĂ©parĂ©s' (3 groupes sphĂ©riques distincts avec un peu de bruit) et 'Demi-lunes' (deux formes courbes entrelacĂ©es avec du bruit autour).\n\nStratĂ©gie : Standard Layout (Zone de dessin principale avec contrĂŽles sur le cĂŽtĂ© ou en dessous).\n\nContrĂŽles (Interface en Français) :\n1. SĂ©lecteur de jeu de donnĂ©es : 'Nuages (SphĂšres)' vs 'Demi-Lunes (Formes complexes)'.\n2. SĂ©lecteur d'algorithme : 'K-Means' vs 'DBSCAN'.\n3. Si K-Means est sĂ©lectionnĂ© : Afficher un curseur 'Nombre de Clusters (K)' allant de 1 Ă 5.\n4. Si DBSCAN est sĂ©lectionnĂ© : Afficher un curseur 'Rayon de DensitĂ© (Epsilon)' et 'Points minimum'.\n5. Un bouton d'action 'Lancer le Clustering'.\n\nComportement visuel :\n- L'espace central affiche les points en gris avant le clustering.\n- K-Means : Diviser les points gĂ©omĂ©triquement. Sur les 'Demi-Lunes', K-Means doit Ă©chouer Ă sĂ©parer les deux lunes proprement (il doit les couper en deux moitiĂ©s gauche/droite ou haut/bas). Afficher de grosses croix pour marquer les CentroĂŻdes.\n- DBSCAN : Mettre en couleur les formes continues. Sur les 'Demi-Lunes', il doit colorer parfaitement chaque lune d'une couleur distincte. Marquer explicitement les points isolĂ©s en noir (Bruit/Anomalies).","id":"im_025d179412b7f98e"}}
5.3.2 đȘ RĂ©duction de Dimension (PCA)
Imaginez que vous ayez une base de donnĂ©es avec 50 colonnes (dimensions) diffĂ©rentes pour dĂ©crire une maison. Comment visualiser ces maisons sur un Ă©cran en 2D ou 3D ? Câest impossible sans perdre de lâinformation.
La PCA (Analyse en Composantes Principales) est une méthode de réduction de dimensionnalité.
- Le Concept : Au lieu de simplement supprimer 48 colonnes, la PCA fusionne mathĂ©matiquement les 50 colonnes en crĂ©ant de nouvelles âcomposantesâ artificielles. Ces composantes sont calculĂ©es pour maximiser la variance (lâĂ©talement et la richesse) des donnĂ©es originales (Inconnu 2026).
- LâObjectif MĂ©tier : Elle est idĂ©ale pour faciliter la visualisation de donnĂ©es de trĂšs grande dimension (projeter 50 dimensions sur un plan 2D) ou pour rĂ©duire le bruit (supprimer la corrĂ©lation entre les variables) avant dâappliquer dâautres algorithmes comme le K-Means.
[ACTION REQUISE] : Ajouter capture dâĂ©cran dâun graphique 2D montrant des points sĂ©parĂ©s aprĂšs une rĂ©duction PCA depuis un dataset Ă N dimensions.
LâenquĂȘte prend une tournure critique. La dĂ©couverte du vol des sujets dâexamen fait monter la pression : le directeur pĂ©dagogique vient de vous appeler en urgence sur la ligne sĂ©curisĂ©e. Les sujets volĂ©s sont ceux de la prochaine session dâIA des Master 1 ! Il faut absolument identifier Ă qui Charlie compte les vendre avant que la transaction nâait lieu.
Puisque nous cherchons Ă dĂ©couvrir des groupes cachĂ©s dâacheteurs dans une liste de suspects sans savoir Ă lâavance qui ils sont, câest le moment idĂ©al pour introduire lâApprentissage Non SupervisĂ©.
5.4 đ”ïžââïž Mission 5
Le directeur pĂ©dagogique est formel : si ces sujets fuitent, toute lâĂ©valuation des Master 1 devra ĂȘtre annulĂ©e. Heureusement, vous avez mis la main sur le carnet dâadresses de Charlie sur le Dark Web.
Exécutez la cellule ci-dessous pour charger la base des prospects :
import pandas as pd
from sklearn.cluster import KMeans
# Données récupérées sur le serveur de Charlie
donnees_darkweb = {
'pseudo': ['Shadow99', 'NoobMaster', 'IA_Slayer', 'StressMax', 'RichKid', 'GhostHacker', 'BeauGosseDu69'],
'budget_crypto': [50, 20, 2500, 100, 3000, 40, 2800],
'niveau_stress': [2, 1, 9, 8, 10, 3, 9]
}
df_prospects = pd.DataFrame(donnees_darkweb)
print("Carnet d'adresses Dark Web décrypté.")
display(df_prospects)Votre objectif : Demander Ă un algorithme de Clustering (K-Means) de regrouper ces individus en 3 catĂ©gories distinctes, afin dâisoler automatiquement le cluster des âAcheteurs VIPâ (haut budget, haut stress).
5.5 đłïž MĂ©thodes dâEnsemble
Lâintelligence collective
Pourquoi se contenter dâun seul avis quand on peut consulter un jury dâexperts ? Câest la philosophie des mĂ©thodes dâensemble : combiner plusieurs âapprenants faiblesâ (souvent des arbres de dĂ©cision simples) pour crĂ©er un modĂšle âfortâ et rĂ©silient (Kushwaha and Kudale 2026). Pour les donnĂ©es de type Excel ou SQL, ces mĂ©thodes sont aujourdâhui les championnes incontestĂ©es de la prĂ©cision.
Il existe deux grandes philosophies pour faire travailler les modĂšles en groupe : le Bagging et le Boosting.
5.5.1 đłïž Bagging (Random Forest)
Le Bagging (Bootstrap Aggregation) consiste à entraßner de nombreux modÚles de maniÚre indépendante et en parallÚle sur des sous-ensembles aléatoires de vos données.
- La MĂ©taphore : Câest un jury dâassises. Chaque jurĂ© Ă©tudie une partie du dossier de son cĂŽtĂ©. Ă la fin, on fait un vote majoritaire. Comme les erreurs de chaque jurĂ© sont alĂ©atoires, elles tendent Ă sâannuler une fois agrĂ©gĂ©es (Kushwaha and Kudale 2026).
- Le champion : La ForĂȘt AlĂ©atoire (Random Forest). Elle crĂ©e des centaines dâarbres de dĂ©cision. Pour sâassurer quâils ne soient pas tous identiques, elle ajoute du hasard : chaque arbre ne voit quâune partie des colonnes et une partie des lignes.
- Force : TrĂšs robuste contre le sur-ajustement (Overfitting).
5.5.2 đ Boosting (XGBoost)
Le Boosting fonctionne de maniÚre séquentielle. Les modÚles ne sont pas indépendants : ils apprennent les uns des autres.
- La MĂ©taphore : Câest un coureur de fond qui sâentraĂźne avec un coach. Le premier jour, il court et fait des erreurs. Le deuxiĂšme jour, il sâentraĂźne uniquement sur les points oĂč il a Ă©chouĂ© la veille. Chaque nouvel arbre est construit spĂ©cifiquement pour corriger les erreurs (les rĂ©sidus) des prĂ©cĂ©dents (Dalvs 2026).
- Les champions : * XGBoost : Le standard industriel, ultra-optimisé et régularisé.
- LightGBM : Développé par Microsoft, il est beaucoup plus rapide sur les trÚs gros jeux de données car il fait croßtre les arbres par les feuilles plutÎt que par niveaux (Nishida 2026).
- CatBoost : Le spécialiste des variables textuelles (catégorielles), capable de les gérer sans préparation manuelle complexe (Kushwaha and Kudale 2026).
Interactif : Bagging vs Boosting
Comprenez visuellement la diffĂ©rence de stratĂ©gie. Dans le Bagging, les modĂšles sâadditionnent simplement. Dans le Boosting, chaque nouveau modĂšle vient combler les âtrousâ laissĂ©s par ses prĂ©dĂ©cesseurs.
Manipulez les contrĂŽles ci-dessous pour observer comment la ForĂȘt AlĂ©atoire (Bagging) et lâalgorithme XGBoost (Boosting) construisent leurs prĂ©dictions diffĂ©remment.
5.5.3 đ„ Quel camp choisir ?
| Caractéristique | Bagging (Random Forest) | Boosting (XGBoost/LightGBM) |
|---|---|---|
| Ordre | ParallÚle (Indépendant) | Séquentiel (Correctif) |
| Objectif principal | Réduire la Variance (Overfitting) | Réduire le Biais (Précision) |
| Vitesse | TrÚs rapide (Multi-thread) | Plus lent (Séquentiel par nature) |
| Complexité | Facile à régler | Nécessite un réglage fin (HyperparamÚtres) |
5.5.4 đ» ImplĂ©mentation Scikit-Learn
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
# Initialisation du jury (Random Forest)
model_bagging = RandomForestClassifier(n_estimators=100, max_depth=5)
# Initialisation du coach (XGBoost)
model_boosting = XGBClassifier(n_estimators=100, learning_rate=0.1)
# L'entraĂźnement est identique pour les deux
model_bagging.fit(X_train, y_train)
model_boosting.fit(X_train, y_train)5.6 đ§ Concepts ClĂ©s
La quĂȘte de la gĂ©nĂ©ralisation
Le but ultime du Machine Learning nâest pas dâobtenir 100 % de prĂ©cision sur vos donnĂ©es actuelles, mais de performer sur des donnĂ©es que le modĂšle nâa jamais rencontrĂ©es. Pour atteindre cet objectif, lâingĂ©nieur doit naviguer entre deux Ă©cueils : le sous-ajustement et le sur-ajustement (Jiang 2026).
5.6.1 đŻ Compromis Biais-Variance
Câest lâĂ©quilibre dĂ©licat au cĆur de toute modĂ©lisation. Imaginez une cible de tir Ă lâarc.
- Le Biais (LâErreur de Logique) : Câest lâerreur issue dâun modĂšle trop simpliste qui ne comprend pas la complexitĂ© des donnĂ©es. LâĂ©lĂšve applique toujours la mĂȘme formule, mĂȘme quand elle ne convient pas. Un biais Ă©levĂ© mĂšne au Sous-ajustement.
- La Variance (La SensibilitĂ© au Bruit) : Câest lâerreur issue dâun modĂšle trop complexe qui rĂ©agit Ă la moindre petite fluctuation des donnĂ©es dâentraĂźnement. LâĂ©lĂšve apprend par cĆur les exercices mais panique dĂšs quâun mot change dans lâĂ©noncĂ©. Une variance Ă©levĂ©e mĂšne au Sur-ajustement (Ohiri 2026).
5.6.2 â ïž Sous vs Sur-ajustement
- LâUnderfitting (Sous-ajustement) : Le modĂšle est trop simple ou âparesseuxâ.
- La MĂ©taphore : Câest comme essayer dâapprendre Ă faire du vĂ©lo uniquement sur un vĂ©lo dâappartement. Une fois sur le terrain, vos aptitudes seront insuffisantes car vous nâavez pas saisi la complexitĂ© de lâĂ©quilibre rĂ©el.
- Signe : Erreur Ă©levĂ©e Ă lâentraĂźnement ET au test.
- Solution : Augmenter la complexitĂ© du modĂšle ou la durĂ©e de lâentraĂźnement.
- LâOverfitting (Sur-ajustement) : Le modĂšle est âtrop intelligentâ : il mĂ©morise tout, y compris les erreurs et le bruit du passĂ©.
- La MĂ©taphore : Câest lâĂ©lĂšve qui mĂ©morise toutes les rĂ©ponses dâun examen blanc par cĆur. Sâil tombe sur le mĂȘme examen, il a 20/20. Si lâexamen change ne serait-ce quâune question, il Ă©choue car il nâa pas compris la logique, il a juste mĂ©morisĂ© les donnĂ©es.
- Signe : Excellente performance Ă lâentraĂźnement, mais catastrophe au test.
- Solution : Simplifier le modÚle, utiliser plus de données, ou appliquer de la Régularisation.
5.6.3 đ 3. La ThĂ©orie du âHot Messâ (LâIncohĂ©rence des Erreurs)
Des recherches de pointe en 2026 introduisent un concept fascinant : lâincohĂ©rence des erreurs. On a dĂ©couvert que plus les modĂšles deviennent massifs et âintelligentsâ, plus leurs Ă©checs deviennent imprĂ©visibles. Au lieu de faire des erreurs systĂ©matiques (Biais), ils se comportent comme un âHot Messâ (un dĂ©sordre total) oĂč la Variance domine tout (HĂ€gele and al. 2026). Cela signifie que les futurs risques de lâIA ne seront pas forcĂ©ment une âmauvaise directionâ constante, mais des accidents erratiques et imprĂ©visibles.
5.6.4 đ ïž Guide de survie du Data Scientist
| ProblĂšme | SymptĂŽme | RemĂšde principal |
|---|---|---|
| Underfitting | Score faible partout | Utiliser un modÚle plus puissant (ex: passer de Linéaire à XGBoost). |
| Overfitting | Score parfait (train) / Mauvais (test) | RĂ©duire le nombre de variables ou utiliser des mĂ©thodes dâensemble (Random Forest). |
| Hot Mess | Erreurs erratiques et imprĂ©visibles | Augmenter la diversitĂ© des donnĂ©es et stabiliser lâapprentissage. |
5.7 đ Conclusion et Transition
Nous avons explorĂ© les principaux algorithmes de Machine Learning. Cependant, construire un modĂšle ne suffit pas ; il faut ĂȘtre capable de mesurer sa performance de maniĂšre rigoureuse pour sâassurer de sa fiabilitĂ©.
Câest lâobjet du Chapitre 6 : Ăvaluation des ModĂšles.