5  đŸ€– ModĂ©lisation et Machine Learning

5.1 đŸ€– SupervisĂ© vs Non SupervisĂ©

Tabulaire vs Non-Structuré : Le choc des réalités

Avant de plonger dans les algorithmes, il faut faire un point sur l’état de l’art. On entend beaucoup parler de Deep Learning (RĂ©seaux de Neurones profonds), mais il faut savoir qu’ils excellent surtout sur des donnĂ©es non structurĂ©es (images, son, texte) qui possĂšdent une hiĂ©rarchie spatiale.

Dans le monde de l’entreprise, 90% des bases de donnĂ©es sont tabulaires (des colonnes hĂ©tĂ©rogĂšnes : Ăąge, revenu, statut). Sur ce terrain, les algorithmes classiques basĂ©s sur les arbres (Random Forest, XGBoost) dominent encore largement l’industrie face au Deep Learning (Nishida 2026).

Pour naviguer dans cet Ă©cosystĂšme algorithmique, il faut d’abord comprendre la sĂ©paration philosophique majeure du Machine Learning : l’utilisation (ou non) d’étiquettes.

5.1.1 đŸ‘šâ€đŸ« 1. L’Apprentissage SupervisĂ© (Avec Étiquettes)

L’apprentissage supervisĂ© est de loin l’approche la plus utilisĂ©e en entreprise.

  • Le Concept : Le modĂšle apprend Ă  partir d’un jeu de donnĂ©es oĂč la “rĂ©ponse” (la cible Ă  prĂ©dire) est dĂ©jĂ  connue et fournie sous forme d’étiquette (Label).
  • La MĂ©taphore PĂ©dagogique : Imaginez un Ă©lĂšve travaillant sous la tutelle d’un professeur. Le professeur donne des exercices dont les solutions sont Ă©crites au dos de la page. L’élĂšve fait l’exercice, compare sa rĂ©ponse avec la solution, et ajuste sa mĂ©thode de calcul (ses “poids synaptiques”) en fonction de son erreur pour faire mieux la prochaine fois (Kushwaha and Kudale 2026).

Cas d’usage mĂ©tiers :

L’objectif est de formuler des prĂ©dictions concrĂštes sur de nouvelles donnĂ©es.

  • Prognostic mĂ©dical : Fournir les symptĂŽmes d’un patient Ă  l’IA pour qu’elle prĂ©dise la malignitĂ© d’une tumeur (Classification).
  • Analyse de risque financier : Évaluer la probabilitĂ© qu’un client fasse dĂ©faut sur son crĂ©dit immobilier.
  • PrĂ©vision du Churn : DĂ©terminer si un client va rĂ©silier son abonnement le mois prochain.

5.1.2 đŸ•”ïžâ€â™‚ïž 2. L’Apprentissage Non SupervisĂ© (Sans Étiquettes)

Ici, il n’y a pas de professeur, pas de corrigĂ©, et pas de cible explicite Ă  prĂ©dire.

  • Le Concept : L’algorithme est lĂąchĂ© dans un jeu de donnĂ©es brut et on lui demande de “trouver du sens” ou de dĂ©couvrir des structures latentes par lui-mĂȘme.
  • La MĂ©taphore PĂ©dagogique : C’est un explorateur (ou un dĂ©tective) qui arrive dans une nouvelle ville sans carte. Il va regrouper les habitants par similaritĂ© (ceux qui s’habillent pareil, ceux qui frĂ©quentent les mĂȘmes lieux) en se basant sur une notion mathĂ©matique de “distance” (Karl 2024).

Cas d’usage mĂ©tiers :

L’objectif est d’explorer et de structurer la donnĂ©e.

  • Segmentation de clientĂšle (Clustering) : Regrouper des clients aux comportements d’achat similaires pour crĂ©er des campagnes marketing ultra-ciblĂ©es, rĂ©vĂ©lant des profils insoupçonnĂ©s par l’équipe marketing.
  • DĂ©tection d’anomalies : Identifier des transactions bancaires dont la structure diverge radicalement de la “norme” Ă©tablie par les autres transactions, signalant potentiellement une fraude (Karl 2024).

5.1.3 🧠 Synthùse des deux mondes

Pour résumer la bifurcation fondamentale du Machine Learning, voici une cartographie claire distinguant le mode supervisé (guidé par des étiquettes) du mode non supervisé (guidé par la structure intrinsÚque) :

flowchart TD
    A[Machine Learning] --> B(Apprentissage Supervisé)
    A --> C(Apprentissage Non Supervisé)
    
    B --> D[DonnĂ©es ÉtiquetĂ©es\nLe but : PrĂ©dire l'avenir]
    C --> E[Données Brutes\nLe but : Trouver des structures]
    
    D --> F(Classification\nEx: Chien ou Chat ?)
    D --> G(Régression\nEx: Quel prix ?)
    
    E --> H(Clustering\nEx: Groupes de clients)
    E --> I(Détection d'Anomalies\nEx: Fraude)
    
    style B fill:#268bd2,stroke:#073642,color:#fdf6e3
    style C fill:#6c71c4,stroke:#073642,color:#fdf6e3

5.2 đŸ·ïž RĂ©gression vs Classification

💡 Concept ClĂ© : Apprendre du PassĂ©

Une fois les indices Ă©tiquetĂ©s, nous voulons que la machine apprenne la fonction mathĂ©matique qui relie nos entrĂ©es (ex: caractĂ©ristiques d’un suspect) Ă  une sortie (ex: probabilitĂ© de culpabilitĂ©). Selon la nature de ce que l’on prĂ©dit, on choisit son arme : la RĂ©gression ou la Classification.

5.2.1 ⚖ Comparaison des Approches

Régression

PrĂ©dire une Valeur L’objectif est d’estimer un nombre continu.

  • RĂ©gression LinĂ©aire : Trace la droite la plus proche des points.
  • Exemple : PrĂ©dire le prix d’un appartement ou la tempĂ©rature de demain.

Classification

Ranger dans des BoĂźtes L’objectif est de prĂ©dire une catĂ©gorie.

  • KNN : “Dis-moi qui sont tes voisins
”.
  • SVM : Maximiser la marge entre les classes.
  • Exemple : Spam ou Non-Spam, Chat ou Chien.

🔬 ExpĂ©rimentation : La Magie du KNN

Le paramĂštre K (le nombre de voisins) est le curseur de sensibilitĂ© de votre enquĂȘteur. Manipulez K pour voir comment la frontiĂšre de dĂ©cision Ă©volue entre le bruit et la tendance lourde.

⚠ Danger : Le Surapprentissage

Un modĂšle trop complexe (ex: KNN avec K=1) apprendra les bruits de la scĂšne de crime par cƓur au lieu de comprendre la logique gĂ©nĂ©rale. C’est ce qu’on appelle l’Overfitting.

🎒 Astuce Pro : Le SVM

Pour les problĂšmes oĂč les classes sont difficilement sĂ©parables, le SVM est votre meilleur alliĂ©. Il cherche Ă  tracer l’autoroute la plus large possible entre deux groupes pour Ă©viter toute ambiguĂŻtĂ©.

5.3 🎯 Clustering et PCA

L’art de l’exploration à l’aveugle

Contrairement Ă  la rĂ©gression ou la classification, l’apprentissage non supervisĂ© travaille sur des donnĂ©es non Ă©tiquetĂ©es. L’objectif n’est pas de prĂ©dire une rĂ©ponse prĂ©cise, mais d’explorer les donnĂ©es pour y dĂ©couvrir des motifs cachĂ©s ou une structure naturelle (Inconnu 2026). Les deux grandes familles de ces algorithmes sont le Clustering (regroupement) et la RĂ©duction de dimensionnalitĂ©.

5.3.1 🎯 Le Clustering

Le but du clustering est de diviser un jeu de donnĂ©es en groupes (clusters) de telle sorte que les points d’un mĂȘme groupe soient trĂšs similaires, et trĂšs diffĂ©rents des autres groupes.

Le K-Means (L’algorithme des centres de gravitĂ©)

C’est le grand classique. Il partitionne les donnĂ©es en un nombre “K” de groupes en minimisant la distance entre les points et le centre de leur groupe (le CentroĂŻde) (Satish, Bowers, and Bhatt 2026).

  • Le Fonctionnement : On place K points au hasard. Chaque donnĂ©e s’accroche au point le plus proche. Puis, on dĂ©place le point au centre gĂ©omĂ©trique du groupe formĂ©. On recommence jusqu’à ce que plus rien ne bouge.
  • Les Limites : Il nĂ©cessite de dĂ©finir K (le nombre de groupes) Ă  l’avance. Surtout, il force la crĂ©ation de clusters de forme sphĂ©rique et est trĂšs vulnĂ©rable aux valeurs aberrantes (Karl 2024).

Le DBSCAN (L’algorithme de la foule)

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est basé sur la densité spatiale (Karl 2024).

  • L’Avantage : Pas besoin de lui donner un nombre de groupes Ă  l’avance ! Il regroupe les points fortement concentrĂ©s et peut dĂ©tecter des clusters de formes arbitraires (ex: une forme de lune ou d’anneau).
  • DĂ©tection d’Anomalies : Contrairement au K-Means qui force chaque point Ă  rejoindre un groupe, DBSCAN identifie automatiquement les donnĂ©es isolĂ©es comme du “bruit” (valeurs aberrantes) (Karl 2024).

Interactif : La faille du K-Means

Pour bien comprendre la différence entre ces deux algorithmes, observez comment ils réagissent face à des formes complexes (comme deux demi-lunes imbriquées). K-Means va les couper brutalement avec une ligne droite (car il cherche des sphÚres), tandis que DBSCAN va suivre la courbe de densité.

{"component":"LlmGeneratedComponent","props":{"height":"700px","prompt":"Objectif : CrĂ©er un visualiseur interactif pour comparer les algorithmes de clustering K-Means et DBSCAN.\n\nÉtat des donnĂ©es : \n1. GĂ©nĂ©rer deux ensembles de donnĂ©es virtuels commutables via un menu : 'Nuages sĂ©parĂ©s' (3 groupes sphĂ©riques distincts avec un peu de bruit) et 'Demi-lunes' (deux formes courbes entrelacĂ©es avec du bruit autour).\n\nStratĂ©gie : Standard Layout (Zone de dessin principale avec contrĂŽles sur le cĂŽtĂ© ou en dessous).\n\nContrĂŽles (Interface en Français) :\n1. SĂ©lecteur de jeu de donnĂ©es : 'Nuages (SphĂšres)' vs 'Demi-Lunes (Formes complexes)'.\n2. SĂ©lecteur d'algorithme : 'K-Means' vs 'DBSCAN'.\n3. Si K-Means est sĂ©lectionnĂ© : Afficher un curseur 'Nombre de Clusters (K)' allant de 1 Ă  5.\n4. Si DBSCAN est sĂ©lectionnĂ© : Afficher un curseur 'Rayon de DensitĂ© (Epsilon)' et 'Points minimum'.\n5. Un bouton d'action 'Lancer le Clustering'.\n\nComportement visuel :\n- L'espace central affiche les points en gris avant le clustering.\n- K-Means : Diviser les points gĂ©omĂ©triquement. Sur les 'Demi-Lunes', K-Means doit Ă©chouer Ă  sĂ©parer les deux lunes proprement (il doit les couper en deux moitiĂ©s gauche/droite ou haut/bas). Afficher de grosses croix pour marquer les CentroĂŻdes.\n- DBSCAN : Mettre en couleur les formes continues. Sur les 'Demi-Lunes', il doit colorer parfaitement chaque lune d'une couleur distincte. Marquer explicitement les points isolĂ©s en noir (Bruit/Anomalies).","id":"im_025d179412b7f98e"}}

5.3.2 đŸȘ„ RĂ©duction de Dimension (PCA)

Imaginez que vous ayez une base de donnĂ©es avec 50 colonnes (dimensions) diffĂ©rentes pour dĂ©crire une maison. Comment visualiser ces maisons sur un Ă©cran en 2D ou 3D ? C’est impossible sans perdre de l’information.

La PCA (Analyse en Composantes Principales) est une méthode de réduction de dimensionnalité.

  • Le Concept : Au lieu de simplement supprimer 48 colonnes, la PCA fusionne mathĂ©matiquement les 50 colonnes en crĂ©ant de nouvelles “composantes” artificielles. Ces composantes sont calculĂ©es pour maximiser la variance (l’étalement et la richesse) des donnĂ©es originales (Inconnu 2026).
  • L’Objectif MĂ©tier : Elle est idĂ©ale pour faciliter la visualisation de donnĂ©es de trĂšs grande dimension (projeter 50 dimensions sur un plan 2D) ou pour rĂ©duire le bruit (supprimer la corrĂ©lation entre les variables) avant d’appliquer d’autres algorithmes comme le K-Means.

[ACTION REQUISE] : Ajouter capture d’écran d’un graphique 2D montrant des points sĂ©parĂ©s aprĂšs une rĂ©duction PCA depuis un dataset Ă  N dimensions.

L’enquĂȘte prend une tournure critique. La dĂ©couverte du vol des sujets d’examen fait monter la pression : le directeur pĂ©dagogique vient de vous appeler en urgence sur la ligne sĂ©curisĂ©e. Les sujets volĂ©s sont ceux de la prochaine session d’IA des Master 1 ! Il faut absolument identifier Ă  qui Charlie compte les vendre avant que la transaction n’ait lieu.

Puisque nous cherchons Ă  dĂ©couvrir des groupes cachĂ©s d’acheteurs dans une liste de suspects sans savoir Ă  l’avance qui ils sont, c’est le moment idĂ©al pour introduire l’Apprentissage Non SupervisĂ©.

5.4 đŸ•”ïžâ€â™‚ïž Mission 5

Le directeur pĂ©dagogique est formel : si ces sujets fuitent, toute l’évaluation des Master 1 devra ĂȘtre annulĂ©e. Heureusement, vous avez mis la main sur le carnet d’adresses de Charlie sur le Dark Web.

Exécutez la cellule ci-dessous pour charger la base des prospects :

import pandas as pd
from sklearn.cluster import KMeans

# Données récupérées sur le serveur de Charlie
donnees_darkweb = {
    'pseudo': ['Shadow99', 'NoobMaster', 'IA_Slayer', 'StressMax', 'RichKid', 'GhostHacker', 'BeauGosseDu69'],
    'budget_crypto': [50, 20, 2500, 100, 3000, 40, 2800],
    'niveau_stress': [2, 1, 9, 8, 10, 3, 9]
}
df_prospects = pd.DataFrame(donnees_darkweb)

print("Carnet d'adresses Dark Web décrypté.")
display(df_prospects)

Votre objectif : Demander Ă  un algorithme de Clustering (K-Means) de regrouper ces individus en 3 catĂ©gories distinctes, afin d’isoler automatiquement le cluster des “Acheteurs VIP” (haut budget, haut stress).

5.5 đŸ—łïž MĂ©thodes d’Ensemble

L’intelligence collective

Pourquoi se contenter d’un seul avis quand on peut consulter un jury d’experts ? C’est la philosophie des mĂ©thodes d’ensemble : combiner plusieurs “apprenants faibles” (souvent des arbres de dĂ©cision simples) pour crĂ©er un modĂšle “fort” et rĂ©silient (Kushwaha and Kudale 2026). Pour les donnĂ©es de type Excel ou SQL, ces mĂ©thodes sont aujourd’hui les championnes incontestĂ©es de la prĂ©cision.

Il existe deux grandes philosophies pour faire travailler les modĂšles en groupe : le Bagging et le Boosting.

5.5.1 đŸ—łïž Bagging (Random Forest)

Le Bagging (Bootstrap Aggregation) consiste à entraßner de nombreux modÚles de maniÚre indépendante et en parallÚle sur des sous-ensembles aléatoires de vos données.

  • La MĂ©taphore : C’est un jury d’assises. Chaque jurĂ© Ă©tudie une partie du dossier de son cĂŽtĂ©. À la fin, on fait un vote majoritaire. Comme les erreurs de chaque jurĂ© sont alĂ©atoires, elles tendent Ă  s’annuler une fois agrĂ©gĂ©es (Kushwaha and Kudale 2026).
  • Le champion : La ForĂȘt AlĂ©atoire (Random Forest). Elle crĂ©e des centaines d’arbres de dĂ©cision. Pour s’assurer qu’ils ne soient pas tous identiques, elle ajoute du hasard : chaque arbre ne voit qu’une partie des colonnes et une partie des lignes.
  • Force : TrĂšs robuste contre le sur-ajustement (Overfitting).

5.5.2 🚀 Boosting (XGBoost)

Le Boosting fonctionne de maniÚre séquentielle. Les modÚles ne sont pas indépendants : ils apprennent les uns des autres.

  • La MĂ©taphore : C’est un coureur de fond qui s’entraĂźne avec un coach. Le premier jour, il court et fait des erreurs. Le deuxiĂšme jour, il s’entraĂźne uniquement sur les points oĂč il a Ă©chouĂ© la veille. Chaque nouvel arbre est construit spĂ©cifiquement pour corriger les erreurs (les rĂ©sidus) des prĂ©cĂ©dents (Dalvs 2026).
  • Les champions : * XGBoost : Le standard industriel, ultra-optimisĂ© et rĂ©gularisĂ©.
  • LightGBM : DĂ©veloppĂ© par Microsoft, il est beaucoup plus rapide sur les trĂšs gros jeux de donnĂ©es car il fait croĂźtre les arbres par les feuilles plutĂŽt que par niveaux (Nishida 2026).
  • CatBoost : Le spĂ©cialiste des variables textuelles (catĂ©gorielles), capable de les gĂ©rer sans prĂ©paration manuelle complexe (Kushwaha and Kudale 2026).

Interactif : Bagging vs Boosting

Comprenez visuellement la diffĂ©rence de stratĂ©gie. Dans le Bagging, les modĂšles s’additionnent simplement. Dans le Boosting, chaque nouveau modĂšle vient combler les “trous” laissĂ©s par ses prĂ©dĂ©cesseurs.

đŸ•č Simulateur Bagging vs Boosting

Manipulez les contrĂŽles ci-dessous pour observer comment la ForĂȘt AlĂ©atoire (Bagging) et l’algorithme XGBoost (Boosting) construisent leurs prĂ©dictions diffĂ©remment.

5.5.3 đŸ„Š Quel camp choisir ?

Caractéristique Bagging (Random Forest) Boosting (XGBoost/LightGBM)
Ordre ParallÚle (Indépendant) Séquentiel (Correctif)
Objectif principal Réduire la Variance (Overfitting) Réduire le Biais (Précision)
Vitesse TrÚs rapide (Multi-thread) Plus lent (Séquentiel par nature)
Complexité Facile à régler Nécessite un réglage fin (HyperparamÚtres)

5.5.4 đŸ’» ImplĂ©mentation Scikit-Learn

from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier

# Initialisation du jury (Random Forest)
model_bagging = RandomForestClassifier(n_estimators=100, max_depth=5)

# Initialisation du coach (XGBoost)
model_boosting = XGBClassifier(n_estimators=100, learning_rate=0.1)

# L'entraĂźnement est identique pour les deux
model_bagging.fit(X_train, y_train)
model_boosting.fit(X_train, y_train)

5.6 🧠 Concepts ClĂ©s

La quĂȘte de la gĂ©nĂ©ralisation

Le but ultime du Machine Learning n’est pas d’obtenir 100 % de prĂ©cision sur vos donnĂ©es actuelles, mais de performer sur des donnĂ©es que le modĂšle n’a jamais rencontrĂ©es. Pour atteindre cet objectif, l’ingĂ©nieur doit naviguer entre deux Ă©cueils : le sous-ajustement et le sur-ajustement (Jiang 2026).

5.6.1 🎯 Compromis Biais-Variance

C’est l’équilibre dĂ©licat au cƓur de toute modĂ©lisation. Imaginez une cible de tir Ă  l’arc.

  • Le Biais (L’Erreur de Logique) : C’est l’erreur issue d’un modĂšle trop simpliste qui ne comprend pas la complexitĂ© des donnĂ©es. L’élĂšve applique toujours la mĂȘme formule, mĂȘme quand elle ne convient pas. Un biais Ă©levĂ© mĂšne au Sous-ajustement.
  • La Variance (La SensibilitĂ© au Bruit) : C’est l’erreur issue d’un modĂšle trop complexe qui rĂ©agit Ă  la moindre petite fluctuation des donnĂ©es d’entraĂźnement. L’élĂšve apprend par cƓur les exercices mais panique dĂšs qu’un mot change dans l’énoncĂ©. Une variance Ă©levĂ©e mĂšne au Sur-ajustement (Ohiri 2026).

5.6.2 ⚠ Sous vs Sur-ajustement

  • L’Underfitting (Sous-ajustement) : Le modĂšle est trop simple ou “paresseux”.
    • La MĂ©taphore : C’est comme essayer d’apprendre Ă  faire du vĂ©lo uniquement sur un vĂ©lo d’appartement. Une fois sur le terrain, vos aptitudes seront insuffisantes car vous n’avez pas saisi la complexitĂ© de l’équilibre rĂ©el.
    • Signe : Erreur Ă©levĂ©e Ă  l’entraĂźnement ET au test.
    • Solution : Augmenter la complexitĂ© du modĂšle ou la durĂ©e de l’entraĂźnement.
  • L’Overfitting (Sur-ajustement) : Le modĂšle est “trop intelligent” : il mĂ©morise tout, y compris les erreurs et le bruit du passĂ©.
    • La MĂ©taphore : C’est l’élĂšve qui mĂ©morise toutes les rĂ©ponses d’un examen blanc par cƓur. S’il tombe sur le mĂȘme examen, il a 20/20. Si l’examen change ne serait-ce qu’une question, il Ă©choue car il n’a pas compris la logique, il a juste mĂ©morisĂ© les donnĂ©es.
    • Signe : Excellente performance Ă  l’entraĂźnement, mais catastrophe au test.
    • Solution : Simplifier le modĂšle, utiliser plus de donnĂ©es, ou appliquer de la RĂ©gularisation.

5.6.3 🌋 3. La ThĂ©orie du “Hot Mess” (L’IncohĂ©rence des Erreurs)

Des recherches de pointe en 2026 introduisent un concept fascinant : l’incohĂ©rence des erreurs. On a dĂ©couvert que plus les modĂšles deviennent massifs et “intelligents”, plus leurs Ă©checs deviennent imprĂ©visibles. Au lieu de faire des erreurs systĂ©matiques (Biais), ils se comportent comme un “Hot Mess” (un dĂ©sordre total) oĂč la Variance domine tout (HĂ€gele and al. 2026). Cela signifie que les futurs risques de l’IA ne seront pas forcĂ©ment une “mauvaise direction” constante, mais des accidents erratiques et imprĂ©visibles.

5.6.4 đŸ› ïž Guide de survie du Data Scientist

ProblĂšme SymptĂŽme RemĂšde principal
Underfitting Score faible partout Utiliser un modÚle plus puissant (ex: passer de Linéaire à XGBoost).
Overfitting Score parfait (train) / Mauvais (test) RĂ©duire le nombre de variables ou utiliser des mĂ©thodes d’ensemble (Random Forest).
Hot Mess Erreurs erratiques et imprĂ©visibles Augmenter la diversitĂ© des donnĂ©es et stabiliser l’apprentissage.

5.7 🌉 Conclusion et Transition

Nous avons explorĂ© les principaux algorithmes de Machine Learning. Cependant, construire un modĂšle ne suffit pas ; il faut ĂȘtre capable de mesurer sa performance de maniĂšre rigoureuse pour s’assurer de sa fiabilitĂ©.

C’est l’objet du Chapitre 6 : Évaluation des Modùles.

Dalvs, Moin. 2026. “Gradient Boosting Algorithms from Scratch: 4 Boosting Algorithms You Should Know – GBM, XGBoost, LightGBM & CatBoost.” GitHub. https://github.com/MoinDalvs/Gradient_Boosting_Algorithms_From_Scratch.
HĂ€gele, Alexander, and et al. 2026. “The Hot Mess of AI: How Does Misalignment Scale with Model Intelligence and Task Complexity?” In International Conference on Learning Representations (ICLR).
Inconnu. 2026. “5.ml.md (ModĂ©lisation Et Machine Learning).”
Jiang, et al. 2026. “OmniTabBench: A Tabular Benchmark at Unprecedented Scale.” arXiv Preprint.
Karl, Taylor. 2024. “DBSCAN Vs. K-Means: A Guide in Python.” New Horizons. https://www.newhorizons.com/resources/blog/dbscan-vs-kmeans-a-guide-in-python.
Kushwaha, Amit, and Ganesh Kudale. 2026. “A Comparative Study of Machine Learning Algorithms for Tabular Data Classification.” International Journal of Engineering Research & Technology (IJERT) 14 (02). https://www.ijert.org/a-comparative-study-of-machine-learning-algorithms-for-tabular-data-classification-ijertconv14is020007.
Nishida, Kan. 2026. “Why Deep Learning Didn’t Replace Tree Models for Tabular Data.” Exploratory. https://blog.exploratory.io/why-deep-learning-didnt-replace-tree-models-for-tabular-data-d80b796d652f.
Ohiri, Emmanuel. 2026. “Overfitting and Underfitting in Machine Learning: Causes, Indicators, and How to Fix Them.” CUDO Compute. https://www.cudocompute.com/blog/overfitting-and-underfitting-in-machine-learning.
Satish, Swathi Bangalore, Fatima Bowers, and Prapti Bhatt. 2026. “K-MEANS VS DBSCAN CLUSTERING ALGORITHMS.” UTK-EECS. https://web.eecs.utk.edu/~kneupan1/cs581-spring26/presentations/CS581-KMeans-vs-DBSCAN.pdf.