📊 Data Science
Bienvenue dans le cours de Data Science et Analyse de Données.
Ce module intensif a pour objectif de vous faire passer du stade de simple spectateur de données à celui d’enquêteur et raffineur de l’information. La donnée brute est intrinsèquement chaotique, incomplète et imparfaite. Ensemble, nous allons apprendre à l’extraire de sources diverses, à auditer sa qualité, à la purifier, et à en extraire la substantifique moelle statistique pour alimenter des modèles prédictifs robustes et optimisés.
- Programmation : Maîtrise des concepts fondamentaux de Python 3 (variables, boucles, fonctions, listes).
- Bases de Données : Compréhension de base du modèle relationnel et syntaxe des requêtes SQL (SELECT, JOIN).
- Mathématiques : Notions élémentaires en statistiques descriptives (moyenne, médiane, écart-type, distributions).
- Outils : Utilisation standard du terminal et rudiments de gestion de version avec Git.
🎯 Objectifs Pédagogiques
À l’issue de ce module, vous serez capables de :
- Orchestrer l’acquisition de volumes de données hétérogènes depuis des fichiers locaux, des bases de données relationnelles ou des APIs REST.
- Nettoyer et restructurer (Data Wrangling) des jeux de données complexes et corrompus en appliquant des stratégies d’ingénierie des caractéristiques (Feature Engineering).
- Mener une analyse exploratoire (EDA) rigoureuse pour détecter les corrélations, anomalies et structures cachées.
- Visualiser l’information de façon percutante en appliquant les principes fondamentaux du Data Storytelling.
- Déployer, optimiser et évaluer des modèles d’apprentissage automatique classiques (Machine Learning) via une recherche rigoureuse d’hyperparamètres et des métriques de validation adaptées.
🗺️ Navigation dans le Module
Ce module est structuré en 5 grandes phases progressives, rythmées par des défis pratiques en guilde et des projets applicatifs :
- Théorie : Cycle de vie de la donnée (CRISP-DM / OSEMN), manipulation vectorisée avec NumPy et fondations des structures de données de Pandas (Series, DataFrames).
- Pratique : Extraction et consolidation de sources de données fragmentées (CSV, JSON, SQL, APIs).
- Évaluation Gamifiée : L’Escape Game d’Extraction.
- Théorie : Diagnostic de la qualité des données, traitement algorithmique des valeurs manquantes/aberrantes, et stratégies de standardisation et d’encodage (One-Hot, Label Encoding).
- Pratique : Audit technique et nettoyage approfondi d’un dataset (TP1 : Le Titanic).
- Évaluation Gamifiée : Investigation Cluedo-style sur un dataset financier corrompu (Rendu du Checkpoint Projet).
- Chapitre 3 : Visualisation des Données
- Chapitre 4 : Analyse Exploratoire des Données (EDA)
- Théorie : Grammaire des graphiques (Matplotlib, Seaborn, Plotly), statistiques descriptives univariées et bivariées, et détection des corrélations.
- Pratique : Analyse exploratoire rigoureuse (EDA) et conception de visualisations percutantes (TP2 : L’Enquête Dimensionnelle).
- Évaluation Gamifiée : Dataviz Battle (Défi de design de tableaux de bord stratégiques).
- Théorie : Apprentissage supervisé (Régression, Classification) vs non supervisé (Clustering), pipelines de Machine Learning (Scikit-Learn), et métriques de validation (RMSE, F1-Score, matrice de confusion).
- Pratique : Construction et évaluation rigoureuse de pipelines prédictifs complets.
- Évaluation : Rendu du Projet Final (Pipeline Data Complet & Modélisation Classique).
- Théorie : Data Storytelling, dashboards interactifs (Dash), recherche automatisée d’hyperparamètres (GridSearchCV), et surveillance MLOps en production.
- Pratique : Conception d’applications web de restitution, sélection de caractéristiques et optimisation de modèles.
- Évaluation Technique : Rendu du Challenge ML (Mini-Kaggle) et TP3 de synthèse Kepler.