Data Science

Author

Aptitek

📊 Data Science

Bienvenue dans le cours de Data Science et Analyse de Données.

Ce module intensif a pour objectif de vous faire passer du stade de simple spectateur de données à celui d’enquêteur et raffineur de l’information. La donnée brute est intrinsèquement chaotique, incomplète et imparfaite. Ensemble, nous allons apprendre à l’extraire de sources diverses, à auditer sa qualité, à la purifier, et à en extraire la substantifique moelle statistique pour alimenter des modèles prédictifs robustes et optimisés.

🎒 Prérequis Indispensables

Programmation : Maîtrise des concepts fondamentaux de Python 3 (variables, boucles, fonctions, listes).
Bases de Données : Compréhension de base du modèle relationnel et syntaxe des requêtes SQL (SELECT, JOIN).
Mathématiques : Notions élémentaires en statistiques descriptives (moyenne, médiane, écart-type, distributions).
Outils : Utilisation standard du terminal et rudiments de gestion de version avec Git.

🎯 Objectifs Pédagogiques

À l’issue de ce module, vous serez capables de :

Orchestrer l’acquisition de volumes de données hétérogènes depuis des fichiers locaux, des bases de données relationnelles ou des APIs REST.
Nettoyer et restructurer (Data Wrangling) des jeux de données complexes et corrompus en appliquant des stratégies d’ingénierie des caractéristiques (Feature Engineering).
Mener une analyse exploratoire (EDA) rigoureuse pour détecter les corrélations, anomalies et structures cachées.
Visualiser l’information de façon percutante en appliquant les principes fondamentaux du Data Storytelling.
Déployer, optimiser et évaluer des modèles d’apprentissage automatique classiques (Machine Learning) via une recherche rigoureuse d’hyperparamètres et des métriques de validation adaptées.

🗺️ Navigation dans le Module

Ce module est structuré en 5 grandes phases progressives, rythmées par des défis pratiques en guilde et des projets applicatifs :

🔭 Fondations & Acquisition

Théorie : Cycle de vie de la donnée (CRISP-DM / OSEMN), manipulation vectorisée avec NumPy et fondations des structures de données de Pandas (Series, DataFrames).
Pratique : Extraction et consolidation de sources de données fragmentées (CSV, JSON, SQL, APIs).
Évaluation Gamifiée : L’Escape Game d’Extraction.

🧹 Préparation & Analyse (Wrangling)

Théorie : Diagnostic de la qualité des données, traitement algorithmique des valeurs manquantes/aberrantes, et stratégies de standardisation et d’encodage (One-Hot, Label Encoding).
Pratique : Audit technique et nettoyage approfondi d’un dataset (TP1 : Le Titanic).
Évaluation Gamifiée : Investigation Cluedo-style sur un dataset financier corrompu (Rendu du Checkpoint Projet).

📈 Phase 3 : EDA & Visualisation

Chapitre 3 : Visualisation des Données
Chapitre 4 : Analyse Exploratoire des Données (EDA)
Théorie : Grammaire des graphiques (Matplotlib, Seaborn, Plotly), statistiques descriptives univariées et bivariées, et détection des corrélations.
Pratique : Analyse exploratoire rigoureuse (EDA) et conception de visualisations percutantes (TP2 : L’Enquête Dimensionnelle).
Évaluation Gamifiée : Dataviz Battle (Défi de design de tableaux de bord stratégiques).

⚙️ Modélisation Classique & Évaluation

Théorie : Apprentissage supervisé (Régression, Classification) vs non supervisé (Clustering), pipelines de Machine Learning (Scikit-Learn), et métriques de validation (RMSE, F1-Score, matrice de confusion).
Pratique : Construction et évaluation rigoureuse de pipelines prédictifs complets.
Évaluation : Rendu du Projet Final (Pipeline Data Complet & Modélisation Classique).

📢 Communication & Optimisation

Théorie : Data Storytelling, dashboards interactifs (Dash), recherche automatisée d’hyperparamètres (GridSearchCV), et surveillance MLOps en production.
Pratique : Conception d’applications web de restitution, sélection de caractéristiques et optimisation de modèles.
Évaluation Technique : Rendu du Challenge ML (Mini-Kaggle) et TP3 de synthèse Kepler.

--- number-sections: false --- # 📊 Data Science {.unnumbered} Bienvenue dans le cours de **Data Science et Analyse de Données**. Ce module intensif a pour objectif de vous faire passer du stade de simple spectateur de données à celui d'**enquêteur et raffineur de l'information**. La donnée brute est intrinsèquement chaotique, incomplète et imparfaite. Ensemble, nous allons apprendre à l'extraire de sources diverses, à auditer sa qualité, à la purifier, et à en extraire la substantifique moelle statistique pour alimenter des modèles prédictifs robustes et optimisés. ::: {.card .card-success} ::: {.card-header} 🎒 Prérequis Indispensables ::: ::: {.card-body} - **Programmation :** Maîtrise des concepts fondamentaux de Python 3 (variables, boucles, fonctions, listes). - **Bases de Données :** Compréhension de base du modèle relationnel et syntaxe des requêtes SQL (SELECT, JOIN). - **Mathématiques :** Notions élémentaires en statistiques descriptives (moyenne, médiane, écart-type, distributions). - **Outils :** Utilisation standard du terminal et rudiments de gestion de version avec Git. ::: ::: ## 🎯 Objectifs Pédagogiques À l'issue de ce module, vous serez capables de : 1. **Orchestrer l'acquisition** de volumes de données hétérogènes depuis des fichiers locaux, des bases de données relationnelles ou des APIs REST. 2. **Nettoyer et restructurer** (*Data Wrangling*) des jeux de données complexes et corrompus en appliquant des stratégies d'ingénierie des caractéristiques (*Feature Engineering*). 3. **Mener une analyse exploratoire** (*EDA*) rigoureuse pour détecter les corrélations, anomalies et structures cachées. 4. **Visualiser l'information** de façon percutante en appliquant les principes fondamentaux du *Data Storytelling*. 5. **Déployer, optimiser et évaluer** des modèles d'apprentissage automatique classiques (*Machine Learning*) via une recherche rigoureuse d'hyperparamètres et des métriques de validation adaptées. ## 🗺️ Navigation dans le Module Ce module est structuré en 5 grandes phases progressives, rythmées par des défis pratiques en guilde et des projets applicatifs : ### [🔭 Fondations & Acquisition](cours/0_intro/index.qmd) * **Théorie :** Cycle de vie de la donnée (CRISP-DM / OSEMN), manipulation vectorisée avec NumPy et fondations des structures de données de Pandas (Series, DataFrames). * **Pratique :** Extraction et consolidation de sources de données fragmentées (CSV, JSON, SQL, APIs). * **Évaluation Gamifiée :** *L'Escape Game d'Extraction*. ### [🧹 Préparation & Analyse (Wrangling)](cours/2_wrangling/index.qmd) * **Théorie :** Diagnostic de la qualité des données, traitement algorithmique des valeurs manquantes/aberrantes, et stratégies de standardisation et d'encodage (*One-Hot*, *Label Encoding*). * **Pratique :** Audit technique et nettoyage approfondi d'un dataset (TP1 : Le Titanic). * **Évaluation Gamifiée :** Investigation *Cluedo-style* sur un dataset financier corrompu (Rendu du *Checkpoint Projet*). ### [📈 Phase 3 : EDA & Visualisation](cours/3_visualisation/index.qmd) * [Chapitre 3 : Visualisation des Données](cours/3_visualisation/index.qmd) * [Chapitre 4 : Analyse Exploratoire des Données (EDA)](cours/4_eda/index.qmd) * **Théorie :** Grammaire des graphiques (Matplotlib, Seaborn, Plotly), statistiques descriptives univariées et bivariées, et détection des corrélations. * **Pratique :** Analyse exploratoire rigoureuse (EDA) et conception de visualisations percutantes (TP2 : L'Enquête Dimensionnelle). * **Évaluation Gamifiée :** *Dataviz Battle* (Défi de design de tableaux de bord stratégiques). ### [⚙️ Modélisation Classique & Évaluation](cours/5_modelisation/index.qmd) * **Théorie :** Apprentissage supervisé (Régression, Classification) vs non supervisé (Clustering), pipelines de Machine Learning (Scikit-Learn), et métriques de validation (RMSE, F1-Score, matrice de confusion). * **Pratique :** Construction et évaluation rigoureuse de pipelines prédictifs complets. * **Évaluation :** Rendu du *Projet Final* (Pipeline Data Complet & Modélisation Classique). ### [📢 Communication & Optimisation](cours/7_communication/index.qmd) * **Théorie :** Data Storytelling, dashboards interactifs (Dash), recherche automatisée d'hyperparamètres (GridSearchCV), et surveillance MLOps en production. * **Pratique :** Conception d'applications web de restitution, sélection de caractéristiques et optimisation de modèles. * **Évaluation Technique :** Rendu du *Challenge ML* (Mini-Kaggle) et TP3 de synthèse Kepler.