
Méthodes de Nettoyage des Données
Objectifs
Les objectifs de cette vidéo sont de vous fournir des méthodes pour identifier les valeurs manquantes dans vos données, évaluer leur impact sur votre analyse, et appliquer des techniques de rectification adéquates.
Résumé
Apprenez à gérer les valeurs manquantes dans vos jeux de données et découvrez les meilleures pratiques pour le nettoyage de données.
Description
Dans cette leçon, nous abordons une problématique commune en analyse de données : la gestion des valeurs manquantes. Les données peuvent être incomplètes pour diverses raisons : absence de la personne en charge de la collecte, bug informatique, erreurs de manipulation, etc. Une analyse rigoureuse nécessite d’évaluer le nombre de valeurs manquantes et de décider si elles doivent être supprimées, modifiées, ou laissées telles quelles.
Nous utiliserons un exemple concret avec un jeu de données issu de la chaîne de magasins Superstore. Nous verrons comment évaluer la proportion de valeurs manquantes et les effets possibles de leur suppression sur les indices statistiques. Nous explorerons aussi les stratégies de modification, telle que le remplacement des codes postaux manquants par des valeurs fiables trouvées en ligne ou dans le dataset lui-même.
Questions fréquentes
Programme détaillé
Module 1 - Démarrage
Module 2 - Bases de Python pour la Data Science
Module 3 - Collecter de l'information
Module 4 - Nettoyer des données
Module 5 - Analyser des données
Module 6 - Visualiser des données


