Gestion des Valeurs Manquantes dans les Données
Apprenez à gérer les valeurs manquantes dans vos jeux de données et découvrez les meilleures pratiques pour le nettoyage de données.
Démarrage
Bases de Python pour la Data Science








Collecter de l'information






Nettoyer des données
Analyser des données
Visualiser des données






Détails de la leçon
Description de la leçon
Dans cette leçon, nous abordons une problématique commune en analyse de données : la gestion des valeurs manquantes. Les données peuvent être incomplètes pour diverses raisons : absence de la personne en charge de la collecte, bug informatique, erreurs de manipulation, etc. Une analyse rigoureuse nécessite d’évaluer le nombre de valeurs manquantes et de décider si elles doivent être supprimées, modifiées, ou laissées telles quelles.
Nous utiliserons un exemple concret avec un jeu de données issu de la chaîne de magasins Superstore. Nous verrons comment évaluer la proportion de valeurs manquantes et les effets possibles de leur suppression sur les indices statistiques. Nous explorerons aussi les stratégies de modification, telle que le remplacement des codes postaux manquants par des valeurs fiables trouvées en ligne ou dans le dataset lui-même.
Objectifs de cette leçon
Les objectifs de cette vidéo sont de vous fournir des méthodes pour identifier les valeurs manquantes dans vos données, évaluer leur impact sur votre analyse, et appliquer des techniques de rectification adéquates.
Prérequis pour cette leçon
Pour suivre cette vidéo, une connaissance de base des statistiques descriptives et une familiarité avec les manipulations de dataframes est recommandée.
Métiers concernés
Les compétences abordées sont essentielles pour les métiers de data analyst, data scientist, et tout professionnel en statistique appliquée.
Alternatives et ressources
D'autres logiciels ou solutions pour gérer les valeurs manquantes incluent : R, SAS, et SPSS.
Questions & Réponses
