Gestion des Valeurs Manquantes dans les Données

Apprenez à gérer les valeurs manquantes dans vos jeux de données et découvrez les meilleures pratiques pour le nettoyage de données.

Détails de la leçon

Description de la leçon

Dans cette leçon, nous abordons une problématique commune en analyse de données : la gestion des valeurs manquantes. Les données peuvent être incomplètes pour diverses raisons : absence de la personne en charge de la collecte, bug informatique, erreurs de manipulation, etc. Une analyse rigoureuse nécessite d’évaluer le nombre de valeurs manquantes et de décider si elles doivent être supprimées, modifiées, ou laissées telles quelles.

Nous utiliserons un exemple concret avec un jeu de données issu de la chaîne de magasins Superstore. Nous verrons comment évaluer la proportion de valeurs manquantes et les effets possibles de leur suppression sur les indices statistiques. Nous explorerons aussi les stratégies de modification, telle que le remplacement des codes postaux manquants par des valeurs fiables trouvées en ligne ou dans le dataset lui-même.

Objectifs de cette leçon

Les objectifs de cette vidéo sont de vous fournir des méthodes pour identifier les valeurs manquantes dans vos données, évaluer leur impact sur votre analyse, et appliquer des techniques de rectification adéquates.

Prérequis pour cette leçon

Pour suivre cette vidéo, une connaissance de base des statistiques descriptives et une familiarité avec les manipulations de dataframes est recommandée.

Métiers concernés

Les compétences abordées sont essentielles pour les métiers de data analyst, data scientist, et tout professionnel en statistique appliquée.

Alternatives et ressources

D'autres logiciels ou solutions pour gérer les valeurs manquantes incluent : R, SAS, et SPSS.

Questions & Réponses

Les valeurs manquantes peuvent être dues à l'absence du collecteur de données, des bugs informatiques, des erreurs de manipulation ou des champs invalides remplacés par des vides.
Il faut évaluer la proportion de valeurs manquantes, l'impact de leur suppression sur les indices statistiques et si une non-valeur peut être considérée comme une valeur en soi.
On peut rechercher sur Internet le code postal correspondant à la ville manquante ou utiliser des valeurs préexistantes dans le dataset pour compléter les informations manquantes.