
Gestion des valeurs incohérentes dans les data frames
Objectifs
L'objectif de cette vidéo est de montrer comment détecter et gérer les valeurs incohérentes dans un jeu de données.
Résumé
Découvrez les meilleures pratiques pour gérer les valeurs incohérentes dans un jeu de données et optimiser vos analyses statistiques.
Description
Maintenant que nous avons supprimé les valeurs manquantes de notre jeu de données, le travail de nettoyage peut continuer ou plus ou moins commencer. Car s'il y a des erreurs de saisie qui peuvent se conclure par des valeurs nulles, l'essentiel du temps, votre jeu de données va contenir des valeurs complètement assurées. Pour qu'une analyse de données soit faite de façon rigoureuse, il vous faudra évaluer et détecter un maximum de ces valeurs incohérentes et à ce moment-là, comme nous l'avions fait pour les valeurs nulles, décider quelles actions mener.
Les supprimer ou les modifier ? Vous utiliserez à nouveau le jeu de données fourni pour pratiquer, encore une fois, votre esprit critique. Nous importons à nouveau les opérations du Superstore et nous passons sur la section ‘Considérer la suppression’.
Supprimer des valeurs incohérentes, ça reste l'option de facilité. Mais encore une fois, avant de considérer la suppression, il va falloir se poser quelques questions. Déjà, comme pour les valeurs manquantes, quelle est la proportion de ces valeurs incohérentes ? Est-ce que c'est 0.1%, 1%, 10% ? Plus il va y avoir d'erreurs incohérentes, moins il sera possible de les supprimer. Ensuite, il va falloir considérer à nouveau, avant et après suppression, est-ce que cela change drastiquement les indices statistiques classiques ? La moyenne, la médiane, la déviation standard ?
Pour évaluer le nombre de valeurs incohérentes dans un data frame, vous réutiliserez la fonction describe. Non pas le count, mais la moyenne, la déviation standard, les valeurs minimum, les valeurs maximum, les 25%, c'est-à-dire le premier percentile, etc. Et ici, on a une colonne qui pose question. C'est la colonne, ou plutôt la variable numberOfRecords, qui doit vous interroger, normalement. Alors pourquoi elle doit vous interroger ? Pour plein de raisons.
Questions fréquentes
Programme détaillé
Module 1 - Démarrage
Module 2 - Bases de Python pour la Data Science
Module 3 - Collecter de l'information
Module 4 - Nettoyer des données
Module 5 - Analyser des données
Module 6 - Visualiser des données



