CATALOGUE Code & Data Formation Python Maîtrisez Python : Analyse et visualisations des données

Contenu premium

Nettoyage et Gestion des Valeurs Incohérentes

Retour à la formation

Chapitre 4 Leçon 2

Découvrez les meilleures pratiques pour gérer les valeurs incohérentes dans un jeu de données et optimiser vos analyses statistiques.

Détails de la leçon

Description de la leçon

Maintenant que nous avons supprimé les valeurs manquantes de notre jeu de données, le travail de nettoyage peut continuer ou plus ou moins commencer. Car s'il y a des erreurs de saisie qui peuvent se conclure par des valeurs nulles, l'essentiel du temps, votre jeu de données va contenir des valeurs complètement assurées. Pour qu'une analyse de données soit faite de façon rigoureuse, il vous faudra évaluer et détecter un maximum de ces valeurs incohérentes et à ce moment-là, comme nous l'avions fait pour les valeurs nulles, décider quelles actions mener.

Les supprimer ou les modifier ? Vous utiliserez à nouveau le jeu de données fourni pour pratiquer, encore une fois, votre esprit critique. Nous importons à nouveau les opérations du Superstore et nous passons sur la section ‘Considérer la suppression’.

Supprimer des valeurs incohérentes, ça reste l'option de facilité. Mais encore une fois, avant de considérer la suppression, il va falloir se poser quelques questions. Déjà, comme pour les valeurs manquantes, quelle est la proportion de ces valeurs incohérentes ? Est-ce que c'est 0.1%, 1%, 10% ? Plus il va y avoir d'erreurs incohérentes, moins il sera possible de les supprimer. Ensuite, il va falloir considérer à nouveau, avant et après suppression, est-ce que cela change drastiquement les indices statistiques classiques ? La moyenne, la médiane, la déviation standard ?

Pour évaluer le nombre de valeurs incohérentes dans un data frame, vous réutiliserez la fonction describe. Non pas le count, mais la moyenne, la déviation standard, les valeurs minimum, les valeurs maximum, les 25%, c'est-à-dire le premier percentile, etc. Et ici, on a une colonne qui pose question. C'est la colonne, ou plutôt la variable numberOfRecords, qui doit vous interroger, normalement. Alors pourquoi elle doit vous interroger ? Pour plein de raisons.

Objectifs de cette leçon

L'objectif de cette vidéo est de montrer comment détecter et gérer les valeurs incohérentes dans un jeu de données.

Prérequis pour cette leçon

Compréhension de base sur les concepts de data frame et connaître Python et Pandas.

Métiers concernés

Les compétences décrites sont applicables aux métiers tels que data analyst, data scientist, statisticien, et analyste business.

Alternatives et ressources

Des solutions alternatives incluent l'utilisation de logiciels comme R, SAS, ou des fonctions avancées dans Excel.

Questions & Réponses

Détecter les valeurs incohérentes est crucial pour garantir la précision et la fiabilité des analyses statistiques et des modèles prédictifs.

Si la proportion de valeurs incohérentes est élevée, il est souvent préférable de chercher à comprendre et corriger les incohérences plutôt que de les supprimer.

Il est important de vérifier la moyenne, la médiane et la déviation standard avant et après la suppression des valeurs incohérentes.

Acheter maintenant

Je m'abonne