Nettoyage et Gestion des Valeurs Incohérentes

La gestion des valeurs incohérentes
Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,7
Transcription

Cette leçon fait partie de la formation
99,00€ Je commande

Formation incluse dans l'abonnement Elephorm Je m'abonne à Elephorm

DescriptionProgrammeAvis
3,7
Cette leçon fait partie de la formation
99,00€ Je commande

Formation incluse dans l'abonnement Elephorm Je m'abonne à Elephorm

L'objectif de cette vidéo est de montrer comment détecter et gérer les valeurs incohérentes dans un jeu de données.

Découvrez les meilleures pratiques pour gérer les valeurs incohérentes dans un jeu de données et optimiser vos analyses statistiques.

Maintenant que nous avons supprimé les valeurs manquantes de notre jeu de données, le travail de nettoyage peut continuer ou plus ou moins commencer. Car s'il y a des erreurs de saisie qui peuvent se conclure par des valeurs nulles, l'essentiel du temps, votre jeu de données va contenir des valeurs complètement assurées. Pour qu'une analyse de données soit faite de façon rigoureuse, il vous faudra évaluer et détecter un maximum de ces valeurs incohérentes et à ce moment-là, comme nous l'avions fait pour les valeurs nulles, décider quelles actions mener.

Les supprimer ou les modifier ? Vous utiliserez à nouveau le jeu de données fourni pour pratiquer, encore une fois, votre esprit critique. Nous importons à nouveau les opérations du Superstore et nous passons sur la section ‘Considérer la suppression’.

Supprimer des valeurs incohérentes, ça reste l'option de facilité. Mais encore une fois, avant de considérer la suppression, il va falloir se poser quelques questions. Déjà, comme pour les valeurs manquantes, quelle est la proportion de ces valeurs incohérentes ? Est-ce que c'est 0.1%, 1%, 10% ? Plus il va y avoir d'erreurs incohérentes, moins il sera possible de les supprimer. Ensuite, il va falloir considérer à nouveau, avant et après suppression, est-ce que cela change drastiquement les indices statistiques classiques ? La moyenne, la médiane, la déviation standard ?

Pour évaluer le nombre de valeurs incohérentes dans un data frame, vous réutiliserez la fonction describe. Non pas le count, mais la moyenne, la déviation standard, les valeurs minimum, les valeurs maximum, les 25%, c'est-à-dire le premier percentile, etc. Et ici, on a une colonne qui pose question. C'est la colonne, ou plutôt la variable numberOfRecords, qui doit vous interroger, normalement. Alors pourquoi elle doit vous interroger ? Pour plein de raisons.

Voir plus
Questions réponses
Pourquoi est-il important de détecter les valeurs incohérentes dans un jeu de données ?
Détecter les valeurs incohérentes est crucial pour garantir la précision et la fiabilité des analyses statistiques et des modèles prédictifs.
Que faire si la proportion de valeurs incohérentes est élevée dans un jeu de données ?
Si la proportion de valeurs incohérentes est élevée, il est souvent préférable de chercher à comprendre et corriger les incohérences plutôt que de les supprimer.
Quelles métriques statistiques sont importantes à vérifier avant de supprimer des valeurs incohérentes ?
Il est important de vérifier la moyenne, la médiane et la déviation standard avant et après la suppression des valeurs incohérentes.
6 commentaires
3,7
6 votes
5
4
3
2
1
améliefiale
Il y a 3 mois
Bonne formation, mais il manque les supports de cours
améliefiale
Il y a 3 mois
Bonne formation, mais il manque les supports de cours
elephorm-1464076@addviseo.com
Il y a 1 an
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 2 ans
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 3 ans
Très bien , mais il manque les supports de cours
antoinem
Il y a 3 ans
Bien mais il manque les supports de cours