Analyse des Ventes avec des Nuages de Points

Les nuages de points
Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,5
Transcription

Description Programme Avis
3,5

À l'issue de cette vidéo, vous serez capable de :

  • Créer et personnaliser des nuages de points pour analyser des ventes.
  • Identifier des corrélations entre diverses variables de ventes et de profits.
  • Ajouter des dimensions supplémentaires et des informations contextuelles aux visualisations.

Cette leçon vous montre comment utiliser les nuages de points pour analyser les ventes et les profits dans vos jeux de données.

Dans cette vidéo, nous explorons l'utilisation des nuages de points pour vérifier la tendance entre différentes variables de ventes via notre super store. Un nuage de points (scatterplot) permet de visualiser des corrélations potentielles entre les données d'une manière graphique, intuitive et accessible, contrairement aux méthodes statistiques traditionnelles.

Nous détaillons comment utiliser la fonction px.scatter pour générer ces nuages, en ajustant l'axe des abscisses et des ordonnées, ainsi que d'autres paramètres comme le titre du diagramme. Nous montrons aussi comment enrichir nos visualisations en ajoutant des dimensions supplémentaires, comme la taille des points pour représenter la quantité de produits vendus, ou des couleurs pour différencier les régions géographiques.

Ce tutoriel met également en lumière certains aspects cruciaux de l'analyse de données, tels que l'identification des points aberrants, ou outliers, et explore comment ajouter des informations contextuelles au survol des points grâce au paramètre hover_data. À travers des exemples concrets, vous apprendrez à repérer des tendances, identifier des comportements et détecter des données aberrantes dans vos analyses de ventes.

Voir plus
Questions réponses
Quelle est la principale utilité des nuages de points dans l'analyse de données ?
Les nuages de points, ou scatterplots, sont principalement utilisés pour vérifier qu'il n'y a pas de tendances entre différentes variables d'un jeu de données, facilitant la visualisation des corrélations potentielles.
Comment peut-on ajouter une dimension supplémentaire à un nuage de points ?
Une dimension supplémentaire peut être ajoutée à un nuage de points en ajustant la taille des points en fonction d'une variable numérique, comme la quantité de produits vendus.
Quels problèmes peuvent être détectés en utilisant des nuages de points ?
Les nuages de points peuvent aider à identifier des points aberrants, ou outliers, des tendances globales, ainsi que des comportements spécifiques aux segments du jeu de données.
Donc, vidéo sur les nuages de points, toujours avec un import de ressources sur notre super store, l'analyse des ventes. Donc les nuages de points, ça sert à quoi ? Ça sert à vérifier qu'il n'y a pas de tendance entre des variables de notre jeu de données. Et le gros intérêt de ça, c'est que c'est une représentation qui est graphique, qui est beaucoup plus facile à accepter pour votre public, qui en général n'est pas mathématicien ou statisticien, qu'une démonstration d'une réalité statistique, que vous aurez vérifiée avec les méthodes et les calculs qu'on a présentés dans d'autres vidéos. La fonction à utiliser ici est px.skater pour skaterplot, donc nuages de points. Vous aurez en x la colonne à utiliser de votre dataframe pour les abscisses, en y la colonne à utiliser dans le dataframe pour les ordonnées, toujours le paramètre title qui définit le diagramme, et enfin la fonction px.skater, et pas px.line, retourne un objet figure qui va afficher une série de points lors de l'exécution de la fonction show. Le fonctionnement est similaire aux séries temporelles qu'on a vues dans une vidéo précédente. Vous commencez à avoir l'habitude, comme je le disais, c'est toujours plus ou moins la même apérie, donc les mêmes fonctions et les mêmes paramètres. Pour générer un petit nuage de points, ça se fait comme souvent en deux lignes de code, et on arrivera au résultat suivant avec, au passage de la souris, les coordonnées en x et en y des variables que l'on identifie. Ici c'est une comparaison pour voir en fonction des ventes quel est le profit, pour pouvoir estimer s'il y a une corrélation entre les deux. Ici ça n'a pas l'air d'être vraiment le cas, on a une tendance ici qui se dessine, mais on voit aussi un bloc qui est énorme ici, et on voit ici ce que l'on pourrait appeler des outliers, donc des données qui sont un petit peu en dehors du système. Si on continue l'analyse, on va pouvoir ajouter une troisième dimension qui va se baser sur la taille des points. On peut faire grossir ou rapetir la taille des points en fonction d'une variable numérique. Alors ici on a pris le quantity, le nombre de produits vendus. L'idée c'est de savoir s'il y a une corrélation entre le nombre de ventes, les profits réalisés et la quantité de produits. Ce qu'on voit ici finalement c'est que pas tellement, il peut y avoir de très grosses ventes avec peu de profits et beaucoup de ventes. Il peut y avoir pour beaucoup de produits vendus des profits négatifs par exemple, peu importe le montant des ventes. Et on va avoir quand même un énorme échantillon qui est ici avec finalement beaucoup de ventes qui ont été faites avec très peu de chiffres d'affaires et donc très peu de profits. Alors ce qui est intéressant ici c'est que tout ce qui est au-dessus de zéro c'est rentable et tout ce qui est en dessous de zéro c'est pas rentable, c'est que le profit est négatif. On peut continuer l'analyse et ajouter cette fois une quatrième dimension, comme nous l'avons fait avant à l'aide des couleurs. Comme pour les autres types de diagrammes précédemment présentés, ça nous permet d'ajouter une nouvelle variable. Et cette fois on peut rajouter une dimension qui est intéressante, à savoir est-ce que selon les régions de notre échantillon, les régions des Etats-Unis, est-ce qu'on va observer un comportement sur le nombre de produits vendus, sur les ventes et sur le profit ? Alors on regarde ce qui a été généré, on voit que finalement la région Est est vraiment centrée ici autour de très faibles marges de produits, de très faibles marges de profits également, alors qu'on va avoir ici pour la région centrale d'énormes ventes de produits avec des chiffres d'affaires qui sont intéressants et en hauts profits. D'ailleurs la transaction la plus profitable a été faite dans la région centrale, avec des ventes de 17.499$ pour un profit de 8.399$ sur 5 produits. A contrario dans la région South, donc la région du Sud, c'est ici qu'on va observer les interactions qui sont les moins profitables avec la région Est. Alors ce qui est bizarre ici, et ça nous interroge sur la qualité de notre nettoyage de données, c'est qu'ici on va avoir des ventes qui sont à 4.500$ et on va avoir un profit qui est à moins 6.600$. Et donc là il y a potentiellement un problème, comment on peut avoir un profit qui est inférieur au chiffre de vente ? Donc là qu'est-ce qui s'est passé ? C'est peut-être une aberration, c'est des données qu'on va devoir nettoyer. Ce que je veux dire par là c'est que le nuage de points ça peut facilement vous permettre de spotter des tendances, d'identifier des comportements généraux sur un grand ensemble de lignes. Enfin, et dernière customisation possible, le fait d'ajouter des informations contextuelles au survol. Donc à l'aide du paramètre Overdata, on va pouvoir rajouter dans l'infobule qui s'affiche au survol de chacun des points du diagramme, des informations supplémentaires. Ici j'ai trouvé ça intéressant d'ajouter le nom du produit et éventuellement l'identifiante de la commande, de sorte à ce que quand il y ait un point qui est vraiment en dehors du jeu de données, ce que j'appelle des données aberrantes ou des outliers, qu'on puisse ensuite aller regarder la ligne de commande, avoir les différents éléments, avoir le nom du client, etc. De sorte à pouvoir essayer de comprendre les raisons qui permettent d'expliquer pourquoi ces points sont finalement en dehors des comportements globaux que l'on observe. Donc ici on retrouve bien le product name et l'identifiant de commande. Et on en a terminé sur les nuages de mots. Comme vous pouvez le voir, c'est finalement toujours plus ou moins la même API, toujours plus ou moins les mêmes fonctions, et c'est pour ça qu'il y a finalement dans chacun de ces chapitres beaucoup de répétitions.
4 commentaires
3,5
4 votes
5
4
3
2
1
elephorm-1464076@addviseo.com
Il y a 3 months
Commentaire
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 1 year
Commentaire
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 2 years
Commentaire
Très bien , mais il manque les supports de cours
antoinem
Il y a 2 years
Commentaire
Bien mais il manque les supports de cours
Nos dernières formations Python
  • Pack 5 formations
    Pack Python : Des bases aux techniques avancées
    Découvrir
    Réputé pour être le langage de programmation le plus populaire au monde, Python est très plébiscité pour ses différentes utilisations.  A travers ce pack de 5 formations, vous apprenez les fondamentaux de la programmation Python, vous maîtrisez les techniques avancées et vous découvrez comment utiliser Python pour le web et pour l’analyse et la visualisation des données. Apprendre à programmer en Python : Apprendre les fondamentaux du langage de programmation Python. Apprendre Python : Qualité de code et maintenance : Maîtriser Python avec une qualité de code et de maintenance optimales. Maîtriser Python : Techniques avancées : Formez-vous aux différentes fonctionnalités avancées de python. Apprendre le web avec Python/ Django : Découvrez la programmation Web : Apprendre les principes fondamentaux de la programmation Web Maîtriser Python : Analyse et visualisations des données : Apprendre à utiliser Python pour l’analyse et la visualisation des données
    22h52 154 leçons
  • Apprendre Python   - Qualité de code et maintenance
    Découvrir
    Maîtriser Python avec une qualité de code et de maintenance optimales
    3h09 23 leçons
  • Maîtriser Python  - Techniques avancées
    Découvrir
  • Apprendre à programmer en Python
    Découvrir
    Apprendre les fondamentaux du langage de programmation Python
    6h33 60 leçons 4,75 / 5
  • Apprendre le Web avec Python/Django - Découvrez la programmation web
    Découvrir
    Apprendre les principes fondamentaux de la programmation Web
    4h38 32 leçons 3,50 / 5