Evaluer une corrélation entre variables

Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,5
Transcription

Description Programme Avis
3,5

Apprendre à utiliser Python pour l’analyse et la visualisation des données.

Si vous souhaitez apprendre à traiter, analyser et visualiser les données avec Python de manière autonome, cette formation est pour vous !

Dans cette formation, vous apprenez à utiliser Google Colaboratory qui est la plateforme SaaS pour utiliser Jupyter sans nécessité d’installation.

Après avoir repris les bases de Jupyter, vous découvrez les bases de Python. Vous apprenez ensuite à charger tous types de données et notamment les fichiers de types Excel, vous apprenez comment nettoyer ce type de fichiers, ainsi que la gestion des valeurs manquantes et les valeurs aberrantes dans vos jeux de données.

Après avoir revu les bases des statistiques, vous apprenez comment gérer des rapports complets pour l’analyse de vos données. 

Enfin, vous passez à la partie visualisation des données, vous apprenez à créer tous types de diagrammes, que ce soit des diagrammes en bâtons, des nuages de points mais également des cartes de chaleurs qui vous donneront des informations très utiles sur le jeu de données à manipuler.

Voir plus
Dans les analyses statistiques et exploratoires, comme par exemple des études de marché et des études de vente, ce que l'on va chercher à comprendre, c'est la corrélation entre variables. Et l'utilisation des statistiques descriptives vont vous permettre de vérifier si des variables sont corrélées entre elles. Alors, qu'est-ce qu'une corrélation ? Une corrélation est établie entre deux variables quand on peut prédire l'évolution de l'une en fonction du changement de valeur de l'autre. Par exemple, on peut estimer que le nombre de ventes et le chiffre d'affaires sont corrélés. En effet, plus vous allez vendre, plus votre chiffre d'affaires augmentera. Alors, attention et gros avertissement ici, une corrélation n'est pas une causalité. Très souvent, pour pouvoir expliquer et prédire la relation de cause à effet d'une variable, il faut étudier différents facteurs parce que le monde est complexe et que le monde n'est pas aussi simple qu'une relation linéaire entre deux variables. Alors, nous importons les ressources comme d'habitude et nous passons aux différents types de données. Alors, pourquoi les différents types de données ? Eh bien, parce que pour évaluer le degré de corrélation entre deux variables, on va faire appel à des tests statistiques. Et selon le type de données des variables que vous souhaitez évaluer, vous devrez sélectionner un type de test qui est adapté. Alors, il existe des variables quantitatives que l'on peut compter et des variables qualitatives. Des ventes, des quantités sont des variables quantitatives. On peut les compter en faire une somme, une moyenne, une médiane, un mode. Des catégories, des villes et même, même si c'est des valeurs numériques, des codes postaux sont des variables considérées comme qualitatives. Il n'y a pas de logique à les compter, à les rassembler, à en faire une moyenne. Parmi les variables qualitatives, il existe des variables ordinales et nominales. Par exemple, des couleurs, des genres, des villes sont des variables nominales. Il n'y a aucune relation entre ces valeurs, hormis le fait qu'elles appartiennent aux couleurs, aux genres et aux villes. Par contre, si on considère les tailles XS, S, M, L, XL, ce sont des valeurs ordinales. Il y a une relation ordonnée entre elles. Et donc, il y a un lien entre les valeurs de ces variables. Alors, si dessous un tableau non exhaustif, les tests possibles en fonction du type de variable. Je n'ai pas du tout la présentation ici d'être exhaustif, et je le rappelle, ce n'est pas en cours de statistique, mais c'est une façon pour vous de comprendre qu'à chaque type de variable et qu'à chaque type de relation entre ces variables, il va y avoir un ou plusieurs tests statistiques possibles. Dans ce chapitre, nous allons en voir deux. Nous allons voir le test du QI2 et le coefficient de Pearson. Nous verrons aussi la méthode ANOVA pour l'analyse de la variance, qui est un indice que vous avez vu précédemment. Alors, pour évaluer la corrélation entre deux variables quantitatives, nous allons calculer le coefficient de Pearson. Ce coefficient de Pearson, c'est un indice qui va refléter la force de la relation linéaire entre deux variables quantitatives. Et de fait, il y a déjà un biais. Vous pourriez avoir tout à fait une relation entre ces deux variables qui n'est pas de type linéaire, qui ne s'explique pas par une droite, avec une ordonnée, une abscisse et un restant. Ce qui est intéressant avec ce coefficient, c'est qu'il se calcule très vite et qu'il est compris entre moins 1 et plus 1 et qu'il est donc facile à interpréter. S'il est positif, alors la corrélation est positive. Typiquement, plus on vend de produits, plus le chiffre d'affaires augmente. S'il est négatif, alors la corrélation est négative. Par exemple, plus vous allez proposer une promotion sur un produit, plus votre profit va diminuer. Et donc les relations, cette fois, sont négatives. Quand l'un croit, l'autre décroit. Et si la valeur est proche de zéro, alors il n'y a pas de corrélation entre ces deux variables. Je vous mets ici la formule mathématique. C'est juste à but culturel. Je n'ai pas ici la prétention de faire les démonstrations ou de détailler l'ensemble de ces formules. Sachez en tout cas que le coefficient de Pearson repose sur la covariance et sur la variance, ou plutôt la déviation standard. Pour calculer ce coefficient de Pearson, ce qui vous intéresse ici, nous utiliserons à nouveau le module de statistiques fourni par SciPy, vu dans une vidéo précédente. Il nous permettra de calculer le coefficient de Pearson de cette façon-là. Et comme vous pouvez le noter, il y a une relation positive entre la quantité de produits vendus et le chiffre d'affaires, et il y a une corrélation négative entre le fait de proposer des promotions et le profit. Alors, le problème de ça, c'est qu'il peut être parfois compliqué quand la valeur est très proche de zéro, d'estimer s'il y a une corrélation ou pas. Sachez que dans la pratique, les statisticiens ont d'autres tests et font appel à des lois probabilistiques pour estimer si les chiffres obtenus ici sont significatifs ou pas. On va passer maintenant à l'évaluation de la corrélation entre deux variables qualitatives. Et on va aborder un test qui est le test du QI2. Le test du QI2 fait partie de ces tests de la catégorie des hypothèses nulle ou zéro. Pour vérifier la corrélation entre deux variables, vous allez devoir émettre une hypothèse, l'hypothèse d'indépendance de ces deux variables. Je vais prendre un exemple. Imaginez que le calcul des profits de la région et de la catégorie de produits sont indépendants. Si vous connaissez les profits pour une catégorie et une région, vous pourriez évaluer les profits de chaque région et catégorie vu qu'étant indépendantes, elles sont a priori les mêmes. On a ici pour la catégorie de produits 1 des ventes 20 ventes dans le sud, 30 ventes dans l'est, 25 ventes dans l'ouest, etc. pour un total de 100. C'est voulu. On en déduit un pourcentage de ventes estimé par région pour une catégorie de produits quelconque. Dans le cas idéal où région et catégorie de produits sont indépendantes, pour la catégorie 2, il n'y a aucune raison que par région cette proportion de produits ne soit pas la même. Du coup, on établit une estimation pour par exemple 200 produits. Si nous savons qu'il y a eu 200 produits de la catégorie 2 vendus, nous sommes capables d'estimer les ventes par région. A priori, c'est le même pourcentage. Seulement, nous apprenons par l'expérience et en consultant nos données que les ventes pour la catégorie 2 sont différentes. Nous voyons ici 40 dans le sud, ici 50, ici 60, ici 50, etc. Il y a un écart entre la théorie d'indépendance, entre l'hypothèse d'indépendance que nous avions établie et la réalité physique concrète de ces ventes. Le test du QI 2 va évaluer ces écarts entre l'hypothèse de nullité ou d'indépendance et la réalité concrète de vos chiffres. Il existe des logiciels, des fonctions, qui vont vous permettre d'évaluer ce test et qui vont souvent représenter ce résultat sous forme d'une carte de chaleur comme représentée dans l'exemple ci-dessous. Je ne détaille pas le code parce qu'il n'a pas un grand intérêt. On est ici dans la compréhension de la méthode statistique et pas dans l'idée de vous fournir ce code-là. On le verra dans une vidéo suivante. Avec le test du QI 2, on va obtenir un chiffre, le QI 2 théorique, et on va avoir très souvent une carte de chaleur qui est ce type d'infographie où on va voir de façon très visuelle que région par région, les ventes n'ont pas du tout les mêmes proportions ou n'ont pas du tout le même impact. On voit qu'il y a des écarts dans les ventes déjà, dans le nombre de ventes par région, mais également dans la répartition de ces ventes par catégorie. On le voit parce qu'à chaque couleur va correspondre finalement une proportion des ventes sur les ventes totales par région. Alors on le remarque visuellement ici et c'est assez simple. Parfois, cette représentation visuelle n'est pas si claire ou pas si directe et on peut avoir du mal à prendre une décision, à savoir si effectivement c'est indépendant ou pas. D'un point de vue mathématique, les statistiens évaluent plutôt la valeur de ce QI 2 obtenu, ou plutôt X2 dans la théorie, à l'aide d'une table et d'une probabilité. Ça dépasse un petit peu le cadre de cette formation et de mon explication, mais je vous laisse une ressource à consulter qui vous détaillera comment les statisticiens, à l'aide d'une table et notamment d'une notion de degré de liberté, vont comparer la valeur de ce X2 obtenu à une table de valeurs et pouvoir établir de façon stricte et mathématique si effectivement les deux variables considérées sont indépendantes ou non.

Programme détaillé de la formation

Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
4 commentaires
3,5
4 votes
5
4
3
2
1
elephorm-1464076@addviseo.com
Il y a 2 months
Commentaire
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 1 year
Commentaire
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 2 years
Commentaire
Très bien , mais il manque les supports de cours
antoinem
Il y a 2 years
Commentaire
Bien mais il manque les supports de cours
Nos dernières formations Python
  • Pack 5 formations
    Pack Python : Des bases aux techniques avancées
    Découvrir
    Réputé pour être le langage de programmation le plus populaire au monde, Python est très plébiscité pour ses différentes utilisations.  A travers ce pack de 5 formations, vous apprenez les fondamentaux de la programmation Python, vous maîtrisez les techniques avancées et vous découvrez comment utiliser Python pour le web et pour l’analyse et la visualisation des données. Apprendre à programmer en Python : Apprendre les fondamentaux du langage de programmation Python. Apprendre Python : Qualité de code et maintenance : Maîtriser Python avec une qualité de code et de maintenance optimales. Maîtriser Python : Techniques avancées : Formez-vous aux différentes fonctionnalités avancées de python. Apprendre le web avec Python/ Django : Découvrez la programmation Web : Apprendre les principes fondamentaux de la programmation Web Maîtriser Python : Analyse et visualisations des données : Apprendre à utiliser Python pour l’analyse et la visualisation des données
    22h52 154 leçons
  • Apprendre Python   - Qualité de code et maintenance
    Découvrir
    Maîtriser Python avec une qualité de code et de maintenance optimales
    3h09 23 leçons
  • Maîtriser Python  - Techniques avancées
    Découvrir
  • Apprendre à programmer en Python
    Découvrir
    Apprendre les fondamentaux du langage de programmation Python
    6h33 60 leçons 4,75 / 5
  • Apprendre le Web avec Python/Django - Découvrez la programmation web
    Découvrir
    Apprendre les principes fondamentaux de la programmation Web
    4h38 32 leçons 3,50 / 5

éditeur de vidéos pédagogiques

Des supports pédagogiques en vidéo, produits avec les meilleurs experts. Dans nos studios à Paris, Lyon ou Montpellier. Vous souhaitez travailler avec nous ?
image-micro