Introduction aux Calculs Statistiques avec Python

Calculs statistiques classiques
Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,5
Transcription

Description Programme Avis
3,5

Les objectifs de cette vidéo sont :

  • Comprendre l'importance des concepts statistiques pour la visualisation de données.
  • Apprendre à calculer les mesures de tendance centrale et de dispersion en utilisant Python et les bibliothèques NumPy et SciPy.
  • Interpréter correctement les résultats statistiques pour éviter les biais et les erreurs d'analyse.

Découvrez l'importance des statistiques descriptives pour la visualisation de données et apprenez à calculer la moyenne, la médiane et le mode avec Python.

Dans cette leçon, nous explorons les concepts fondamentaux des statistiques descriptives, essentiels pour toute analyse de données. La première partie de la vidéo répond à la question cruciale : pourquoi est-il nécessaire d'avoir des bases en statistiques pour la visualisation de données ? Sans comprendre ces concepts, vous risquez de véhiculer des informations biaisées ou incorrectes.

Nous couvrirons trois mesures principales de tendance centrale : la moyenne arithmétique, la médiane et le mode. Par la suite, nous examinerons des mesures de dispersion telles que la variance et la déviation standard, qui indiquent à quel point vos données s'écartent de la moyenne.

Vous apprendrez à calculer ces statistiques en utilisant les modules Python NumPy et Stats de SciPy. Nous illustrerons ces concepts à l'aide d'un exemple concret basé sur les ventes de superstores contenant plus de 9000 lignes de données.

Enfin, nous verrons que la déviation standard permet de ramener la dispersion à une unité compréhensible, facilitant ainsi l'interprétation des données. Rejoignez-nous dans cette exploration rigoureuse et pratique des statistiques descriptives !

Voir plus
Questions réponses
Pourquoi est-il important de comprendre les statistiques descriptives en visualisation de données ?
Les statistiques descriptives sont essentielles pour interpréter correctement les données et éviter de véhiculer des informations biaisées ou erronées.
Quels sont les trois types de mesures de tendance centrale abordés dans cette leçon ?
Les trois mesures de tendance centrale abordées sont la moyenne arithmétique, la médiane et le mode.
Pourquoi utilise-t-on la déviation standard plutôt que directement la variance ?
La déviation standard est utilisée parce qu'elle ramène les valeurs à l'unité d'origine, facilitant ainsi l'interprétation des résultats.
Une vidéo cette fois sur les calculs statistiques classiques. Alors une question que vous pourriez vous poser c'est à savoir pourquoi vous avez besoin de bases en statistiques pour faire de la visualisation de données. Après tout, vous avez acquis des bases en Python et en Pandas, il vous suffirait juste de consulter les dernières parties de ce cours, de cette formation, pour apprendre la librairie de data visualisation Python, qui est Plotly, et faire vos graphiques. Seulement voilà, comment on peut être sûr que vous n'êtes pas en train de véhiculer des informations qui sont fausses, ou biaisées, ou avec de mauvaises données. Enfin, quand vous avez énormément de données, ce qui est notre cas ici, avec les ventes de superstores, comment savoir quelles données vous allez devoir représenter ? Vous n'allez pas faire une trentaine de diagrammes par variable, tous les générer, y passer trois jours pour trouver l'information qui peut être pertinente, ça n'a pas trop de sens. Alors dans ce chapitre on va faire des rappels sur les statistiques, comme souvent on importe les ressources, et on va parler de statistiques, notamment de statistiques descriptives dans cette partie. Alors les statistiques descriptives, ça vous permet d'obtenir des informations autour de trois sujets principaux. Ça va vous donner des informations sur la tendance centrale de vos données, avec notamment la moyenne arithmétique, que vous connaissez déjà, la médiane et le mode. On va avoir des informations sur la dispersion de ces données, notamment à l'aide de la variance et de la déviation standard, et on se garde pour une vidéo prochaine toutes les informations fournies par les statistiques pour évaluer la corrélation entre des variables. Alors pour calculer ces différentes mesures nous allons utiliser deux modules appelés NumPy et Stats de l'organisation SciPy. On les importera comme d'habitude avec Python, et on va passer aux mesures de tendance centrale. Donc je vous le disais, la moyenne c'est un indice de tendance centrale, il est connu, on fait la somme des éléments, on divise par le nombre d'éléments, ça c'est la moyenne arithmétique. Sachez, c'est pas l'objectif de cette vidéo, qu'il existe d'autres types de moyennes qui répondent à d'autres problèmes statistiques. Pour calculer cette moyenne, NumPy fournit la fonction min. Elle fournira aussi la fonction médiane pour la calcul de la médiane. Alors la médiane c'est quoi ? En quoi elle se diffère de la moyenne ? La médiane, pour le coup, est la vraie valeur moyenne de votre jeu de données. Pour la calculer, elle se calcule évidemment que pour les valeurs numériques, vous prenez toutes vos valeurs numériques, vous les ordonnez de croissant en décroissant, de décroissant en croissant, et vous prenez la valeur qui est au milieu, c'est-à-dire celle qui aura autant d'éléments avant qu'après. Et du coup vous obtenez la médiane, donc la valeur qui est vraiment au milieu de votre échantillon de données. Le mode, c'est la valeur qui apparaît le plus fréquemment dans votre jeu de données. Donc c'est aussi un indice de dispersion centrale, de tendance centrale pardon, et ça peut vous permettre de voir s'il y a des valeurs qui sont beaucoup plus fréquentes que d'autres dans votre échantillon de données. Alors si la moyenne et la médiane se calculent avec NumPy, pour calculer le mode, il faudra utiliser la librairie stats. Comme vous pouvez le voir ci-dessous. Donc ici nous avons une moyenne à 28, nous avons une médiane à 8, ce qui veut dire qu'il y a dans notre échantillon de plus de 9000 lignes, 4500 lignes qui sont sous les 8 dollars de profit, et 4500 qui sont au-dessus des 8 dollars de profit. C'est vachement intéressant, sachant que la moyenne est à 28. Donc vous voyez que la répartition des valeurs déjà elle va être très étendue sur les axes des profits. Enfin le mode, il est à 65. Donc 65 c'est la valeur de profit qui apparaît le plus dans l'échantillon. Ce qui peut indiquer peut-être qu'il y a un produit qui se vend de façon plus fréquente que d'autres et que ce produit génère toujours le même profit qui est de 65 dollars. Alors pour les mesures de dispersion, nous allons avoir la variance. Donc la variance, qu'est-ce que c'est ? C'est un indice qui va permettre d'évaluer à quel point les valeurs s'écartent de la moyenne, c'est-à-dire à quel point finalement les valeurs du jeu de données sont dispersées autour de la moyenne, qui est donc un indice de tendance centrale. Alors pour faire cela, si on y réfléchit, on pourrait calculer pour chacune des lignes ou chacun des points de notre jeu de données à quel point ils s'écartent de la moyenne. Typiquement si la moyenne est à 10 et que la valeur est 12, l'écart est de 2. Si la moyenne est à 10 et que la valeur est 8, l'écart est de 2 moins 2. Et on pourrait faire la somme de tous ces écarts, le problème c'est que si on fait ça mathématiquement on arrive à 0, donc on n'apprend rien de spécial. C'est pourquoi la variance, elle, elle calcule la somme des écarts à la moyenne mais au carré, car moins 2 au carré et 2 au carré ça fait une valeur positive et donc la somme de tous ces écarts ne fera pas 0, elle va produire une valeur et plus cette valeur sera grande, plus la variance sera grande, plus notre échantillon de données est dispersé, plus il est dispersé, éloigné de la moyenne. Donc vous avez la formule ici, je la donne à titre d'exemple, ceci n'est pas en cours de statistiques, si vous êtes intéressé par les statistiques, il y a de très bonnes ressources sur internet et ça vous demandera de bonnes bases en mathématiques. Ce qu'il faut retenir en tout cas c'est que plus la variance est élevée et plus la dispersion des données est grande. Alors une fois qu'on a compris la variance, on peut passer à la déviation standard puisque la déviation standard finalement n'est que la racine carré de la variance. Alors pourquoi on a besoin de la déviation standard ? C'est qu'ici le fait d'avoir mis nos unités au carré fait que l'unité de la variance est au carré. Typiquement ici, vu qu'on a manipulé des dollars pour du profit, l'unité de la variance est du dollar au carré, ce qui n'a pas de sens logique, ça a un sens mathématique mais pas de sens logique. Pour certains calculs ou pour certaines analyses, et notamment lorsqu'on fait des analyses à cycles plus poussés ou même quand on veut appliquer des algorithmes de machine learning ou des processus pour optimiser et limiter les erreurs, les écarts, à ce moment là on va vouloir manipuler on va dire la même unité d'origine. Et c'est pourquoi on utilisera la déviation standard qui a le seul intérêt finalement mathématique de rétablir l'unité d'origine. Vu qu'on est sur une racine carré de quelque chose au carré, c'est du racine carré de dollar au carré donc la déviation standard elle s'exprime en dollar. Dans l'autre contexte évidemment. Alors comment on calcule la variance ? On la calcule à l'aide de la librairie NumPy avec np.var, la fonction var, la déviation standard se calculera avec NumPy et la fonction std pour standard deviation. Vous pouvez voir les valeurs ici, comment elles s'expriment, et ce que l'on disait tout à l'heure sur l'écart à la moyenne se vérifie. La variance est très élevée, 54 870, du coup la déviation standard est aussi élevée puisque c'est la racine carré d'un nombre qui est important. Alors moi je vous dis que du coup c'est important, mais comment on le vérifie ? Et bien observons en quelques lignes avec une librairie de data visualisation si effectivement les valeurs sont très dispersées dans l'intervalle des valeurs possibles. Effectivement on voit ici, donc le count ici c'est le nombre d'éléments qui ont cette valeur, ici c'est les profits, donc un profit ça peut être négatif ou positif, et on voit effectivement que les valeurs vont de moins 6000 à plus de 8000 avec une forte tendance centrale qui est ici, qui est autour des... on va le soumettre un peu, qui est surtout comprise entre moins 300 et plus 400, mais que du coup effectivement on est très éloigné de la moyenne qui, je vous le rappelle, est à 28, donc qui est à peu près ici.
4 commentaires
3,5
4 votes
5
4
3
2
1
elephorm-1464076@addviseo.com
Il y a 3 months
Commentaire
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 1 year
Commentaire
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 2 years
Commentaire
Très bien , mais il manque les supports de cours
antoinem
Il y a 2 years
Commentaire
Bien mais il manque les supports de cours
Nos dernières formations Python
  • Pack 5 formations
    Pack Python : Des bases aux techniques avancées
    Découvrir
    Réputé pour être le langage de programmation le plus populaire au monde, Python est très plébiscité pour ses différentes utilisations.  A travers ce pack de 5 formations, vous apprenez les fondamentaux de la programmation Python, vous maîtrisez les techniques avancées et vous découvrez comment utiliser Python pour le web et pour l’analyse et la visualisation des données. Apprendre à programmer en Python : Apprendre les fondamentaux du langage de programmation Python. Apprendre Python : Qualité de code et maintenance : Maîtriser Python avec une qualité de code et de maintenance optimales. Maîtriser Python : Techniques avancées : Formez-vous aux différentes fonctionnalités avancées de python. Apprendre le web avec Python/ Django : Découvrez la programmation Web : Apprendre les principes fondamentaux de la programmation Web Maîtriser Python : Analyse et visualisations des données : Apprendre à utiliser Python pour l’analyse et la visualisation des données
    22h52 154 leçons
  • Apprendre Python   - Qualité de code et maintenance
    Découvrir
    Maîtriser Python avec une qualité de code et de maintenance optimales
    3h09 23 leçons
  • Maîtriser Python  - Techniques avancées
    Découvrir
  • Apprendre à programmer en Python
    Découvrir
    Apprendre les fondamentaux du langage de programmation Python
    6h33 60 leçons 4,75 / 5
  • Apprendre le Web avec Python/Django - Découvrez la programmation web
    Découvrir
    Apprendre les principes fondamentaux de la programmation Web
    4h38 32 leçons 3,50 / 5