Calculs statistiques classiques

Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,5
Transcription

Description Programme Avis
3,5

Apprendre à utiliser Python pour l’analyse et la visualisation des données.

Si vous souhaitez apprendre à traiter, analyser et visualiser les données avec Python de manière autonome, cette formation est pour vous !

Dans cette formation, vous apprenez à utiliser Google Colaboratory qui est la plateforme SaaS pour utiliser Jupyter sans nécessité d’installation.

Après avoir repris les bases de Jupyter, vous découvrez les bases de Python. Vous apprenez ensuite à charger tous types de données et notamment les fichiers de types Excel, vous apprenez comment nettoyer ce type de fichiers, ainsi que la gestion des valeurs manquantes et les valeurs aberrantes dans vos jeux de données.

Après avoir revu les bases des statistiques, vous apprenez comment gérer des rapports complets pour l’analyse de vos données. 

Enfin, vous passez à la partie visualisation des données, vous apprenez à créer tous types de diagrammes, que ce soit des diagrammes en bâtons, des nuages de points mais également des cartes de chaleurs qui vous donneront des informations très utiles sur le jeu de données à manipuler.

Voir plus
Une vidéo cette fois sur les calculs statistiques classiques. Alors une question que vous pourriez vous poser c'est à savoir pourquoi vous avez besoin de bases en statistiques pour faire de la visualisation de données. Après tout, vous avez acquis des bases en Python et en Pandas, il vous suffirait juste de consulter les dernières parties de ce cours, de cette formation, pour apprendre la librairie de data visualisation Python, qui est Plotly, et faire vos graphiques. Seulement voilà, comment on peut être sûr que vous n'êtes pas en train de véhiculer des informations qui sont fausses, ou biaisées, ou avec de mauvaises données. Enfin, quand vous avez énormément de données, ce qui est notre cas ici, avec les ventes de superstores, comment savoir quelles données vous allez devoir représenter ? Vous n'allez pas faire une trentaine de diagrammes par variable, tous les générer, y passer trois jours pour trouver l'information qui peut être pertinente, ça n'a pas trop de sens. Alors dans ce chapitre on va faire des rappels sur les statistiques, comme souvent on importe les ressources, et on va parler de statistiques, notamment de statistiques descriptives dans cette partie. Alors les statistiques descriptives, ça vous permet d'obtenir des informations autour de trois sujets principaux. Ça va vous donner des informations sur la tendance centrale de vos données, avec notamment la moyenne arithmétique, que vous connaissez déjà, la médiane et le mode. On va avoir des informations sur la dispersion de ces données, notamment à l'aide de la variance et de la déviation standard, et on se garde pour une vidéo prochaine toutes les informations fournies par les statistiques pour évaluer la corrélation entre des variables. Alors pour calculer ces différentes mesures nous allons utiliser deux modules appelés NumPy et Stats de l'organisation SciPy. On les importera comme d'habitude avec Python, et on va passer aux mesures de tendance centrale. Donc je vous le disais, la moyenne c'est un indice de tendance centrale, il est connu, on fait la somme des éléments, on divise par le nombre d'éléments, ça c'est la moyenne arithmétique. Sachez, c'est pas l'objectif de cette vidéo, qu'il existe d'autres types de moyennes qui répondent à d'autres problèmes statistiques. Pour calculer cette moyenne, NumPy fournit la fonction min. Elle fournira aussi la fonction médiane pour la calcul de la médiane. Alors la médiane c'est quoi ? En quoi elle se diffère de la moyenne ? La médiane, pour le coup, est la vraie valeur moyenne de votre jeu de données. Pour la calculer, elle se calcule évidemment que pour les valeurs numériques, vous prenez toutes vos valeurs numériques, vous les ordonnez de croissant en décroissant, de décroissant en croissant, et vous prenez la valeur qui est au milieu, c'est-à-dire celle qui aura autant d'éléments avant qu'après. Et du coup vous obtenez la médiane, donc la valeur qui est vraiment au milieu de votre échantillon de données. Le mode, c'est la valeur qui apparaît le plus fréquemment dans votre jeu de données. Donc c'est aussi un indice de dispersion centrale, de tendance centrale pardon, et ça peut vous permettre de voir s'il y a des valeurs qui sont beaucoup plus fréquentes que d'autres dans votre échantillon de données. Alors si la moyenne et la médiane se calculent avec NumPy, pour calculer le mode, il faudra utiliser la librairie stats. Comme vous pouvez le voir ci-dessous. Donc ici nous avons une moyenne à 28, nous avons une médiane à 8, ce qui veut dire qu'il y a dans notre échantillon de plus de 9000 lignes, 4500 lignes qui sont sous les 8 dollars de profit, et 4500 qui sont au-dessus des 8 dollars de profit. C'est vachement intéressant, sachant que la moyenne est à 28. Donc vous voyez que la répartition des valeurs déjà elle va être très étendue sur les axes des profits. Enfin le mode, il est à 65. Donc 65 c'est la valeur de profit qui apparaît le plus dans l'échantillon. Ce qui peut indiquer peut-être qu'il y a un produit qui se vend de façon plus fréquente que d'autres et que ce produit génère toujours le même profit qui est de 65 dollars. Alors pour les mesures de dispersion, nous allons avoir la variance. Donc la variance, qu'est-ce que c'est ? C'est un indice qui va permettre d'évaluer à quel point les valeurs s'écartent de la moyenne, c'est-à-dire à quel point finalement les valeurs du jeu de données sont dispersées autour de la moyenne, qui est donc un indice de tendance centrale. Alors pour faire cela, si on y réfléchit, on pourrait calculer pour chacune des lignes ou chacun des points de notre jeu de données à quel point ils s'écartent de la moyenne. Typiquement si la moyenne est à 10 et que la valeur est 12, l'écart est de 2. Si la moyenne est à 10 et que la valeur est 8, l'écart est de 2 moins 2. Et on pourrait faire la somme de tous ces écarts, le problème c'est que si on fait ça mathématiquement on arrive à 0, donc on n'apprend rien de spécial. C'est pourquoi la variance, elle, elle calcule la somme des écarts à la moyenne mais au carré, car moins 2 au carré et 2 au carré ça fait une valeur positive et donc la somme de tous ces écarts ne fera pas 0, elle va produire une valeur et plus cette valeur sera grande, plus la variance sera grande, plus notre échantillon de données est dispersé, plus il est dispersé, éloigné de la moyenne. Donc vous avez la formule ici, je la donne à titre d'exemple, ceci n'est pas en cours de statistiques, si vous êtes intéressé par les statistiques, il y a de très bonnes ressources sur internet et ça vous demandera de bonnes bases en mathématiques. Ce qu'il faut retenir en tout cas c'est que plus la variance est élevée et plus la dispersion des données est grande. Alors une fois qu'on a compris la variance, on peut passer à la déviation standard puisque la déviation standard finalement n'est que la racine carré de la variance. Alors pourquoi on a besoin de la déviation standard ? C'est qu'ici le fait d'avoir mis nos unités au carré fait que l'unité de la variance est au carré. Typiquement ici, vu qu'on a manipulé des dollars pour du profit, l'unité de la variance est du dollar au carré, ce qui n'a pas de sens logique, ça a un sens mathématique mais pas de sens logique. Pour certains calculs ou pour certaines analyses, et notamment lorsqu'on fait des analyses à cycles plus poussés ou même quand on veut appliquer des algorithmes de machine learning ou des processus pour optimiser et limiter les erreurs, les écarts, à ce moment là on va vouloir manipuler on va dire la même unité d'origine. Et c'est pourquoi on utilisera la déviation standard qui a le seul intérêt finalement mathématique de rétablir l'unité d'origine. Vu qu'on est sur une racine carré de quelque chose au carré, c'est du racine carré de dollar au carré donc la déviation standard elle s'exprime en dollar. Dans l'autre contexte évidemment. Alors comment on calcule la variance ? On la calcule à l'aide de la librairie NumPy avec np.var, la fonction var, la déviation standard se calculera avec NumPy et la fonction std pour standard deviation. Vous pouvez voir les valeurs ici, comment elles s'expriment, et ce que l'on disait tout à l'heure sur l'écart à la moyenne se vérifie. La variance est très élevée, 54 870, du coup la déviation standard est aussi élevée puisque c'est la racine carré d'un nombre qui est important. Alors moi je vous dis que du coup c'est important, mais comment on le vérifie ? Et bien observons en quelques lignes avec une librairie de data visualisation si effectivement les valeurs sont très dispersées dans l'intervalle des valeurs possibles. Effectivement on voit ici, donc le count ici c'est le nombre d'éléments qui ont cette valeur, ici c'est les profits, donc un profit ça peut être négatif ou positif, et on voit effectivement que les valeurs vont de moins 6000 à plus de 8000 avec une forte tendance centrale qui est ici, qui est autour des... on va le soumettre un peu, qui est surtout comprise entre moins 300 et plus 400, mais que du coup effectivement on est très éloigné de la moyenne qui, je vous le rappelle, est à 28, donc qui est à peu près ici.

Programme détaillé de la formation

Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
4 commentaires
3,5
4 votes
5
4
3
2
1
elephorm-1464076@addviseo.com
Il y a 2 months
Commentaire
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 1 year
Commentaire
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 2 years
Commentaire
Très bien , mais il manque les supports de cours
antoinem
Il y a 2 years
Commentaire
Bien mais il manque les supports de cours
Nos dernières formations Python
  • Pack 5 formations
    Pack Python : Des bases aux techniques avancées
    Découvrir
    Réputé pour être le langage de programmation le plus populaire au monde, Python est très plébiscité pour ses différentes utilisations.  A travers ce pack de 5 formations, vous apprenez les fondamentaux de la programmation Python, vous maîtrisez les techniques avancées et vous découvrez comment utiliser Python pour le web et pour l’analyse et la visualisation des données. Apprendre à programmer en Python : Apprendre les fondamentaux du langage de programmation Python. Apprendre Python : Qualité de code et maintenance : Maîtriser Python avec une qualité de code et de maintenance optimales. Maîtriser Python : Techniques avancées : Formez-vous aux différentes fonctionnalités avancées de python. Apprendre le web avec Python/ Django : Découvrez la programmation Web : Apprendre les principes fondamentaux de la programmation Web Maîtriser Python : Analyse et visualisations des données : Apprendre à utiliser Python pour l’analyse et la visualisation des données
    22h52 154 leçons
  • Apprendre Python   - Qualité de code et maintenance
    Découvrir
    Maîtriser Python avec une qualité de code et de maintenance optimales
    3h09 23 leçons
  • Maîtriser Python  - Techniques avancées
    Découvrir
  • Apprendre à programmer en Python
    Découvrir
    Apprendre les fondamentaux du langage de programmation Python
    6h33 60 leçons 4,75 / 5
  • Apprendre le Web avec Python/Django - Découvrez la programmation web
    Découvrir
    Apprendre les principes fondamentaux de la programmation Web
    4h38 32 leçons 3,50 / 5

éditeur de vidéos pédagogiques

Des supports pédagogiques en vidéo, produits avec les meilleurs experts. Dans nos studios à Paris, Lyon ou Montpellier. Vous souhaitez travailler avec nous ?
image-micro