Introduction à la Librairie Panda pour l'Analyse de Données

Introduction à pandas
Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,5
Transcription

Description Programme Avis
3,5

Les objectifs de cette vidéo sont de vous initier à l'utilisation de la librairie Panda, de vous montrer comment créer et manipuler des DataFrames, et d'apprendre à extraire et filtrer des informations statistiques à partir de vos jeux de données.

Découvrez les fondamentaux de la librairie Panda, dédiée à l'analyse et manipulation de données avec Python, à travers la création et manipulation de DataFrames.

La librairie Panda est une librairie renommée pour l'analyse et la manipulation de données. Elle repose principalement sur l'utilisation de l'objet DataFrame, comparable à une feuille de tableur Excel. La création de DataFrames peut se faire à partir de diverses sources, notamment des fichiers, des listes et des dictionnaires.

L'un des aspects clés de Panda est la capacité à extraire des informations statistiques et mathématiques à l'aide de la fonction Describe. Celle-ci fournit des détails sur le nombre d'entrées, la moyenne, la déviation standard, les valeurs minimum et maximum, ainsi que les quartiles. Les colonnes peuvent être listées avec la propriété columns et renommées à l'aide de la fonction rename.

La manipulation de DataFrames utilise des syntaxes similaires à celles des listes et des dictionnaires, facilitant l'extraction de colonnes ou de lignes spécifiques grâce aux crochets. Les fonctions head et tail permettent respectivement de visualiser les premières et dernières lignes du DataFrame.

La fonction query est particulièrement puissante pour filtrer les données en appliquant des conditions. Par exemple, vous pouvez récupérer des commandes de produits par catégorie ou filtrer des montants de vente spécifiques. Cela permet des manipulations complexes en quelques lignes de code.

Voir plus
Questions réponses
Qu'est-ce qu'un DataFrame en Panda?
Un DataFrame est un objet central de la librairie Panda, comparable à une feuille de calcul Excel, permettant de manipuler et d'analyser des données structurées.
Comment renommer une colonne dans un DataFrame?
Pour renommer une colonne dans un DataFrame, utilisez la fonction rename avec en premier paramètre 'columns' et un dictionnaire contenant les renommages, suivi de inplace=True pour appliquer directement les modifications.
Quelle fonction permet de filtrer les données dans un DataFrame?
La fonction query permet de filtrer les données dans un DataFrame en appliquant des conditions sur les colonnes pour extraire des sous-ensembles spécifiques.
Alors en préambule de ce grand chapitre sur la collecte de données, une introduction à la librairie Panda. Alors la librairie Panda c'est une librairie très connue qui est dédiée à l'analyse et à la manipulation de données. L'essentiel de cette librairie est centralisé autour d'un objet qui s'appelle un DataFrame et que vous pourriez comparer plus ou moins à une feuille de tableur Excel. Alors pour créer les DataFrames, c'est un objet Python, on peut le faire à partir de toutes sortes de données et toutes sortes de structures. En général on fait ça soit à partir du chargement d'un fichier, ce qui fera l'objet de vidéos qui vont arriver, soit à partir de listes et de dictionnaires qui sont des structures que vous avez déjà manipulées dans des vidéos précédentes. Que ce soit à partir des dictionnaires ou des listes, on utilisera la fonction DataFrame de Panda pour créer un DataFrame. Alors si vous partez d'une liste, votre DataFrame aura pour colonne un index numérique et si vous partez d'un dictionnaire, les colonnes de votre tableur, on va dire les en-têtes de vos colonnes, utiliseront les clés de votre dictionnaire. Alors maintenant qu'on a un DataFrame, finalement c'est qu'une représentation différente des mêmes données qu'on a à l'origine. Quelles informations peut-on obtenir à partir de Panda ? La première fonction à bien connaître c'est la fonction Describe qui donne un ensemble d'informations statistiques et mathématiques sur le jeu de données considérées et ce selon le type de variable considérée. Évidemment on ne va pas considérer de la même façon des propriétés qui sont des chiffres, par exemple des prix, des nombres et des propriétés comme le nom, le prénom ou un email. Pour les types de variables numériques, on va pouvoir compter le nombre d'entrées dans l'échantillon, la moyenne, la déviation standard, les valeurs minimum et maximum et les premiers, second et troisième quartils. Vous pouvez d'ailleurs retrouver la définition de ce qu'est un quartil dès maintenant en cliquant sur le lien ou dans un chapitre qui suivra par la suite. Dans les faits, ça ressemble à ça où vous allez pouvoir rassembler toutes ces données et vous faire une première idée de à quoi ressemble votre échantillon de données. Ensuite on peut lister les différentes variables ou colonnes à l'aide de la propriété, c'est pas une fonction, c'est une propriété, la propriété colonne et vous pourrez renommer ces colonnes, notamment si le nom des colonnes ne vous correspond pas ou n'est pas très clair, à l'aide de la fonction rename. Un print sur le dataframe.columns va vous donner ce genre d'informations et la fonction rename va vous permettre, en passant en premier paramètre columns suivi d'un dictionnaire avec en clé le nombre de la variable de la colonne d'origine et en valeur le remplacement, suivi du inplace en deuxième argument égal à true. Ça c'est super important, sinon vous allez voir la modification se faire mais elle n'aura pas été appliquée sur votre dataframe. Et comme vous pouvez le voir ici, après opération effectivement le nom des colonnes a changé. Ensuite comment va-t-on rechercher de l'information dans un dataframe ? Nous l'avions fait pour les dictionnaires et pour les listes, sachez qu'un dataframe grosso modo se manipule comme un dictionnaire, il est donc très facile d'obtenir par exemple une ou plusieurs colonnes du dataframe ou seulement un certain nombre de lignes. Tout ce que l'on avait vu avant avec la syntaxe à base de crochets reste applicable dans le cas du dataframe. Donc cette fois on va prendre le dataframe et le jeu de données qui est un peu le fil rouge de cette formation, à savoir les analyses des ventes de la chaîne de magasin Superstore. Donc je passe sur ce code, on va y revenir dans la vidéo suivante qui sera le chargement des fichiers CSV pour aller directement au dataframe. Donc ce dataframe il a un certain nombre de colonnes comme vous pouvez le voir et on peut tout à fait par exemple avec une syntaxe en crochet en passant la clé récupérer seulement une colonne de ce dataframe ou alors deux colonnes ou quatre ou cinq, le nombre que l'on veut. Si on ne définit rien on va tout récupérer. Ensuite si on veut récupérer qu'un certain nombre de lignes comme je vous le disais la syntaxe à base de crochets fonctionne ici aussi et donc on va avoir le choix de récupérer les dix premières, les dix dernières si on met un index négatif, la troisième et quatrième lignes. Toutes ces opérations là que nous avions fait sur les dictionnaires et sur les listes s'appliquent et fonctionnent sur la structure d'un dataframe. Sachez qu'il existe aussi une fonction spécifique au dataframe qui n'existe pas pour les listes et les dictionnaires par exemple qui permet de se faire une idée du jeu de données manipulées en montrant seulement quelques lignes, les premières. Pour cela vous pouvez utiliser la fonction head qui veut dire tête et vous devriez du coup imaginer ce que fait la fonction tail qui veut dire que comme la queue d'un renard par exemple. Avec l'appel de cette fonction superstore.head on a accès aux premières entrées de ce jeu de données. Ce jeu de données c'est quoi ? C'est la liste des commandes qui ont été effectuées auprès du magasin superstore, le tout trié en fonction d'un certain nombre de propriétés, de variables, de colonnes si vous préférez. On va retrouver la ville d'achat, le pays, l'état puisque c'est centré aux Etats-Unis, le mode de livraison, la date de livraison, le segment concerné, les ventes, la quantité de produits achetés, le nom du produit, le code postal, etc. Alors comment on peut partir d'un DataFrame ? C'est d'ailleurs pour moi ce qui fait que tout le monde utilise Panda et la notion de DataFrame. C'est comment on va maintenant filtrer de l'information ? Qu'est ce que ça apporte de plus que nous connaissions déjà qui fait qu'on a besoin d'utiliser ce type de structure ? Et bien c'est notamment la fonction query. La fonction query va permettre de filtrer les informations. Je vous ai mis un lien vers la documentation ici puisque cette fonction permet de faire énormément de trucs, notamment vous allez pouvoir appliquer des conditions applicables sur les différentes colonnes ou variables du DataFrame pour en filtrer une partie. Par exemple, imaginons que l'on souhaite récupérer que les commandes qui ont été effectuées sur les produits de la catégorie fourniture. A ce moment là on va pouvoir écrire ce type d'opération et on va du coup récupérer seulement les produits de la catégorie fourniteur. Si on veut, un peu comme nous l'avions vu dans le chapitre des conditions, appliquer de multiples conditions, on va pouvoir le faire de la même façon avec les opérateurs AND et OR. Typiquement ici si on veut récupérer toutes les commandes dont le montant total est compris entre 10 et 50 dollars, on va pouvoir faire sales inférieur à 50 sachant que sales et catégories sont le nom des colonnes, donc des variables disponibles. Et donc très rapidement, en anglais finalement, c'est du langage, c'est quasiment de l'anglais ce qu'on était en train d'écrire, vous allez pouvoir prendre un certain nombre d'informations sur ce jeu de données en quelques lignes de piton et c'est le gros intérêt de la structure DataFrame et de la librairie Panda. Alors le fait d'avoir filtré ces données, ça ne vous empêche pas ensuite de remanipuler le DataFrame nouvellement obtenu pour encore effectuer des opérations dessus. On peut tout à fait par exemple récupérer les ventes supérieures à 5000 et inférieures à 20000 puis sur ce DataFrame réappliquer une condition avec Query, puis réappliquer une condition, puis réappliquer une condition et finalement ne conserver qu'une ou deux colonnes, puis les dix premiers. Tout ça se chaîne et se suit et va fonctionner de façon tout à fait logique et évidente.
4 commentaires
3,5
4 votes
5
4
3
2
1
elephorm-1464076@addviseo.com
Il y a 3 months
Commentaire
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 1 year
Commentaire
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 2 years
Commentaire
Très bien , mais il manque les supports de cours
antoinem
Il y a 2 years
Commentaire
Bien mais il manque les supports de cours
Nos dernières formations Python
  • Pack 5 formations
    Pack Python : Des bases aux techniques avancées
    Découvrir
    Réputé pour être le langage de programmation le plus populaire au monde, Python est très plébiscité pour ses différentes utilisations.  A travers ce pack de 5 formations, vous apprenez les fondamentaux de la programmation Python, vous maîtrisez les techniques avancées et vous découvrez comment utiliser Python pour le web et pour l’analyse et la visualisation des données. Apprendre à programmer en Python : Apprendre les fondamentaux du langage de programmation Python. Apprendre Python : Qualité de code et maintenance : Maîtriser Python avec une qualité de code et de maintenance optimales. Maîtriser Python : Techniques avancées : Formez-vous aux différentes fonctionnalités avancées de python. Apprendre le web avec Python/ Django : Découvrez la programmation Web : Apprendre les principes fondamentaux de la programmation Web Maîtriser Python : Analyse et visualisations des données : Apprendre à utiliser Python pour l’analyse et la visualisation des données
    22h52 154 leçons
  • Apprendre Python   - Qualité de code et maintenance
    Découvrir
    Maîtriser Python avec une qualité de code et de maintenance optimales
    3h09 23 leçons
  • Maîtriser Python  - Techniques avancées
    Découvrir
  • Apprendre à programmer en Python
    Découvrir
    Apprendre les fondamentaux du langage de programmation Python
    6h33 60 leçons 4,75 / 5
  • Apprendre le Web avec Python/Django - Découvrez la programmation web
    Découvrir
    Apprendre les principes fondamentaux de la programmation Web
    4h38 32 leçons 3,50 / 5