Utilisation de Pandas pour manipuler des fichiers Excel

La gestion des fichiers Excel
Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,5
Transcription

Description Programme Avis
3,5

Les objectifs de cette vidéo sont d'apprendre à lire des fichiers Excel avec Pandas, de traiter les données importées et de résoudre les problèmes potentiels lors du chargement des données.

Découvrez comment utiliser Pandas pour lire et manipuler des fichiers Excel, un autre format de données populaire.

Dans cette leçon, nous allons explorer comment utiliser la librairie Pandas afin de lire et manipuler des fichiers Excel. Excel est un format de données couramment utilisé dans les entreprises avec des extensions de type .xls ou .xlsx. Nous vous montrerons comment utiliser la fonction read_excel pour importer des données et comment résoudre les problèmes de rendu des DataFrames lorsqu'ils surviennent.

Nous utiliserons un fichier d'exemple, le référentiel OpQuest version 4, pour illustrer les étapes nécessaires à l'importation correcte des données. Nous examinerons comment spécifier le nom de la feuille à charger, comment ignorer les lignes non pertinentes et comment définir correctement les en-têtes du DataFrame.

Egalement, cette leçon abordera la gestion des différents moteurs de traitement de documents Excel existentes et comment Pandas peut les détecter automatiquement pour optimiser le processus de lecture des fichiers Excel.

Voir plus
Questions réponses
Pourquoi la fonction read_excel peut-elle ne pas rendre correctement un DataFrame ?
Cela peut être dû au formatissement inapproprié des données dans le fichier Excel, nécessitant des ajustements dans les paramètres de lecture comme header et skiprows.
Quelles sont les extensions de fichiers compatibles avec la fonction read_excel de Pandas ?
La fonction read_excel de Pandas est compatible avec les extensions .xls, .xlsx, et certains formats ODT comme LibreOffice et Google Sheets.
Quelle est l'utilité du paramètre sheet_name dans la fonction read_excel ?
Le paramètre sheet_name permet de spécifier quelle feuille de calcul doit être chargée, que ce soit par son nom, son index ou une liste de feuilles.
on va s'occuper des fichiers de type Excel. Donc Excel c'est évidemment un autre format de données populaire dans les entreprises, ce sont tous les fichiers avec des extensions au type xls ou xlxs. La librairie Panda évidemment est tout à fait capable de lire ces fichiers. Et cette fois on va utiliser un autre exemple, à savoir le référentiel OpQuest dans sa version 4. Donc c'est un fichier que vous pouvez télécharger et uploader sur votre compte Google Drive dans le dossier données, comme vous aviez pu le faire précédemment avec le fichier des ventes de la chaîne de magasin Superstar. Comme vous pouvez le voir ici, finalement le code ne change pas beaucoup par rapport à la section précédente sur les fichiers CSV. On va utiliser la fonction readExcel plutôt que la fonction readCSV. Par contre comme vous pouvez le voir là-dessous, on a quelques soucis avec le rendu du DataFrame. On s'attendrait à quelque chose avec des colonnes et du contenu et ça n'a pas l'air de se produire. Si on consulte le document d'origine, on l'ouvre dans Excel, on se rend compte que c'est parce que le document n'est pas formaté de la manière dont on aimerait qu'il soit formaté. Déjà il contient deux feuillets, un feuillet à propos et un feuillet FR et a priori le référentiel est dans le feuillet FR. Donc un référentiel c'est quoi ? C'est un ensemble de bonnes pratiques. Donc une pratique ça va avoir un numéro, une rubrique et un libelé. Je reviens donc maintenant sur le traitement de ce document Excel avec Python et notamment avec Panda avec une première fonctionnalité de la fonction readExcel qui est la définition du paramètre sheetName qui est la valeur du feuillet qu'on va souhaiter charger dans notre DataFrame. Pour cela on va définir la propriété sheetName de cette fonction qui peut être soit de valeur numérique, est-ce que c'est la première, la deuxième ou le troisième feuillet ? Alors ça commence à zéro comme souvent. Soit c'est en forme de chaîne de caractère, à ce moment là ça va être le nom du feuillet. Ça ça peut être compliqué dans le sens où si quelqu'un renomme ce feuillet votre code Python ne marchera plus ou alors ça peut être sous forme de liste si vous voulez par exemple charger plusieurs feuillets en même temps. En réalisant cette opération on se rend compte que le rendu est un petit peu meilleur. On commence à récupérer notre référentiel et comme vous pouvez le voir les entêtes ici sont fausses tout simplement et on va avoir des valeurs bizarres dans notre DataFrame. Alors si on reprend le fichier Excel ici on se rend compte que c'est parce que les premières lignes de notre document vont pas être intéressantes pour nous dans le cadre du chargement du DataFrame, c'est à dire que ces lignes elles n'ont aucun rapport avec les données que l'on souhaite charger. Donc nous allons devoir échapper, ignorer ces lignes comme nous l'avions vu dans le chapitre sur les fichiers CSV de sorte à récupérer uniquement le référentiel. Donc si on regarde ici les entêtes commencent à la ligne 5 et nous terminons ce référentiel au bout de plus de 200 et quelques bonnes pratiques à la ligne 245. Alors comment on va formaliser ça avec la fonction readExcel ? Eh bien nous allons réutiliser une notion que nous avions vu précédemment à savoir les paramètres header et skip rows de sorte à ignorer les 4 premières lignes de la feuille sélectionnée et à définir les entêtes à partir de la ligne 5. Une fois que nous avons fait ceci vous remarquez que vous récupérez le DataFrame avec la structure et le contenu qui est cohérent avec le fichier Excel correspondant. Alors on pourrait s'arrêter là mais j'aimerais aborder une dernière notion avec vous dans ce chapitre c'est la notion de moteur de traitement de documents. Alors la fonction readExcel de l'hybride Panda elle est évidemment capable de lire les fichiers Excel mais déjà des fichiers Excel il y en a de différentes sortes des versions de 2003, des versions de 2007, des versions de 2020. Ils peuvent partager la même extension des XLS ou des XLSX mais il y a aussi d'autres types de formats que cette fonction est capable de lire et notamment les fichiers de type ODT qui peuvent être téléchargés soit via Libre ou OpenOffice et parfois via Google Sheet. Alors on n'est pas obligé de définir cette propriété, la propriété Engine qu'on pourrait mettre dans la fonction. Panda va essayer de détecter le meilleur moteur à utiliser et donc il n'est pas toujours nécessaire de spécifier cette propriété. Mais si vous avez des problèmes de rendu n'hésitez pas à utiliser ce paramètre et à voir comment Panda arrive à parser ou non votre document.
4 commentaires
3,5
4 votes
5
4
3
2
1
elephorm-1464076@addviseo.com
Il y a 3 months
Commentaire
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 1 year
Commentaire
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 2 years
Commentaire
Très bien , mais il manque les supports de cours
antoinem
Il y a 2 years
Commentaire
Bien mais il manque les supports de cours
Nos dernières formations Python
  • Pack 5 formations
    Pack Python : Des bases aux techniques avancées
    Découvrir
    Réputé pour être le langage de programmation le plus populaire au monde, Python est très plébiscité pour ses différentes utilisations.  A travers ce pack de 5 formations, vous apprenez les fondamentaux de la programmation Python, vous maîtrisez les techniques avancées et vous découvrez comment utiliser Python pour le web et pour l’analyse et la visualisation des données. Apprendre à programmer en Python : Apprendre les fondamentaux du langage de programmation Python. Apprendre Python : Qualité de code et maintenance : Maîtriser Python avec une qualité de code et de maintenance optimales. Maîtriser Python : Techniques avancées : Formez-vous aux différentes fonctionnalités avancées de python. Apprendre le web avec Python/ Django : Découvrez la programmation Web : Apprendre les principes fondamentaux de la programmation Web Maîtriser Python : Analyse et visualisations des données : Apprendre à utiliser Python pour l’analyse et la visualisation des données
    22h52 154 leçons
  • Apprendre Python   - Qualité de code et maintenance
    Découvrir
    Maîtriser Python avec une qualité de code et de maintenance optimales
    3h09 23 leçons
  • Maîtriser Python  - Techniques avancées
    Découvrir
  • Apprendre à programmer en Python
    Découvrir
    Apprendre les fondamentaux du langage de programmation Python
    6h33 60 leçons 4,75 / 5
  • Apprendre le Web avec Python/Django - Découvrez la programmation web
    Découvrir
    Apprendre les principes fondamentaux de la programmation Web
    4h38 32 leçons 3,50 / 5