La gestion des fichiers CSV

Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,5
Transcription

Description Programme Avis
3,5

Apprendre à utiliser Python pour l’analyse et la visualisation des données.

Si vous souhaitez apprendre à traiter, analyser et visualiser les données avec Python de manière autonome, cette formation est pour vous !

Dans cette formation, vous apprenez à utiliser Google Colaboratory qui est la plateforme SaaS pour utiliser Jupyter sans nécessité d’installation.

Après avoir repris les bases de Jupyter, vous découvrez les bases de Python. Vous apprenez ensuite à charger tous types de données et notamment les fichiers de types Excel, vous apprenez comment nettoyer ce type de fichiers, ainsi que la gestion des valeurs manquantes et les valeurs aberrantes dans vos jeux de données.

Après avoir revu les bases des statistiques, vous apprenez comment gérer des rapports complets pour l’analyse de vos données. 

Enfin, vous passez à la partie visualisation des données, vous apprenez à créer tous types de diagrammes, que ce soit des diagrammes en bâtons, des nuages de points mais également des cartes de chaleurs qui vous donneront des informations très utiles sur le jeu de données à manipuler.

Voir plus
Un des premiers types de fichiers qu'on va aborder dans ce chapitre c'est le chargement de fichiers CSV. Alors l'essentiel des données d'une entreprise est stocké sous forme de fichiers de différentes formes ou alors dans des bases de données pour lesquelles on peut obtenir justement un export sous forme de format fichier. Alors les fichiers CSV d'ailleurs, CSV ça veut dire comma separated values, ça veut dire séparé par une virgule, ils peuvent être obtenus à partir de tout type de données, d'ailleurs cette option d'export elle est disponible dans des logiciels comme Excel ou Google Sheets. La librairie Panda, et notamment la fonction read CSV, va vous permettre de créer un data frame à partir de ce type de fichier. Alors on reprend cette étape où on va importer le fichier datastore et d'ailleurs vous pouvez voir que ce fichier est un fichier CSV et qu'il va être lu et transformé en data frame à partir de la fonction read underscore csv. Donc nous avons notre data frame et on peut le manipuler comme nous l'avons vu dans la vidéo précédente. Seulement parfois, et même si un fichier CSV s'appelle CSV, parfois des gens utilisent un autre type de séparateur, notamment le point virgule, pour on va dire séparer les différentes colonnes, les différentes valeurs ligne à ligne d'un jeu de données. Dans ce cas là, sauf si on implémente un mécanisme d'exception, Panda ne va pas lever d'exception, ne va pas créer de problème, mais vous n'allez pas obtenir de data frame. Comme on peut le voir ici, vous n'avez pas de data frame, il a juste fait une lecture ligne à ligne et finalement vous avez juste retourné le contenu de ce fichier CSV. Par contre si vous définissez le séparateur au point virgule, à ce moment là il aura tout à fait intégré un data frame. Alors un autre problème qui peut arriver quand on charge des fichiers CSV, ça va arriver notamment si vous avez des gens qui travaillent avec des environnements différents, notamment du Windows d'un côté avec peut-être de l'Internet Explorer et du Mac OS X avec peut-être du Safari. Des gens vont les télécharger des fichiers sur une plateforme, puis vont les éditer dans Excel, puis les sauvegarder et puis les transmettre par mail et à ce moment là vous pouvez avoir des caractères qui sont mal rendus dans le document. Dans ce cas, et si vous connaissez l'encodage du fichier source, c'est à dire l'encodage sur la machine pour laquelle il a été créé au départ, vous allez pouvoir le spécifier dans la fonction Read CSV à l'aide du paramètre Encoding. Il accepte les différents paramètres, vous le retrouverez dans la documentation de la fonction Read CSV et notamment l'encodage le plus populaire aujourd'hui, à savoir l'encodage UTF-8. UTF-8, ce qui est bien, c'est qu'il supporte les emojis, il supporte les caractères spéciaux, les accents, les règles, etc. Et donc de manière générale, encoder en UTF-8, c'est la meilleure pratique pour être sûr que le rendu des caractères soit optimal sur tout type de machine et tout type de navigateur. J'avance pour vous parler d'un sujet qui est peut-être annexe à cette formation mais qui est notamment important. Optimiser la performance. Vous allez avoir besoin d'optimiser la performance si les fichiers à traiter sont de très grande taille et contiennent par exemple des millions de lignes. Ça, ça peut arriver si vous avez des bases données historiques, vous êtes dans une entreprise qui a dix ans de données à analyser et donc quand on va vous donner l'export de ce fichier, ce fichier va faire des centaines de mégaoctets et va contenir des millions de lignes. Si vous chargez directement ce fichier avec Python et notamment avec Panda, ça va fonctionner ou pas. Peut-être que votre machine va crasher pour une question de performance et donc la stratégie à appliquer ici, ça va être de définir un certain nombre de lignes à charger et un certain nombre de lignes à skip, donc à échapper, de sorte à pouvoir récupérer batch par batch, c'est à dire partie par partie, toutes les lignes de ce fichier dans des data frames différents qu'on pourra potentiellement rassembler par la suite. Alors le problème de ça, c'est que de manière générale, la fonction read CSV et Panda détecte l'entête du document, c'est à dire le nom des colonnes ou variables de votre fichier CSV. Si vous commencez à skipper des rows, c'est à dire à échapper des lignes, c'est à dire pour faire en sorte que Panda ignore certaines lignes de votre document, il ne sera plus capable de détecter sur quelles lignes de votre document sont les entêtes et donc sont les noms des variables. A ce moment là, la combine consiste à utiliser la fonction range qui va finalement créer une liste de numéros qui vont se suivre de 1 à 1. Typiquement le range ici 1 de 10 dans SkipRows va vous permettre d'écrire une liste qui commence à 1 et qui finit à 10 et qui va de 1 à 1. Donc en fait c'est comme si on avait écrit une liste avec 1 2 3 4 5 6 7 8 9 10. Alors pourquoi 1 et pas 0 ? Parce que justement dans notre document CSV que l'on voit ici, le nom des variables il est sur la première ligne, il est en ligne 0 et donc on n'échappe jamais la première ligne et comme ça on obtient toujours notre entête. C'est ce qui permet d'avoir ce rendu là.

Programme détaillé de la formation

Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
Je commande Je m'abonne
4 commentaires
3,5
4 votes
5
4
3
2
1
elephorm-1464076@addviseo.com
Il y a 2 months
Commentaire
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 1 year
Commentaire
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 2 years
Commentaire
Très bien , mais il manque les supports de cours
antoinem
Il y a 2 years
Commentaire
Bien mais il manque les supports de cours
Nos dernières formations Python
  • Pack 5 formations
    Pack Python : Des bases aux techniques avancées
    Découvrir
    Réputé pour être le langage de programmation le plus populaire au monde, Python est très plébiscité pour ses différentes utilisations.  A travers ce pack de 5 formations, vous apprenez les fondamentaux de la programmation Python, vous maîtrisez les techniques avancées et vous découvrez comment utiliser Python pour le web et pour l’analyse et la visualisation des données. Apprendre à programmer en Python : Apprendre les fondamentaux du langage de programmation Python. Apprendre Python : Qualité de code et maintenance : Maîtriser Python avec une qualité de code et de maintenance optimales. Maîtriser Python : Techniques avancées : Formez-vous aux différentes fonctionnalités avancées de python. Apprendre le web avec Python/ Django : Découvrez la programmation Web : Apprendre les principes fondamentaux de la programmation Web Maîtriser Python : Analyse et visualisations des données : Apprendre à utiliser Python pour l’analyse et la visualisation des données
    22h52 154 leçons
  • Apprendre Python   - Qualité de code et maintenance
    Découvrir
    Maîtriser Python avec une qualité de code et de maintenance optimales
    3h09 23 leçons
  • Maîtriser Python  - Techniques avancées
    Découvrir
  • Apprendre à programmer en Python
    Découvrir
    Apprendre les fondamentaux du langage de programmation Python
    6h33 60 leçons 4,75 / 5
  • Apprendre le Web avec Python/Django - Découvrez la programmation web
    Découvrir
    Apprendre les principes fondamentaux de la programmation Web
    4h38 32 leçons 3,50 / 5

éditeur de vidéos pédagogiques

Des supports pédagogiques en vidéo, produits avec les meilleurs experts. Dans nos studios à Paris, Lyon ou Montpellier. Vous souhaitez travailler avec nous ?
image-micro