Scrapping des Données Web avec Panda

Récolter de l'information au format HTML
Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,5
Transcription

Description Programme Avis
3,5

Les objectifs de cette vidéo sont d'enseigner les principes fondamentaux du scrapping de données web avec Panda, de démontrer la transformation de données HTML en data frames, et de sensibiliser à l'importance du nettoyage et du filtrage des données pour des analyses plus précises.

Découvrez comment extraire des données internet nons formatées et les transformer en formats exploitables avec Panda.

Lors de l'analyse de données provenant d'internet, il arrive souvent que celles-ci ne soient pas disponibles sous des formats standards tels que CSV ou Excel. Dans ce cas, le scrapping s'impose comme une méthode incontournable. À travers cette leçon, nous allons apprendre à utiliser la fonction read_html de Panda pour récupérer et transformer des données HTML en un format exploitable, à savoir un data frame. Nous démontrerons cela avec des exemples pratiques issus du site Wikipédia, notamment des données démographiques mondiales et françaises.

Cette vidéo couvre les étapes suivantes :

  • Introduction au scrapping et à la fonction read_html
  • Analyse et extraction de contenu HTML
  • Nettoyage et transformation des données extraites en data frames utilisables
  • Configuration avancée de la fonction pour filtrer les données pertinentes

Nous explorerons aussi les défis courants, comme le nettoyage des données et l'utilisation de sélecteurs CSS précis, en soulignant l'importance de bibliothèques supplémentaires telles que Beautiful Soup pour optimiser le processus.

Voir plus
Questions réponses
Qu'est-ce que le scrapping de données web?
Le scrapping de données web est le processus qui consiste à extraire des informations d'une page web en analysant son code HTML et en transformant les données récupérées en formats exploitables tels que des data frames.
Pourquoi utiliser Panda pour le scrapping de données?
Panda est utilisé pour le scrapping de données car il permet de transformer facilement des données HTML en data frames, ce qui facilite l'analyse et le traitement des données avec les puissantes fonctionnalités de manipulation de données offertes par la bibliothèque.
Quels sont les défis courants lors du scrapping des données?
Les défis courants incluent l'extraction précise des données pertinentes, le nettoyage des données extraites pour enlever les caractères inutiles ou les balises HTML et l'utilisation de sélecteurs CSS pour affiner le filtrage des informations.
Parfois on va trouver des informations sur internet et malheureusement elles ne seront pas disponibles au format fichier que ce soit csv, excel il n'y aura pas d'API au format json, format REST et la seule solution pour récupérer ces informations et pouvoir les analyser et les traiter correctement ça va être de faire ce que l'on appelle du scrapping c'est à dire de récupérer la structure html et d'essayer de la retransformer en data frame Alors dans cette vidéo on va récupérer des informations qui sont liées à la démographie mondiale et à la france sur un site très célèbre à savoir le site wikipédia donc vous avez les différents liens qui s'affichent dans l'exercice la fonction a appelé la fonction read underscore html je pense que vous avez bien compris comment fonctionne panda et comment deviner le nom des fonctions dans ce cas là aucune excuse on peut passer qu'une url on peut aussi passer du contenu html directement si vous avez du contenu html dans un fichier html par exemple et cette fonction ne va pas retourner un data frame mais une collection une liste de data frame vous pouvez le voir d'ailleurs ici on récupère quelque chose qui a l'air de ressembler un data frame il ya des colonnes et des valeurs il ya des index mais il y a aussi des choses un petit peu bizarre ça vient du fait que la fonction read html elle va analyser tout toute la page web et elle va essayer de récolter tout ce qui s'apparente à une liste ou un tableau que ce soit justement des tableaux html ou des listes il se trouve que dans la page correspondante nous avons ces deux types d'éléments nous avons effectivement un tableau mais nous avons aussi en bas de page un ensemble de listes de liens qu'on pourrait vouloir récupérer Et donc puisqu'on n'a pas spécifié ce que l'on voulait dans cette page quel était le contenu qui nous intéressait la fonction panda a fait le choix de tout me donner et ensuite libre à nous d'extraire de filtrer les informations qui nous intéressent Alors c'est pas compliqué vu que c'est une liste on peut via l'index récupérer les éléments on voit ici qu'on a deux listes on a une liste de 105 lignes et une autre liste Et celle qui nous intéresse a priori c'est la première c'est celle qui parle de démographie donc on récupère bien cet élément là alors sachez que dans ces cas là dans du formatage html vous n'aurez jamais de l'information vraiment propre ça vous demandera par la suite de nettoyer ces informations notamment à l'aide du langage python en nettoyant les données en triant de sorte par exemple à cette colonne date qui a priori contient des années mais du fait qu'il y avait des liens qui étaient liés les liens de référence contient maintenant une finalement une chaîne de caractères qui n'est pas exploitable tel quel donc il y aura du code python associé pour justement peut-être supprimer les trois derniers caractères à chaque fois ou les quatre en tout cas tout ce qui est entrecroché de sorte à n'avoir à la fin que des années c'est pas l'objet de cette vidéo par contre on peut quand même travailler sur la sélection de meilleures informations dès le départ pour cela il est possible de configurer un paramètre qui s'appelle match qui contiendra une expression alors une expression qui peut être régulière c'est un terme que vous entendrez souvent en programmation qui nécessite une syntaxe un peu particulière qu'on n'abordera pas ici mais qui veut prendre aussi toute chaîne de caractères qui existe dans le tableau que vous souhaitez importé sous forme de data frame par exemple si on prend la page wikipédia de la france vous trouverez dedans énormément de tableaux puisqu'il y a énormément de données tabulaires à récupérer que ce soit de la démographie que ce soit du chiffre plutôt de la richesse mondiale générée ce genre de choses alors nous ce qui nous intéresse ici ou plutôt moi ce qui m'intéresse ici c'est de récupérer des informations liées au gouvernement actuel c'est à dire l'ensemble des ministres qui constitue le gouvernement alors quand je dis ministre j'entends aussi secrétaire d'état par exemple alors comment faire cela et bien la fonction match on va lui faire matcher quelque chose qui est contenu par ce tableau un bon exemple c'est d'utiliser typiquement fonction au titulaire on revient dans l'exercice on prend cette fois l'url de la page wikipédia de la france et on fait matcher fonction on récupère malgré tout une liste de data frame c'est comme ça que fonctionne la fonction et on va cette fois utiliser la fonction rename pour les colonnes de sorte à bien récupérer les bonnes en tête dans le sens où ici si vous printez cette première forme de data frame vous allez vous rendre compte que nous n'avons pas les bons éléments Et c'est tout c'est comme ça que ça fonctionne alors sachez malgré tout un petit petit avertissement que cette vidéo n'avait pas pour objet d'aborder les bases de html et surtout css c'est un petit peu en en dehors du cadre de cette formation sachez que ces compétences elles vous seront nécessaires si vous avez pour objectif de récupérer beaucoup beaucoup d'informations sur internet car passer un sélecteur css précis c'est à dire un identifiant d'informations car passer un sélecteur css précis c'est à dire un identifiant dans la page web améliorera grandement la qualité du filtre opéré mais ça vous permettra aussi en fonction de certaines librairies et je pense par exemple à la librairie beautiful soup d'aller beaucoup beaucoup plus loin dans la collecte de ces informations et donc dans la qualité des informations que vous allez récupérer
4 commentaires
3,5
4 votes
5
4
3
2
1
elephorm-1464076@addviseo.com
Il y a 3 months
Commentaire
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 1 year
Commentaire
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 2 years
Commentaire
Très bien , mais il manque les supports de cours
antoinem
Il y a 2 years
Commentaire
Bien mais il manque les supports de cours
Nos dernières formations Python
  • Pack 5 formations
    Pack Python : Des bases aux techniques avancées
    Découvrir
    Réputé pour être le langage de programmation le plus populaire au monde, Python est très plébiscité pour ses différentes utilisations.  A travers ce pack de 5 formations, vous apprenez les fondamentaux de la programmation Python, vous maîtrisez les techniques avancées et vous découvrez comment utiliser Python pour le web et pour l’analyse et la visualisation des données. Apprendre à programmer en Python : Apprendre les fondamentaux du langage de programmation Python. Apprendre Python : Qualité de code et maintenance : Maîtriser Python avec une qualité de code et de maintenance optimales. Maîtriser Python : Techniques avancées : Formez-vous aux différentes fonctionnalités avancées de python. Apprendre le web avec Python/ Django : Découvrez la programmation Web : Apprendre les principes fondamentaux de la programmation Web Maîtriser Python : Analyse et visualisations des données : Apprendre à utiliser Python pour l’analyse et la visualisation des données
    22h52 154 leçons
  • Apprendre Python   - Qualité de code et maintenance
    Découvrir
    Maîtriser Python avec une qualité de code et de maintenance optimales
    3h09 23 leçons
  • Maîtriser Python  - Techniques avancées
    Découvrir
  • Apprendre à programmer en Python
    Découvrir
    Apprendre les fondamentaux du langage de programmation Python
    6h33 60 leçons 4,75 / 5
  • Apprendre le Web avec Python/Django - Découvrez la programmation web
    Découvrir
    Apprendre les principes fondamentaux de la programmation Web
    4h38 32 leçons 3,50 / 5