Scrapping des Données Web avec Panda

Récolter de l'information au format HTML
Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtrisez Python : Analyse et visualisations des données
Revoir le teaser Je m'abonne
3,6
Transcription


99,00€ Je commande

Formation incluse dans l'abonnement Elephorm Je m'abonne à Elephorm

DescriptionProgrammeAvis
3,6

99,00€ Je commande

Formation incluse dans l'abonnement Elephorm Je m'abonne à Elephorm

Les objectifs de cette vidéo sont d'enseigner les principes fondamentaux du scrapping de données web avec Panda, de démontrer la transformation de données HTML en data frames, et de sensibiliser à l'importance du nettoyage et du filtrage des données pour des analyses plus précises.

Découvrez comment extraire des données internet nons formatées et les transformer en formats exploitables avec Panda.

Lors de l'analyse de données provenant d'internet, il arrive souvent que celles-ci ne soient pas disponibles sous des formats standards tels que CSV ou Excel. Dans ce cas, le scrapping s'impose comme une méthode incontournable. À travers cette leçon, nous allons apprendre à utiliser la fonction read_html de Panda pour récupérer et transformer des données HTML en un format exploitable, à savoir un data frame. Nous démontrerons cela avec des exemples pratiques issus du site Wikipédia, notamment des données démographiques mondiales et françaises.

Cette vidéo couvre les étapes suivantes :

  • Introduction au scrapping et à la fonction read_html
  • Analyse et extraction de contenu HTML
  • Nettoyage et transformation des données extraites en data frames utilisables
  • Configuration avancée de la fonction pour filtrer les données pertinentes

Nous explorerons aussi les défis courants, comme le nettoyage des données et l'utilisation de sélecteurs CSS précis, en soulignant l'importance de bibliothèques supplémentaires telles que Beautiful Soup pour optimiser le processus.

Voir plus
Questions réponses
Qu'est-ce que le scrapping de données web?
Le scrapping de données web est le processus qui consiste à extraire des informations d'une page web en analysant son code HTML et en transformant les données récupérées en formats exploitables tels que des data frames.
Pourquoi utiliser Panda pour le scrapping de données?
Panda est utilisé pour le scrapping de données car il permet de transformer facilement des données HTML en data frames, ce qui facilite l'analyse et le traitement des données avec les puissantes fonctionnalités de manipulation de données offertes par la bibliothèque.
Quels sont les défis courants lors du scrapping des données?
Les défis courants incluent l'extraction précise des données pertinentes, le nettoyage des données extraites pour enlever les caractères inutiles ou les balises HTML et l'utilisation de sélecteurs CSS pour affiner le filtrage des informations.
5 commentaires
3,6
5 votes
5
4
3
2
1
améliefiale
Il y a 2 semaines
Bonne formation, mais il manque les supports de cours
elephorm-1464076@addviseo.com
Il y a 10 mois
Bonne formation mais vraiment dommage de ne pas avoir au moins les liens des supports de cours.
nicolasmichaux1
Il y a 2 ans
Bonnne formation mais aucun support de cours
lebris.gilles76
Il y a 3 ans
Très bien , mais il manque les supports de cours
antoinem
Il y a 3 ans
Bien mais il manque les supports de cours