
Introduction au Scrapping et à l'Utilisation de Read_HTML
Objectifs
Les objectifs de cette vidéo sont d'enseigner les principes fondamentaux du scrapping de données web avec Panda, de démontrer la transformation de données HTML en data frames, et de sensibiliser à l'importance du nettoyage et du filtrage des données pour des analyses plus précises.
Résumé
Découvrez comment extraire des données internet nons formatées et les transformer en formats exploitables avec Panda.
Description
Lors de l'analyse de données provenant d'internet, il arrive souvent que celles-ci ne soient pas disponibles sous des formats standards tels que CSV ou Excel. Dans ce cas, le scrapping s'impose comme une méthode incontournable. À travers cette leçon, nous allons apprendre à utiliser la fonction read_html
de Panda pour récupérer et transformer des données HTML en un format exploitable, à savoir un data frame. Nous démontrerons cela avec des exemples pratiques issus du site Wikipédia, notamment des données démographiques mondiales et françaises.
Cette vidéo couvre les étapes suivantes :
- Introduction au scrapping et à la fonction
read_html
- Analyse et extraction de contenu HTML
- Nettoyage et transformation des données extraites en data frames utilisables
- Configuration avancée de la fonction pour filtrer les données pertinentes
Nous explorerons aussi les défis courants, comme le nettoyage des données et l'utilisation de sélecteurs CSS précis, en soulignant l'importance de bibliothèques supplémentaires telles que Beautiful Soup pour optimiser le processus.
Questions fréquentes
Programme détaillé
Module 1 - Démarrage
Module 2 - Bases de Python pour la Data Science
Module 3 - Collecter de l'information
Module 4 - Nettoyer des données
Module 5 - Analyser des données
Module 6 - Visualiser des données


