CATALOGUE Code & Data Formation Hadoop Apprendre les fondamentaux d'Hadoop

Contenu premium

Introduction à Hadoop

Chapitre 1 Leçon 2

Hadoop est un framework inspiré d'une publication de Google, visant à traiter et stocker de grandes quantités de données. La première version de Hadoop est sortie en 2006 et il est sous licence Apache depuis 2009.

Apprendre les fondamentaux d'Hadoop

25min 30 leçons

Comprendre les défis et solutions en Big Data 02:11

Introduction à Hadoop 00:21

Installation d'Hadoop sur macOS 00:35

Guide pour Télécharger Hadoop depuis la Documentation Officielle 00:19

Guide de Configuration d'Hadoop 01:37

Vérification et résolution des connexions SSH 00:31

Configurer et Initialiser un Cluster Hadoop HDFS 00:11

Comment Initialiser et Lancer un Cluster 00:23

Configuration de HDFS et Yarn 00:59

Vérification de l'installation Yarn 00:22

Guide de Vérification d'Installation de Yarn et HDFS 00:08

Gestion des services HDFS et YARN 00:52

Le Système de Fichiers Distribués Hadoop (HDFS) 00:37

Comprendre l'Architecture HDFS 00:48

Comprendre la Réplication sur HDFS 00:34

Guide pour la Création et la Gestion de Dossiers sur HDFS 00:59

Envoi de fichier sur HDFS 00:39

Utilisation des Commandes HDFS: hdfs dfs-ls et hdfs dfs-cat 00:37

Comment récupérer un fichier depuis HDFS 00:39

Comment supprimer un fichier ou dossier sur HDFS 00:22

Introduction à MapReduce 00:34

Exemple de WordCount avec MapReduce 00:10

Introduction à la Fonction Map et Split en Informatique 00:44

Introduction au Processus Reduction dans le MapReduce 00:46

Développement de votre premier programme MapReduce avec Hadoop 04:27

Yarn : Le gestionnaire de cluster intégré à Hadoop 00:59

Fonctionnement du Resource Manager dans MapReduce 00:21

Exploration de l'Interface de Yarn 02:08

Introduction aux composants Hadoop 00:56

Comprendre les Distributions Hadoop : On-Premise et Cloud 00:48

Détails de la leçon

Description de la leçon

Hadoop, un cadre open source, a été conçu pour le traitement et le stockage de grandes quantités de données via des matériels informatiques classiques. S'inspirant d'une publication de Google datant de 2004, une première version d'Hadoop a été mise à disposition en 2006. Depuis 2009, Hadoop est passé sous la licence Apache, favorisant ainsi son adoption et son évolution.

Le noyau de Hadoop comprend trois composants majeurs :

1. HDFS (Hadoop Distributed File System): un système de fichiers distribué permettant de stocker des données massives de manière fiable en dépit des défaillances.

2. MapReduce: un modèle de programmation pour le traitement massif des données, divisant les tâches et réduisant les résultats en un seul ensemble de données.

3. Yarn: un gestionnaire de ressources de cluster orchestrant l'utilisation des ressources.

Objectifs de cette leçon

Les objectifs de cette vidéo sont de fournir une compréhension de base de Hadoop, de son historique, de ses composantes principales, et de sa licence actuelle.

Prérequis pour cette leçon

Pour tirer le meilleur parti de cette vidéo, il est conseillé d'avoir des connaissances de base en systèmes de fichiers distribués, en programmation et en gestion de données.

Métiers concernés

Hadoop est utilisé dans des domaines professionnels tels que l'analyse de données, la gestion de grandes bases de données, le développement logiciel, et l'ingénierie de données.

Alternatives et ressources

Les alternatives à Hadoop incluent Apache Spark, qui offre des performances accrues pour les traitements en mémoire, et Flink, un autre framework de traitement de données en flux.

Questions & Réponses

La première version d'Hadoop est sortie en 2006.

Les trois composants principaux de Hadoop sont HDFS, MapReduce et Yarn.

En 2009, Hadoop est passé sous la licence Apache.

Acheter maintenant

Je m'abonne

Introduction à Hadoop

Introduction

Installation d'Hadoop

HDFS

MapReduce

Yarn

Ecosystème Hadoop