Comprendre l'Architecture HDFS
Cette leçon explore l'architecture de HDFS en détaillant le rôle des NameNodes et DataNodes dans la gestion de fichiers.
Installation d'Hadoop










HDFS








MapReduce
Yarn
Détails de la leçon
Description de la leçon
Voyons un peu plus en détail l'architecture d'HDFS. Dans cet exemple, nous avons un cluster composé de cinq machines, où une machine fonctionne comme NameNode et les quatre autres comme DataNodes. Nous allons illustrer cela avec un fichier de 300 MHz que nous souhaitons envoyer à HDFS. Ce fichier sera découpé en trois blocs : deux blocs de 128 MHz chacun et un troisième bloc de 44 MHz.
Le NameNode se charge de la répartition des blocs entre les différents DataNodes. Il est important de noter que nous ne pouvons pas choisir à l'avance sur quels DataNodes les blocs finiront, cette information est stockée uniquement dans le NameNode. Lors de la lecture d'un fichier stocké sur HDFS, le NameNode rassemble les blocs et nous renvoie le fichier complet.
Objectifs de cette leçon
L'objectif de cette vidéo est d'expliquer le fonctionnement interne de HDFS, notamment la répartition et la gestion des blocs par le NameNode et les DataNodes.
Prérequis pour cette leçon
Pour suivre cette vidéo, il est recommandé d'avoir des connaissances de base en systèmes distribués et en gestion de fichiers.
Métiers concernés
Les professionnels les plus concernés par ce sujet incluent les administrateurs systèmes, les architectes Big Data et les développeurs de solutions d'entreposage de données.
Alternatives et ressources
Des alternatives à HDFS incluent Google File System (GFS) et Ceph.
Questions & Réponses
