Yarn : Le gestionnaire de cluster intégré à Hadoop

Yarn est le cluster manager intégré à Hadoop. Son rôle est d'allouer les ressources aux applications de façon dynamique.

Détails de la leçon

Description de la leçon

Yarn, introduit en 2013, est le gestionnaire de clusters intégré à Hadoop. Avant son intégration, Hadoop ne pouvait exécuter que des applications MapReduce. Yarn dynamise la gestion des ressources, permettant ainsi une allocation optimale en fonction des besoins des applications.

Les composants essentiels de Yarn sont le Resource Manager, qui accepte les tâches soumises, les programme et répartit les ressources. Chaque nœud du cluster possède un Node Manager, lequel accède aux ressources de la machine et communique avec le Resource Manager pour équilibrer la charge. Lorsqu'un job est soumis, une Application de Master est créée pour négocier les ressources avec le Resource Manager et gérer conjointement les containers. Enfin, le Container est une ressource qui contient la RAM et les vCores nécessaires aux traitements. Il exécute les tâches et transmet les informations à l'Application de Master.

Objectifs de cette leçon

L'objectif de cette vidéo est d'expliquer le rôle de Yarn dans le cadre de Hadoop, de présenter ses composants clés et de démontrer comment il alloue des ressources de manière dynamique pour les applications.

Prérequis pour cette leçon

Il est recommandé d'avoir des connaissances de base en Hadoop, en systèmes distribués, et de comprendre le concept de MapReduce pour suivre cette vidéo.

Métiers concernés

Les professionnels utilisant Yarn incluent les data engineers, les administrateurs de bases de données, les data scientists, et les architectes de solutions big data.

Alternatives et ressources

En alternative à Yarn, on peut considérer des solutions comme Apache Mesos ou Apache Aurora, qui offrent également des gestionnaires de ressources pour des environnements distribués.

Questions & Réponses

Le rôle principal de Yarn dans Hadoop est d'allouer des ressources de manière dynamique aux applications en fonction de leurs besoins.
Les composants clés de Yarn incluent le Resource Manager, le Node Manager, l'Application de Master, et les Containers.
Avant l'intégration de Yarn, Hadoop pouvait uniquement exécuter des applications MapReduce.