Hadoop, Big Data
22 octobre 2021

Hadoop, le poids lourd du Big Data

Partager l'article

Développé par l’Apache Software Foundation en 2006 suite à une publication de Google deux ans auparavant, Hadoop s’est imposé dans le milieu de la création d’applications distribuées. Entretien avec Alexis Petrillo, Data Engineer.

Pourriez-vous présenter Hadoop ?

Hadoop est un framework libre et open source permettant la création d’applications distribuées pouvant travailler sur des données massives. Le noyau constitué d’une partie stockage nommée HDFS, d’une partie traitement nommée MapReduce et d’un cluster manager nommé YARN. Il est officiellement sorti en 2006 et est inspiré d’une publication de Google publiée en 2004. Hadoop se déploie généralement sur un cluster composé de plusieurs dizaines, centaines ou milliers de machines.

Pourquoi utiliser cet outil, quels intérêts ?

Il permet le stockage et la lecture de données volumineuses et variées. Dans un contexte Big Data, la production de données est croissante et continue, ces données pour être valorisées ne peuvent pas être stockées dans des systèmes relationnels classiques et la programmation impérative (en séquences) ne peut pas assurer les traitements sur une telle volumétrie.

De quelle manière fonctionne Hadoop concrètement ?

HDFS fonctionne sur une architecture maître/esclave : chaque cluster comporte un Namenode et plusieurs Datanode. Hadoop divise les fichiers en blocs de plus petite taille et les réparties sur les différents noeuds (Datanode) du cluster. Lorsque l’on souhaite consulter un fichier dans Hadoop, le Namenode va reconstituer le fichier initial en agrégeant tous les blocs qui ont été répartis. Il offre également une réplication des données, chaque bloc peut être dupliqué plusieurs fois sur différents noeuds, ce qui signifie que si un nœud du cluster tombe en panne, le fichier peut quand même être reconstitué dans son intégralité.

  • MapReduce introduit un nouveau paradigme de programmation, il fournit un cadre générique pour la parallélisation des traitements et se décompose en deux fonctions, la fonction Map et la fonction Reduce.
  • YARN est le gestionnaire de cluster intégré à Hadoop, son rôle est d’allouer dynamiquement des ressources aux applications. Depuis son ajout en 2013, il a permis le déploiement d’applications autre que MapReduce.

Quels sont les avantages et les inconvénients d'Hadoop ?

Un des principaux avantages d’Hadoop est son évolutivité, il est possible d’ajouter ou de retirer des machines aux clusters en fonction des besoins, on parle alors de scalabilité horizontale. Hadoop supporte aussi bien les données structurées que non structurées, il est possible d’y stocker des données textuelles. La parallélisation des traitements permet d’accélérer ceux-ci, dans un contexte Big Data on cherche à produire des analyses le plus possible en temps réel, ce qui en fait donc un outil de choix. Enfin, Hadoop est Open Source lorsqu’il est utilisé en dehors d’une distribution, il n’y a donc pas de coût de licence à supporter.

Au niveau des inconvénients, Hadoop est construit pour les gros volumes de données, une entreprise qui dispose de petits volumes de données ne trouvera aucun bénéfice dans l’utilisation d’Hadoop. Hadoop nécessite aussi une grosse maintenance, et maintenir une plateforme Hadoop nécessitera des compétences spécifiques et du temps. Les composants HDFS, MapReduce et YARN n’assurent souvent pas tous les besoins, il faudra installer d’autres composants (Spark, Zookeeper, Hbase, Hive, Pig, etc.). Cet assemblage de composants nécessite une plateforme en constante mise à jour.

 

Nos dernières formations Code & Data

  • Maîtriser FlutterFlow - De l'Idée à l'Application
    Découvrir
    Cette formation en FlutterFlow est l'outil idéal pour tout développeur souhaitant créer des applications mobiles robustes et interactives sans coder de manière complexe. Grâce à des modules complets et structurés, vous apprendrez à utiliser FlutterFlow et Firebase, à sécuriser vos données, à concevoir des interfaces utilisateur élégantes et à intégrer des API telles qu'OpenIA. Rejoignez-nous pour transformer vos idées en applications innovantes et performantes.
    4h08 57 leçons
  • Webflow - Créer la landing Page d'OpenAI
    Découvrir
    À l'issue de cette formation, les participants seront capables de créer de manière autonome une landing page sophistiquée, similaire à celle d'OpenAI, en utilisant les fonctionnalités avancées de Webflow pour le design responsive et les interactions.
    3h48 19 leçons
  • Apprendre Svelte 3 et SvelteKit 1.0
    Découvrir
    Créez des applications web modernes et ultra-rapides avec notre formation "Apprendre Svelte 3 et SvelteKit 1.0". Rejoignez-nous et devenez un expert du développement JavaScript ! 🚀 #Svelte #SvelteKit #DéveloppementWeb
    7h42 77 leçons
  • Apprendre Vue JS 3
    Découvrir
    Apprenez à créer des applications web modernes avec notre formation "Apprendre Vue JS 3". Rejoignez-nous et maîtrisez ce puissant framework JavaScript ! 🚀 #VueJS #FormationWeb #Développement
    11h47 91 leçons
  • Apprendre ChatGPT
    Découvrir
    Ce cours vise à fournir une compréhension approfondie de l'intelligence artificielle, en se concentrant sur l'utilisation pratique de ChatGPT et DALL-E. Les participants découvriront comment l'IA peut transformer des domaines variés tels que le marketing, le développement web, et le design graphique. Le contenu couvre les bases de l'IA, l'art de créer des prompts efficaces, l'utilisation de plugins avancés, et le codage assisté par IA. Des projets pratiques permettront d'appliquer ces connaissances dans des scénarios réels. Destiné aux professionnels de la technologie, aux marketeurs, aux développeurs, et à toute personne intéressée par l'IA, ce cours est une opportunité d'acquérir des compétences innovantes et applicables dans divers contextes professionnels et créatifs. Les prérequis incluent une compréhension basique de l'informatique et un intérêt pour l'IA. Le cours promet une aventure d'apprentissage enrichissante, ouvrant de nouvelles perspectives dans l'utilisation de l'intelligence artificielle.
    3h12 30 leçons
  • Créer sa boutique de e-commerce avec Shopify
    Découvrir
    À la fin de cette formation, vous aurez les compétences nécessaires pour créer et gérer votre propre boutique de e-commerce prospère avec Shopify. Transformez vos idées en succès commercial en ligne ! 
    4h10 39 leçons
Partager l'article