Hadoop, Big Data
22 octobre 2021

Hadoop, le poids lourd du Big Data

Partager l'article

Développé par l’Apache Software Foundation en 2006 suite à une publication de Google deux ans auparavant, Hadoop s’est imposé dans le milieu de la création d’applications distribuées. Entretien avec Alexis Petrillo, Data Engineer.

Pourriez-vous présenter Hadoop ?

Hadoop est un framework libre et open source permettant la création d’applications distribuées pouvant travailler sur des données massives. Le noyau constitué d’une partie stockage nommée HDFS, d’une partie traitement nommée MapReduce et d’un cluster manager nommé YARN. Il est officiellement sorti en 2006 et est inspiré d’une publication de Google publiée en 2004. Hadoop se déploie généralement sur un cluster composé de plusieurs dizaines, centaines ou milliers de machines.

Pourquoi utiliser cet outil, quels intérêts ?

Il permet le stockage et la lecture de données volumineuses et variées. Dans un contexte Big Data, la production de données est croissante et continue, ces données pour être valorisées ne peuvent pas être stockées dans des systèmes relationnels classiques et la programmation impérative (en séquences) ne peut pas assurer les traitements sur une telle volumétrie.

De quelle manière fonctionne Hadoop concrètement ?

HDFS fonctionne sur une architecture maître/esclave : chaque cluster comporte un Namenode et plusieurs Datanode. Hadoop divise les fichiers en blocs de plus petite taille et les réparties sur les différents noeuds (Datanode) du cluster. Lorsque l’on souhaite consulter un fichier dans Hadoop, le Namenode va reconstituer le fichier initial en agrégeant tous les blocs qui ont été répartis. Il offre également une réplication des données, chaque bloc peut être dupliqué plusieurs fois sur différents noeuds, ce qui signifie que si un nœud du cluster tombe en panne, le fichier peut quand même être reconstitué dans son intégralité.

  • MapReduce introduit un nouveau paradigme de programmation, il fournit un cadre générique pour la parallélisation des traitements et se décompose en deux fonctions, la fonction Map et la fonction Reduce.
  • YARN est le gestionnaire de cluster intégré à Hadoop, son rôle est d’allouer dynamiquement des ressources aux applications. Depuis son ajout en 2013, il a permis le déploiement d’applications autre que MapReduce.

Quels sont les avantages et les inconvénients d'Hadoop ?

Un des principaux avantages d’Hadoop est son évolutivité, il est possible d’ajouter ou de retirer des machines aux clusters en fonction des besoins, on parle alors de scalabilité horizontale. Hadoop supporte aussi bien les données structurées que non structurées, il est possible d’y stocker des données textuelles. La parallélisation des traitements permet d’accélérer ceux-ci, dans un contexte Big Data on cherche à produire des analyses le plus possible en temps réel, ce qui en fait donc un outil de choix. Enfin, Hadoop est Open Source lorsqu’il est utilisé en dehors d’une distribution, il n’y a donc pas de coût de licence à supporter.

Au niveau des inconvénients, Hadoop est construit pour les gros volumes de données, une entreprise qui dispose de petits volumes de données ne trouvera aucun bénéfice dans l’utilisation d’Hadoop. Hadoop nécessite aussi une grosse maintenance, et maintenir une plateforme Hadoop nécessitera des compétences spécifiques et du temps. Les composants HDFS, MapReduce et YARN n’assurent souvent pas tous les besoins, il faudra installer d’autres composants (Spark, Zookeeper, Hbase, Hive, Pig, etc.). Cet assemblage de composants nécessite une plateforme en constante mise à jour.

 

Nos dernières formations Code & Data

  • Nouveau
    Utiliser Supabase en tant que backend pour son projet no-code
    Découvrir
    Apprenez à créer un backend complet avec Supabase, incluant base de données PostgreSQL, authentification, sécurité, stockage de fichiers, fonctions SQL et connexion à un frontend codé ou no-code. Une formation pratique, centrée sur un projet concret sur WeWeb, pour construire une application sans complexité serveur.
    2h20 27 leçons
  • Nouveau Parcours
    Pack Maîtriser Make : Automatisations et Agents IA
    Découvrir
    Maîtrisez Make et libérez le potentiel de l'automatisation dans votre entreprise grâce à ce pack exclusif de deux formations complémentaires.Avec la "Formation Make - Optimisez vos processus grâce à l’automatisation", vous apprendrez à créer des scénarios efficaces pour automatiser vos tâches récurrentes, améliorer votre productivité et connecter vos outils du quotidien sans coder. Une formation idéale pour poser les bases solides de l’automatisation.Dans "Découvrir et créer ses Agents IA sur Make", vous irez plus loin en intégrant l’intelligence artificielle à vos scénarios. Apprenez à concevoir des agents capables de prendre des décisions, d’analyser du contenu ou de générer des réponses grâce aux modules IA intégrés à Make.Ce pack s’adresse aux professionnels, entrepreneurs et équipes marketing ou tech souhaitant gagner du temps, réduire les erreurs manuelles et intégrer l’IA dans leurs processus sans complexité technique.Avec des démonstrations concrètes et des cas d’usage inspirants, vous serez rapidement opérationnel pour automatiser intelligemment votre activité. 
    6h49 52 leçons
  • Nouveau
    Découvrir et créer ses Agents IA sur Make
    Découvrir
    Cette formation vous apprend à créer et intégrer des Agents IA dans Make.com pour automatiser intelligemment vos workflows. Vous saurez concevoir des assistants capables d’interpréter des requêtes complexes, de déclencher des actions ciblées, et d’interagir avec des outils comme les emails, les documents ou la messagerie instantanée.
    2h31 23 leçons
  • Nouveau
    Formation Make - Optimisez vos processus grâce à l’automatisation
    Découvrir
    Apprenez à automatiser vos tâches quotidiennes avec Make.com grâce à cette formation complète. Maîtrisez les bases et explorez des cas pratiques concrets pour optimiser vos workflows, sans écrire une ligne de code. Développez des automatisations simples et avancées pour gagner en efficacité et productivité.
    4h17 29 leçons
  • n8n - Maîtrisez les fondamentaux
    Découvrir
    Apprenez à automatiser vos processus métier avec n8n, sans écrire une seule ligne de code. Créez des workflows efficaces, connectez vos outils, manipulez les données et intégrez des fonctions d’IA pour transformer vos opérations digitales et booster votre productivité.
    1h37 24 leçons
  • Bubble - Créer une marketplace sans coder de A à Z
    Découvrir
    Apprenez à créer une marketplace complète sur Bubble.io sans coder. De la base de données aux fonctionnalités avancées comme la messagerie ou les favoris, développez un MVP fonctionnel pour la vente de meubles d’occasion, avec un tableau de bord personnalisé et une interface fluide.
    2h44 29 leçons
Partager l'article