22 octobre 2021

Hadoop, le poids lourd du Big Data

Partager l'article

Développé par l’Apache Software Foundation en 2006 suite à une publication de Google deux ans auparavant, Hadoop s’est imposé dans le milieu de la création d’applications distribuées. Entretien avec Alexis Petrillo, Data Engineer.

Pourriez-vous présenter Hadoop ?

Hadoop est un framework libre et open source permettant la création d’applications distribuées pouvant travailler sur des données massives. Le noyau constitué d’une partie stockage nommée HDFS, d’une partie traitement nommée MapReduce et d’un cluster manager nommé YARN. Il est officiellement sorti en 2006 et est inspiré d’une publication de Google publiée en 2004. Hadoop se déploie généralement sur un cluster composé de plusieurs dizaines, centaines ou milliers de machines.

Pourquoi utiliser cet outil, quels intérêts ?

Il permet le stockage et la lecture de données volumineuses et variées. Dans un contexte Big Data, la production de données est croissante et continue, ces données pour être valorisées ne peuvent pas être stockées dans des systèmes relationnels classiques et la programmation impérative (en séquences) ne peut pas assurer les traitements sur une telle volumétrie.

De quelle manière fonctionne Hadoop concrètement ?

HDFS fonctionne sur une architecture maître/esclave : chaque cluster comporte un Namenode et plusieurs Datanode. Hadoop divise les fichiers en blocs de plus petite taille et les réparties sur les différents noeuds (Datanode) du cluster. Lorsque l’on souhaite consulter un fichier dans Hadoop, le Namenode va reconstituer le fichier initial en agrégeant tous les blocs qui ont été répartis. Il offre également une réplication des données, chaque bloc peut être dupliqué plusieurs fois sur différents noeuds, ce qui signifie que si un nœud du cluster tombe en panne, le fichier peut quand même être reconstitué dans son intégralité.

MapReduce introduit un nouveau paradigme de programmation, il fournit un cadre générique pour la parallélisation des traitements et se décompose en deux fonctions, la fonction Map et la fonction Reduce.

YARN est le gestionnaire de cluster intégré à Hadoop, son rôle est d’allouer dynamiquement des ressources aux applications. Depuis son ajout en 2013, il a permis le déploiement d’applications autre que MapReduce.

Quels sont les avantages et les inconvénients d'Hadoop ?

Un des principaux avantages d’Hadoop est son évolutivité, il est possible d’ajouter ou de retirer des machines aux clusters en fonction des besoins, on parle alors de scalabilité horizontale. Hadoop supporte aussi bien les données structurées que non structurées, il est possible d’y stocker des données textuelles. La parallélisation des traitements permet d’accélérer ceux-ci, dans un contexte Big Data on cherche à produire des analyses le plus possible en temps réel, ce qui en fait donc un outil de choix. Enfin, Hadoop est Open Source lorsqu’il est utilisé en dehors d’une distribution, il n’y a donc pas de coût de licence à supporter.

Au niveau des inconvénients, Hadoop est construit pour les gros volumes de données, une entreprise qui dispose de petits volumes de données ne trouvera aucun bénéfice dans l’utilisation d’Hadoop. Hadoop nécessite aussi une grosse maintenance, et maintenir une plateforme Hadoop nécessitera des compétences spécifiques et du temps. Les composants HDFS, MapReduce et YARN n’assurent souvent pas tous les besoins, il faudra installer d’autres composants (Spark, Zookeeper, Hbase, Hive, Pig, etc.). Cet assemblage de composants nécessite une plateforme en constante mise à jour.

Nos dernières formations Code & Data

Nouveau

Découvrir

Cursor – Apprendre à coder avec l’IA

Apprenez à coder avec l’IA grâce à Cursor et aux modèles LLM comme Claude ou Gemini. Cette formation vous permettra de générer, corriger, documenter et optimiser du code dans un cadre agile, pour améliorer votre productivité sans compromettre la qualité de vos projets. 

1h53 11 leçons
Nouveau

Découvrir

Bubble - Créer une application d'histoires personnalisées pour enfants avec l'IA

Cette formation vous apprend à créer, sans coder, une application interactive qui génère et raconte des histoires personnalisées pour enfants grâce à l’intelligence artificielle. En utilisant Bubble, vous apprendrez à construire l’interface, la base de données, les workflows, à intégrer l’API d’OpenAI et un système de synthèse vocale, jusqu’à la mise en ligne de votre application complète.

4h18 31 leçons
Nouveau

Découvrir

Formation TimeTonic

Cette formation vous initie à TimeTonic, une solution no-code puissante permettant de créer des applications métier et de centraliser vos données sans coder. À travers un parcours progressif et concret, vous apprendrez à construire un espace de travail sur mesure, structurer vos informations, visualiser et automatiser vos processus métier. Grâce à une alternance de théorie et de pratique, vous serez rapidement opérationnel pour digitaliser efficacement vos activités professionnelles, même sans compétence technique. Un outil collaboratif, mobile et personnalisable, pour mieux gérer vos projets et vos données au quotidien.

3h02 23 leçons
Nouveau

Découvrir

Looker Studio - Apprendre à maîtriser l’outil

Apprenez à créer des tableaux de bord interactifs avec Looker Studio pour suivre vos campagnes marketing, analyser vos données CRM ou mesurer vos dépenses média. Cette formation vous rendra autonome sur l’outil, de la connexion des sources de données à la diffusion des rapports.

1h44 30 leçons
Découvrir

Utiliser Supabase en tant que backend pour son projet no-code

Apprenez à créer un backend complet avec Supabase, incluant base de données PostgreSQL, authentification, sécurité, stockage de fichiers, fonctions SQL et connexion à un frontend codé ou no-code. Une formation pratique, centrée sur un projet concret sur WeWeb, pour construire une application sans complexité serveur.

2h20 27 leçons
Parcours

Découvrir

Pack Maîtriser Make : Automatisations et Agents IA

Maîtrisez Make et libérez le potentiel de l'automatisation dans votre entreprise grâce à ce pack exclusif de deux formations complémentaires.Avec la "Formation Make - Optimisez vos processus grâce à l’automatisation", vous apprendrez à créer des scénarios efficaces pour automatiser vos tâches récurrentes, améliorer votre productivité et connecter vos outils du quotidien sans coder. Une formation idéale pour poser les bases solides de l’automatisation.Dans "Découvrir et créer ses Agents IA sur Make", vous irez plus loin en intégrant l’intelligence artificielle à vos scénarios. Apprenez à concevoir des agents capables de prendre des décisions, d’analyser du contenu ou de générer des réponses grâce aux modules IA intégrés à Make.Ce pack s’adresse aux professionnels, entrepreneurs et équipes marketing ou tech souhaitant gagner du temps, réduire les erreurs manuelles et intégrer l’IA dans leurs processus sans complexité technique.Avec des démonstrations concrètes et des cas d’usage inspirants, vous serez rapidement opérationnel pour automatiser intelligemment votre activité. 

6h49 52 leçons