Historique et composants de Hadoop
Objectifs
Les objectifs de cette vidéo sont de fournir une compréhension de base de Hadoop, de son historique, de ses composantes principales, et de sa licence actuelle.
Résumé
Hadoop est un framework inspiré d'une publication de Google, visant à traiter et stocker de grandes quantités de données. La première version de Hadoop est sortie en 2006 et il est sous licence Apache depuis 2009.
Description
Hadoop, un cadre open source, a été conçu pour le traitement et le stockage de grandes quantités de données via des matériels informatiques classiques. S'inspirant d'une publication de Google datant de 2004, une première version d'Hadoop a été mise à disposition en 2006. Depuis 2009, Hadoop est passé sous la licence Apache, favorisant ainsi son adoption et son évolution.
Le noyau de Hadoop comprend trois composants majeurs :
1. HDFS (Hadoop Distributed File System): un système de fichiers distribué permettant de stocker des données massives de manière fiable en dépit des défaillances.
2. MapReduce: un modèle de programmation pour le traitement massif des données, divisant les tâches et réduisant les résultats en un seul ensemble de données.
3. Yarn: un gestionnaire de ressources de cluster orchestrant l'utilisation des ressources.