Détails de la leçon
Description de la leçon
Dans cette leçon, nous explorons en détail les distributions Hadoop. Les distributions intègrent les trois principaux composants d'Hadoop : HDFS, MapReduce, et Yarn, ainsi que d'autres composants tels que HBase, Hive, et Spark.
Les distributions se déclinent en deux types principaux : On-Premise et 100% Cloud. Parmi les solutions On-Premise, Cloudera est la plus connue et a fusionné avec Hortonworks en 2018. Une autre distribution notable est Mapper. Du côté des solutions Cloud, nous trouvons Amazon EMR, Google Cloud Dataproc, et Microsoft Azure HDInsight.
Les principales forces de ces distributions résident dans la réduction des efforts d'installation et de maintenance grâce à leur nature packagée. Cependant, le principal inconvénient réside dans le coût relativement élevé de ces solutions.
Objectifs de cette leçon
Les objectifs de cette vidéo sont de :
- Présenter les composants essentiels des distributions Hadoop
- Comparer les offres On-Premise et Cloud
- Mettre en avant les avantages et inconvénients de chaque type de distribution
Prérequis pour cette leçon
Il est recommandé d'avoir une compréhension de base des concepts de big data, ainsi qu'une familiarité avec les composants d'Hadoop tels que HDFS, MapReduce et Yarn.
Métiers concernés
Les connaissances sur les distributions Hadoop sont cruciales pour des métiers tels que data engineer, data architect, data scientist, et administrateur de systèmes travaillant sur des projets de big data.
Alternatives et ressources
Parmi les alternatives aux distributions Hadoop, on peut citer des solutions comme Apache Flink, Databricks qui utilise Spark, et d'autres frameworks comme Apache Storm et Kafka Streams.