Comprendre les Distributions Hadoop : On-Premise et Cloud

Cette vidéo présente une vue d'ensemble des distributions Hadoop, leurs principaux composants intégrés ainsi que les avantages et inconvénients spécifiques aux solutions On-Premise et Cloud.

Détails de la leçon

Description de la leçon

Dans cette leçon, nous explorons en détail les distributions Hadoop. Les distributions intègrent les trois principaux composants d'Hadoop : HDFS, MapReduce, et Yarn, ainsi que d'autres composants tels que HBase, Hive, et Spark.

Les distributions se déclinent en deux types principaux : On-Premise et 100% Cloud. Parmi les solutions On-Premise, Cloudera est la plus connue et a fusionné avec Hortonworks en 2018. Une autre distribution notable est Mapper. Du côté des solutions Cloud, nous trouvons Amazon EMR, Google Cloud Dataproc, et Microsoft Azure HDInsight.

Les principales forces de ces distributions résident dans la réduction des efforts d'installation et de maintenance grâce à leur nature packagée. Cependant, le principal inconvénient réside dans le coût relativement élevé de ces solutions.

Objectifs de cette leçon

Les objectifs de cette vidéo sont de :
- Présenter les composants essentiels des distributions Hadoop
- Comparer les offres On-Premise et Cloud
- Mettre en avant les avantages et inconvénients de chaque type de distribution

Prérequis pour cette leçon

Il est recommandé d'avoir une compréhension de base des concepts de big data, ainsi qu'une familiarité avec les composants d'Hadoop tels que HDFS, MapReduce et Yarn.

Métiers concernés

Les connaissances sur les distributions Hadoop sont cruciales pour des métiers tels que data engineer, data architect, data scientist, et administrateur de systèmes travaillant sur des projets de big data.

Alternatives et ressources

Parmi les alternatives aux distributions Hadoop, on peut citer des solutions comme Apache Flink, Databricks qui utilise Spark, et d'autres frameworks comme Apache Storm et Kafka Streams.

Questions & Réponses

Les trois composants principaux sont HDFS, MapReduce, et Yarn.
Les principaux avantages sont la réduction des efforts d'installation et de maintenance grâce à leur nature packagée.
Le principal inconvénient des distributions Hadoop est leur coût relativement élevé.