1、部署CDK CDK是指CDH+Kafka。 CDH默认的Parcel包中不存在Kafka服务包,必须下载。
1.1 检查并下载CDH版本
我的CDH环境是CDH5.12.0,所以按照Cloudera官网的推荐选择了CDK2.2.0。
1.2 配置Kafka Pacel下载源
1.3 CM部署Kafka服务
第一步:添加Kafka的Parcel下载源地址
步骤2:点击下载>>分发>>激活。至此,CDK就集成到CDH中了。
第3 步:部署。仅选择三个Broker 部署,并将Zookeeper Kafka 地址设置为/kafka。
步骤4:解决部分broker节点无法启动的问题。 CDH配置的Kafka的JVM堆大小太小,重置并启动。
1.4 测试Kafka服务
Kafka安装包地址:/opt/cloudera/parcels/KAFKA/lib/kafka
2、部署CDS CDS是指CDH+Spark。默认的CDH集成是Spark1.6,因此需要安装CDS。
注意:您在生产中部署到CDH 的Spark 是您自己编译的Spark2.x。
2.1 版本选择
根据CDH版本选择CDS2.4版本,如下图。该版本的Spark基于Apache Spark2.4.0。
2.2 添加Spark2地块
请注意,如果您的机器内存不足,系统会主动杀死进程,因此您可能需要主动关闭一些不必要的服务。 2.3 添加并部署Spark2服务
步骤一:为Spark2配置Parcels地址
步骤2:点击下载>>分发>>激活。至此,CDS就集成到CDH中了。
步骤3:部署后,如有必要,您将需要重新启动。
2.4 Spark2 on Yarn 作业测试
Spark2部署目录:/opt/cloudera/parcels/SPARK2/lib/spark2/bin/
现在您已经部署了GateWay,您可以直接使用Spark2 脚本。脚本的位置是/usr/bin/spark2-submit。
(果)yarn容器分配的最大内存必须大于Spark Executor。您需要更改以下设置:
yarn.nodemanager.resource.memory-mb 至少为2G,yarn.scheduler.maximum-allocation-mb
至少2G
请注意HDFS 的一些有趣的权限问题。因此,我们使用HDFS用户来提交Spark任务。
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/548697.html