Spark学习笔记(一)：基于Kubernetes安装Spark

之前自己学习了Kubernetes，加上Spark还需要依赖JDK和Hadoop，想想还是用Kubernetes安装Spark会更加方便。

对应的Docker镜像Dockerfile文件和Kubernetes yaml文件下载：
developerhq/spark-kubernetes

记录一下自己遇到的几个问题:
(1)Error: Unable to initialize main class org.apache.spark.deploy.SparkSubmit Caused by: java.lang.NoClassDefFoundError: org/slf4j/Logger

我把文章里面提到的配置添加到了Dockerfile文件中，在Dockerfile文件末尾添加一行：

ENV SPARK_DIST_CLASSPATH=$HADOOP_HOME/etc/hadoop/*:$HADOOP_HOME/share/hadoop/common/lib/*:$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/hdfs/*:$HADOOP_HOME/share/hadoop/hdfs/lib/*:$HADOOP_HOME/share/hadoop/hdfs/*:$HADOOP_HOME/share/hadoop/yarn/lib/*:$HADOOP_HOME/share/hadoop/yarn/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*:$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/tools/lib/*
1

(2)Spark执行样例报警告：WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources
在这里插入图片描述

我在执行xx.collect命令的时候一直提示资源不足。同样的，我在Dockerfile镜像文件末尾加上以下2行：

ENV SPARK_WORKER_MEMORY=512m
ENV SPARK_WORKER_CORES=1
1
2

在上面developerhq/spark-kubernetes下载的spark-container/spark-defaults.conf文件(与Dockerfile同一级目录下)末尾加上:

spark.executor.memory                   512m
1

这个spark.executor.memory不能设置得过小，要求大于471859200kb，不然启动/opt/spark/bin/spark-shell的时候会报错。

(3)用Dockerfile文件构造好镜像之后，需要push到自己的远程仓库，然后kubernetes的yaml文件从自己的远程仓库拉取镜像。

执行三个yaml文件会创建三个Pod，一主二从。
在这里插入图片描述
我这里指定了NodePort

进入一个worker pod的容器执行 /opt/spark/bin/spark-shell

val r1 = sc.makeRDD(List(1,2,3,4),2)
r1.collect

注意得在worker节点执行collect命令。我在master节点执行collect命令一直会报资源不足异常。
在这里插入图片描述

在spark-master-controller.yaml文件了设置了2个容器端口7077和8080。我在spark-master-service.yaml文件指定了NodePort。所有我是访问Node:30011就进入这个cluster UI界面。

Workers下面有2个worker，每个worker的Memory和Cores是由Dockerfile设置ENV SPARK_WORKER_MEMORY=512m和ENV SPARK_WORKER_CORES=1决定的。

Running Applications是只有启动了/opt/spark/bin/spark-shell才会出现，这里的Memory per Executor是在spark-defaults.conf设置的。这里的State得是Running才是正常的。
在这里插入图片描述
关闭的/opt/spark/bin/spark-shell就会出现在Completed Applications面板中。

相关阅读:
基于FTP的载荷投递
c++ 智能指针详解
epoll 定时器
数据分析技能点-独立性检验&拟合优度检验
【附源码】计算机毕业设计JAVA宠物救助网站的设计与实现
大商创多用户商城系统多处SQL注入漏洞复现
WebRTC系列-网络传输之8-连通性检测
安装JDK（Java SE Development Kit）超详细教程
C# OpenVINO 通用OCR识别文字识别中文识别服务
【课程设计｜MFC】学生成绩分析系统（含课程报告+源码）

原文地址：https://blog.csdn.net/u012734723/article/details/126447916