码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Spark学习笔记(一):基于Kubernetes安装Spark


    之前自己学习了Kubernetes,加上Spark还需要依赖JDK和Hadoop,想想还是用Kubernetes安装Spark会更加方便。

    我是参考这篇文章:
    来看看基于Kubernetes的Spark部署完全指南

    对应的Docker镜像Dockerfile文件和Kubernetes yaml文件下载:
    developerhq/spark-kubernetes

    记录一下自己遇到的几个问题:
    (1)Error: Unable to initialize main class org.apache.spark.deploy.SparkSubmit Caused by: java.lang.NoClassDefFoundError: org/slf4j/Logger

    我把文章里面提到的配置添加到了Dockerfile文件中,在Dockerfile文件末尾添加一行:

    ENV SPARK_DIST_CLASSPATH=$HADOOP_HOME/etc/hadoop/*:$HADOOP_HOME/share/hadoop/common/lib/*:$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/hdfs/*:$HADOOP_HOME/share/hadoop/hdfs/lib/*:$HADOOP_HOME/share/hadoop/hdfs/*:$HADOOP_HOME/share/hadoop/yarn/lib/*:$HADOOP_HOME/share/hadoop/yarn/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*:$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/tools/lib/*
    
    • 1

    (2)Spark执行样例报警告:WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources
    在这里插入图片描述

    我在执行xx.collect命令的时候一直提示资源不足。同样的,我在Dockerfile镜像文件末尾加上以下2行:

    ENV SPARK_WORKER_MEMORY=512m
    ENV SPARK_WORKER_CORES=1
    
    • 1
    • 2

    在上面developerhq/spark-kubernetes下载的spark-container/spark-defaults.conf文件(与Dockerfile同一级目录下)末尾加上:

    spark.executor.memory                   512m
    
    • 1

    这个spark.executor.memory不能设置得过小,要求大于471859200kb,不然启动/opt/spark/bin/spark-shell的时候会报错。

    (3)用Dockerfile文件构造好镜像之后,需要push到自己的远程仓库,然后kubernetes的yaml文件从自己的远程仓库拉取镜像。

    执行三个yaml文件会创建三个Pod,一主二从。
    在这里插入图片描述
    我这里指定了NodePort
    在这里插入图片描述
    进入一个worker pod的容器 执行 /opt/spark/bin/spark-shell

    val r1 = sc.makeRDD(List(1,2,3,4),2)
    r1.collect

    注意得在worker节点执行collect命令。我在master节点执行collect命令 一直会报资源不足异常。
    在这里插入图片描述

    在spark-master-controller.yaml文件了设置了2个容器端口7077和8080。我在spark-master-service.yaml文件指定了NodePort。所有我是访问Node:30011就进入这个cluster UI界面。

    Workers下面有2个worker,每个worker的Memory和Cores是由Dockerfile设置ENV SPARK_WORKER_MEMORY=512m和ENV SPARK_WORKER_CORES=1决定的。

    Running Applications是只有启动了/opt/spark/bin/spark-shell才会出现,这里的Memory per Executor是在spark-defaults.conf设置的。这里的State得是Running才是正常的。
    在这里插入图片描述
    关闭的/opt/spark/bin/spark-shell就会出现在Completed Applications面板中。
    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    基于FTP的载荷投递
    c++ 智能指针详解
    epoll 定时器
    数据分析技能点-独立性检验&拟合优度检验
    【附源码】计算机毕业设计JAVA宠物救助网站的设计与实现
    大商创多用户商城系统 多处SQL注入漏洞复现
    WebRTC系列-网络传输之8-连通性检测
    安装JDK(Java SE Development Kit)超详细教程
    C# OpenVINO 通用OCR识别 文字识别 中文识别 服务
    【课程设计|MFC】学生成绩分析系统(含课程报告+源码)
  • 原文地址:https://blog.csdn.net/u012734723/article/details/126447916
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号