• Scala、Spark的安装及配置


    安装Scala

    1、进入Scala安装包位置,解压

    cd /opt/packages
    tar -zxvf scala-2.11.8.tgz -C /opt/programs/  
    
    • 1
    • 2

    2、环境变量

    vim /etc/profile
    
    • 1
    export SCALA_HOME=/opt/programs/scala-2.11.8
    export PATH=$PATH:$SCALA_HOME/bin
    
    • 1
    • 2
    source /etc/profile
    
    • 1

    3、检验是否安装成功

    scala -version
    
    • 1

    若出现 Scala code runner version 2.11.8 – Copyright 2002-2016, LAMP/EPFL 则说明安装成功

    4、进入Scala命令模式

    scala
    
    • 1

    5、退出

    :quit
    
    • 1

    安装spark

    伪分布式模式安装spark

    1、进入spark安装包位置,解压

    cd /opt/packages
    tar -zxvf spark-2.3.3-bin-hadoop2.7.tgz -C /opt/programs/  
    
    • 1
    • 2

    2、进入spark目录下conf文件夹,将spark-env.sh.template文件复制并重命名spark-env.sh,并修改spark-env.sh文件

    cd /opt/programs/spark-2.3.3-bin-hadoop2.7/conf
    cp spark-env.sh.template spark-env.sh
    vim spark-env.sh
    
    • 1
    • 2
    • 3

    文件末尾加上

    export JAVA_HOME=/opt/programs/jdk1.8.0_144
    export SCALA_HOME=/opt/programs/scala-2.11.8
    export HADOOP_HOME=/opt/programs/hadoop-2.7.2
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export SPARK_MASTER_HOST=hadoop0
    
    • 1
    • 2
    • 3
    • 4
    • 5

    3、将slaves.template文件复制并重命名slaves,修改slaves文件

    cp slaves.template slaves
    vim slaves
    # 将文件中localhost修改为
    hadoop0
    
    • 1
    • 2
    • 3
    • 4

    4、启动Spark(前提是启动Hadoop服务)

    cd /opt/programs/spark-2.3.3-bin-hadoop2.7
    sbin/start-all.sh
    
    • 1
    • 2

    5、停止Spark

    cd /opt/programs/spark-2.3.3-bin-hadoop2.7
    sbin/stop-all.sh
    
    • 1
    • 2

    6、进入spark shell命令模式

    cd /opt/programs/spark-2.3.3-bin-hadoop2.7
    bin/spark-shell
    
    • 1
    • 2
    退出
    :quit
    
    • 1
    • 2

    7、在浏览器中输入"http://hadoop0:8080/“,可查看spark的运行状态。在浏览器中输入"http://hadoop0:4040/”,可查看spark任务的运行情况(前提是进入spark shell)

    完全分布式模式安装spark

    1、hadoop01节点进入spark安装包位置,解压

    cd /opt/packages
    tar -zxvf spark-2.3.3-bin-hadoop2.7.tgz -C /opt/programs/  
    
    • 1
    • 2

    2、进入spark目录下conf文件夹,将spark-env.sh.template文件复制并重命名

    spark-env.sh,并修改spark-env.sh文件
    cd /opt/programs/spark-2.3.3-bin-hadoop2.7/conf
    cp spark-env.sh.template spark-env.sh
    vim spark-env.sh
    #文件末尾加上
    export JAVA_HOME=/opt/programs/jdk1.8.0_144
    export SCALA_HOME=/opt/programs/scala-2.11.8
    export HADOOP_HOME=/opt/programs/hadoop-2.7.2
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export SPARK_MASTER_HOST=hadoop01
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    3、将slaves.template文件复制并重命名slaves,修改slaves文件

    cp slaves.template slaves
    vim slaves
    # 将文件中localhost修改为
    hadoop02
    hadoop03
    
    • 1
    • 2
    • 3
    • 4
    • 5

    4、将整个hadoop01节点的整个HBase安装目录远程复制到hadoop02和hadoop03节点

    scp -r /opt/programs/spark-2.3.3-bin-hadoop2.7 root@hadoop02:/opt/programs/
    scp -r /opt/programs/spark-2.3.3-bin-hadoop2.7 root@hadoop03:/opt/programs/
    
    • 1
    • 2

    5、启动Spark(在hadoop01节点运行,前提是启动zookeeper和Hadoop服务)

    cd /opt/programs/spark-2.3.3-bin-hadoop2.7
    sbin/start-all.sh
    
    • 1
    • 2

    6、停止Spark(在hadoop01节点运行)

    cd /opt/programs/spark-2.3.3-bin-hadoop2.7
    sbin/stop-all.sh
    
    • 1
    • 2

    7、进入spark shell命令模式(在hadoop01节点运行)

    cd /opt/programs/spark-2.3.3-bin-hadoop2.7
    bin/spark-shell
    
    • 1
    • 2
    退出
    :quit
    
    • 1
    • 2

    8、在浏览器中输入"http://hadoop01:8080/“,可查看spark的运行状态。在浏览器中输入"http://hadoop01:4040/”,可查看spark任务的运行情况(前提是进入spark shell)

  • 相关阅读:
    Cron表达式
    ssm学术会议管理系统设计与实现毕业设计源码061504
    Coredump:core与kernel的区别,以及coredump具体指什么?
    Spring 6【方法参数校验、SpingAOP介绍、Schema-based方式实现AOP 】(十四)-全面详解(学习总结---从入门到深化)
    代码Review清单
    ip数据包
    XTuner InternLM-Chat 个人小助手认知微调实践
    不妨试试更快更小更灵活Java开发框架Solon
    模型部署 — PaddleNLP 基于 Paddle Serving 快速使用(服务化部署 - Docker)— 图像识别 + 信息抽取(UIE-X)
    RHCE之路配置本地DNS服务器的正反向解析
  • 原文地址:https://blog.csdn.net/weixin_45942827/article/details/128026497