• 【大数据平台】从Hadoop到Spark安装配置教程


    目录

    3.java -jdk的安装

    4.Hadoop以及单机配置的安装

    5.Hadoop伪分布式的配置

    6.Hadoop集群的配置(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)

    7.Hbase及其单机模式的安装

    HBase单机模式配置

    8.Hive的安装

    9.Scala的安装

    10.sbt的安装

    11.Spark的安装


    在此篇文章中,将会按以下顺序配置大数据平台的相关工具:

    1.VMware
    2.Ubuntu
    3.Java -jdk
    4.Hadoop
    5.Hadoop伪分布式
    6.Hadoop集群(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)
    7.Hbase
    8.Hive
    9.Scala
    10.sbt
    11.Spark

    你可以选择前往官网下载安装包文件,或在本篇末尾找到为您提供的下载方式。

    本篇安装从第3部分开始,如需要VMware和Ubuntu的安装过程请跳转到此篇文章。

    3.java -jdk的安装

    方法一:

    使用下面的命令在当前目录位置下安装jdk:

    sudo apt install openjdk-8-jdk
    java -version #使用此命令查看java版本,如返回版本信息,则安装成功
    
    • 1
    • 2

    方法二:(此版本java与sbt版本冲突)

    3-1.进入JDK压缩包所在位置(这里默认放在桌面),打开终端,将其解压缩到/usr/lib/jvm目录下:

    cd /usr/lib
    sudo mkdir jvm #在/usr/lib目录下新建一个jvm文件夹存放JDK文件
    
    • 1
    • 2

    3-2.在桌面打开终端:

    sudo tar -zxvf ./jdk-18_linux-x64_bin.tar.gz -C /usr/lib/jvm #把JDK压缩包解压到/usr/lib/jvm目录中
    
    • 1

    3-3.设置环境变量:

    cd ~
    vim ~/.bashrc
    
    • 1
    • 2

    用vim编辑器打开后,在开头添加如下内容:

    export JAVA_HOME=/usr/lib/jvm/jdk-18.0.1.1
    export JRE_HOME= J A V A _ H O M E / j r e e x p o r t C L A S S P A T H = . : {JAVA\_HOME}/jre export CLASSPATH=.: JAVA_HOME/jreexportCLASSPATH=.:{JAVA_HOME}/lib: J R E _ H O M E / l i b e x p o r t P A T H = {JRE\_HOME}/lib export PATH= JRE_HOME/libexportPATH={JAVA_HOME}/bin:$PATH

    保存.bashrc文件并退出vim编辑器。执行下面的命令让.bashrc文件立即生效:

    source ~/.bashrc
    
    • 1

    3-4.使用如下命令,查看JAVA版本,如正常显示则安装成功:

    java -version
    
    • 1

    4.Hadoop以及单机配置的安装

    4-1.进入Hadoop压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

    sudo tar -zxvf ./hadoop-3.3.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中
    
    • 1

    4-2.进入到/usr/local/目录,将解压后的文件夹更名为hadoop,并修改权限:

    cd /usr/local #进入目录
    sudo mv ./hadoop-3.3.2 ./hadoop #重命名文件夹
    sudo chown -R hadoop ./hadoop #修改文件夹权限
    
    • 1
    • 2
    • 3

    4-3.查看Hadoop是否可用,若可用则会显示Hadoop版本信息:

    cd /usr/local/hadoop
    ./bin/hadoop version
    
    • 1
    • 2

    Hadoop默认模式即为单机(非分布式)模式,无需其他配置即可运行。

    5.Hadoop伪分布式的配置

    5-1.修改core-site.xml配置文件,文件位置(/usr/local/hadoop/etc/hadoop)



    替换为


    hadoop.tmp.dir
    file:/usr/local/hadoop/tmp
    Abase for other temporary directories.


    fs.defaultFS
    hdfs://localhost:9000

    5-2.修改hdfs-site.xml配置文件,文件位置(/usr/local/hadoop/etc/hadoop)



    替换为


    hadoop.tmp.dir


    dfs.replication
    1


    dfs.namenode.name.dir
    file:/usr/local/hadoop/tmp/dfs/name


    dfs.datanode.data.dir
    file:/usr/local/hadoop/tmp/dfs/data

    5-3.执行NameNode格式化:

    cd /usr/local/hadoop
    .bin/hdfs namenode -format
    
    • 1
    • 2

    格式化成功则提示“successfully formatted”

    5-4.启动NameNode和DataNode守护进程:

    cd /usr/local/hadoop
    ./sbin/start-dfs.sh
    
    • 1
    • 2

    5-5.查看是否启动成功:

    jps
    
    • 1

    若启动成功则返回“NameNode”“DataNode”和“SecondaryNameNode”几个进程名字。

    启动成功后,可访问Web界面http://localhost:9870查看NameNode和DataNode信息,并可在线查看HDFS中的文件。

    5-6.关闭Hadoop的命令:

    ./sbin/stop-dfs.sh
    
    • 1

    6.Hadoop集群的配置(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)

    在配置之前,请提前在两台虚拟机上安装完成JAVA、Hadoop等。
    或者也可以选择直接克隆一台出来。

    6-1.将虚拟机网络设置为桥接模式:

    6-2.手动设置ubuntu的ip地址,并修改ubuntu的主机名hostname:

    本次ip设置为10.50.141.10与10.50.141.11,需要注意的是设置的ip要与主机ip在同一子网下。

    sudo vim /etc/hostname #修改主机名
    
    • 1

    6-3.修改/etc/hosts文件,配置主机和ip地址之间的映射关系:

    6-4.重启后,互ping,查看是否配置成功:

    6-5.SSH无密码登录slave节点:

    6-6.配置PATH环境变量:

    接下来开始正式配置集群/分布式模式,需要修改“/usr/local/hadoop/etc/hadoop”目录下的配置文件,这里仅设置正常启动所必须的设置项,包括workers 、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共5个文件。

    6-7.在/usr/local/hadoop/etc/hadoop目录下,修改workers文件:

    6-8.在/usr/local/hadoop/etc/hadoop目录下,修改core-site.xml文件:

    6-9.在/usr/local/hadoop/etc/hadoop目录下,修改hdfs-site.xml文件:

    6-10.在/usr/local/hadoop/etc/hadoop目录下,修改mapred-site.xml文件:

    6-11.在/usr/local/hadoop/etc/hadoop目录下,修改yarn-site.xml文件:

    6-12.删除master节点的hadoop日志文件,再将整个hadoop压缩复制,传送到slave节点:

    6-13.在slave节点上,将其解压到/usr/local/目录中并修改权限:

    6-14.在master节点上,格式化名称节点并启动Hadoop:

    6-15.在master节点上,关闭Hadoop:

    7.Hbase及其单机模式的安装

    7-1.进入Hbase压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

    sudo tar -zxvf ./hbase-2.4.12-bin.tar.gz -C /usr/local
    
    • 1

    7-2.将解压的文件夹重命名为hbase,并赋予权限:

    cd /usr/local
    sudo mv ./hbase-2.4.12 ./hbase #更改文件夹名字
    sudo chown -R hadoop ./hbase #赋予权限
    
    • 1
    • 2
    • 3

    7-3.配置环境变量(vim ~/.bashrc):

    在PATH中追加如下内容:

    :/usr/local/hbase/bin

    使用此命令,使环境变量文件立即生效:

    source ~/.bashrc
    
    • 1

    7-4.查看HBase版本,确定HBase安装是否成功:

    /usr/local/hbase/bin/hbase version
    
    • 1

    HBase单机模式配置

    7-5.修改hbase-env.sh配置文件(文件位置/usr/local/hbase/conf/hbase-env.sh)

    在文件中添加如下内容,原文件已有此配置,可删除语句前的“#”开启,或直接添加下面的内容
    export JAVA_HOME=/usr/lib/jvm/jdk-8-openjdk-amd64
    export HBASE_MANAGES_ZK=ture

    7-6.修改hbase-site.xml配置文件(文件位置/usr/local/hbase/conf/hbase-env.sh)

    在此文件中指定HBase数据的储存位置,在文件中添加如下内容

    hbase.rootdir file:///usr/local/hbase/hbase-tmp

    7-7.测试运行HBase

    切换至HBase安装目录/usr/local/hbase,并启动HBase:

    cd /usr/local/hbase
    bin/start-hbase.sh #启动hbase
    bin/hbase shell #打开hbase shell
    bin/stop-hbase.sh #停止hbase运行
    
    • 1
    • 2
    • 3
    • 4

    若终端的提示符变为“hbase:001:0>”则为安装成功.

    8.Hive的安装

    9.Scala的安装

    9-1.进入Scala压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

    sudo tar -zxvf ./scala3-3.1.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中
    
    • 1

    9-2.进入到/usr/local/目录,将解压后的文件夹更名为scala,并修改权限:

    cd /usr/local #进入目录
    sudo mv ./scala3-3.1.2 ./scala #重命名文件夹
    sudo chown -R hadoop ./scala #修改文件夹权限
    
    • 1
    • 2
    • 3

    9-3.启动scala交互执行环境:

    cd /usr/local/scala
    ./bin/scala
    
    • 1
    • 2

    此时命令提示符显示为“scala>”即为安装成功。

    退出scala交互,执行如下命令:

    :quit   #注意quit前的“:”
    
    • 1

    10.sbt的安装

    10-1.进入Sbt压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中,并修改权限:

    sudo unzip -n sbt-1.6.2.zip -d /usr/local #将压缩包解压到/usr/local/目录中
    sudo chown -R hadoop /usr/local/sbt #hadoop为用户名
    
    • 1
    • 2

    10-2.将bin目录下的sbt-launch.jar复制到sbt的安装目录下:

    cd /usr/local/sbt
    cp ./bin/sbt-launch.jar ./
    
    • 1
    • 2

    10-3.在安装目录下使用vim命令创建一个Shell脚本文件,用于启动sbt:

    vim /usr/local/sbt/sbt
    
    • 1

    文件内容如下:(-XX:MaxPermSize=256M此选项在JDK 8中已弃用,并由该-XX:MetaspaceSize选项取代。)

    #!/bin/bash
    SBT_OPTS=“-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MetaspaceSize=256M”
    java $SBT_OPTS -jar `dirname 0 / ˋ s b t − l a u n c h . j a r " 0\`/sbt-launch.jar " 0/ˋsbtlaunch.jar"@"

    10-4.为Shell文件增加可执行权限:

    chmod u+x /usr/local/sbt/sbt
    
    • 1

    10-5.执行Shell文件,启动sbt:(这里不使用./sbt sbt-version)

    ./sbt sbtVersion
    
    • 1

    11.Spark的安装

    11-1.进入Spark压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

    sudo tar -zxvf ./spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local #将压缩包解压到/usr/local/目录中
    
    • 1

    11-2.进入/usr/local/目录,重命名解压后的文件夹,并修改权限:

    cd /usr/local #进入目录
    sudo mv ./spark-3.2.1-bin-hadoop3.2 ./spark #重命名文件夹
    sudo chown -R hadoop ./spark #修改文件夹权限
    
    • 1
    • 2
    • 3

    11-3.修改Spark配置文件spark-env.sh:

    cd /usr/local/spark/conf #进入spark的conf目录,修改配置文件
    cp ./spark-env.sh.template ./spark-env.sh #将配置文件spark-env.sh.template复制后并命名为spark-env.sh
    
    • 1
    • 2

    编辑spark-env.sh文件(vim ./spark-env.sh),在第一行添加下面内容:

    export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

    11-4.通过运行自带的实例,检验是否安装成功:

    cd /usr/local/spark
    bin/run-example SparkPi 2>&1 | grep "Pi is" #运行自带的实例
    
    • 1
    • 2

    若返回“Pi”的值,则安装成功。

    11-5.启动spark-shell命令:

    cd /usr/local/spark
    bin/spark-shell
    
    • 1
    • 2

    11-6.退出spark-shell命令:

    :quit
    
    • 1

    文件名

    下载链接

    提取码

    jdk-18_linux-x64_bin.tar.gz

    https://caiyun.139.com/m/i?0Y5CsEx1P0c2E

    KAfC

    hadoop-3.3.2.tar.gz

    https://caiyun.139.com/m/i?0Y5CffZha2e62

    FUYC

    hbase-2.4.12-bin.tar.gz

    https://caiyun.139.com/m/i?0Y5CrH3d5aGwk

    bwSa

    apache-hive-3.1.3-bin.tar.gz

    https://caiyun.139.com/m/i?0Y5CsYxWpefq9

    1EQH

    scala3-3.1.2.tar.gz

    https://caiyun.139.com/m/i?0Y5CffZctNOsQ

    f7L2

    sbt-1.6.2.zip

    https://caiyun.139.com/m/i?0Y5CsYxS8zQcv

    ojTc

    spark-3.2.1-bin-hadoop3.2.tgz

    https://caiyun.139.com/m/i?0Y5CrusM7m4SE

    hBfH

  • 相关阅读:
    关于JVM中的线程整理
    学生HTML个人网页作业作品 使用HTML+CSS+JavaScript个人介绍博客网站 web前端课程设计 web前端课程设计代码 web课程设计
    vscode篇---设置python路径,项目主目录和添加参数
    二战字节跳动成功上岸,准备了小半年,拿27k也算不上很高吧~
    以解析csv数据为例,讨论string、char[]、stream 不同类型来源是否能进行高性能读取解析封装可能性
    Gan生成手写数字
    Django 加载静态资源及<!DOCTYPE html>标红解决办法
    第一次写计算机论文无从下手怎么办?(一) - 易智编译easeediting
    Python使用正则表达式去除base64编码前缀
    [附源码]计算机毕业设计JAVAjsp-室内田径馆预约管理系统
  • 原文地址:https://blog.csdn.net/m0_67391907/article/details/126553361