【大数据平台】从Hadoop到Spark安装配置教程

【大数据平台】从Hadoop到Spark安装配置教程
目录

3.java -jdk的安装

4.Hadoop以及单机配置的安装

5.Hadoop伪分布式的配置

6.Hadoop集群的配置（这里建议将后面的工具安装完成后，再配置此步骤，否则会非常痛苦）

7.Hbase及其单机模式的安装

HBase单机模式配置

8.Hive的安装

9.Scala的安装

10.sbt的安装

11.Spark的安装

在此篇文章中，将会按以下顺序配置大数据平台的相关工具:

1.VMware
2.Ubuntu
3.Java -jdk
4.Hadoop
5.Hadoop伪分布式
6.Hadoop集群（这里建议将后面的工具安装完成后，再配置此步骤，否则会非常痛苦）
7.Hbase
8.Hive
9.Scala
10.sbt
11.Spark

你可以选择前往官网下载安装包文件，或在本篇末尾找到为您提供的下载方式。

本篇安装从第3部分开始，如需要VMware和Ubuntu的安装过程请跳转到此篇文章。

3.java -jdk的安装

方法一：

使用下面的命令在当前目录位置下安装jdk：
```
sudo apt install openjdk-8-jdk
java -version #使用此命令查看java版本，如返回版本信息，则安装成功
1
2
```
方法二：（此版本java与sbt版本冲突）

3-1.进入JDK压缩包所在位置（这里默认放在桌面），打开终端，将其解压缩到/usr/lib/jvm目录下：
```
cd /usr/lib
sudo mkdir jvm #在/usr/lib目录下新建一个jvm文件夹存放JDK文件
1
2
```
3-2.在桌面打开终端：
```
sudo tar -zxvf ./jdk-18_linux-x64_bin.tar.gz -C /usr/lib/jvm #把JDK压缩包解压到/usr/lib/jvm目录中
1
```
3-3.设置环境变量：
```
cd ~
vim ~/.bashrc
1
2
```
用vim编辑器打开后，在开头添加如下内容：

export JAVA_HOME=/usr/lib/jvm/jdk-18.0.1.1
export JRE_HOME= ${JAVA\_HOME}/jre export CLASSPATH=.:$ {JAVA_HOME}/lib: ${JRE\_HOME}/lib export PATH=$ {JAVA_HOME}/bin:$PATH

保存.bashrc文件并退出vim编辑器。执行下面的命令让.bashrc文件立即生效：
```
source ~/.bashrc
1
```
3-4.使用如下命令，查看JAVA版本，如正常显示则安装成功：
```
java -version
1
```
4.Hadoop以及单机配置的安装

4-1.进入Hadoop压缩包的位置（这里默认在桌面），打开终端，将其解压缩到/usr/local/目录中：
```
sudo tar -zxvf ./hadoop-3.3.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中
1
```
4-2.进入到/usr/local/目录，将解压后的文件夹更名为hadoop，并修改权限：
```
cd /usr/local #进入目录
sudo mv ./hadoop-3.3.2 ./hadoop #重命名文件夹
sudo chown -R hadoop ./hadoop #修改文件夹权限
1
2
3
```
4-3.查看Hadoop是否可用，若可用则会显示Hadoop版本信息：
```
cd /usr/local/hadoop
./bin/hadoop version
1
2
```
Hadoop默认模式即为单机（非分布式）模式，无需其他配置即可运行。

5.Hadoop伪分布式的配置

5-1.修改core-site.xml配置文件，文件位置（/usr/local/hadoop/etc/hadoop）

将

替换为

hadoop.tmp.dir
file:/usr/local/hadoop/tmp
Abase for other temporary directories.

fs.defaultFS
hdfs://localhost:9000

5-2.修改hdfs-site.xml配置文件，文件位置（/usr/local/hadoop/etc/hadoop）

将

替换为

hadoop.tmp.dir

dfs.replication
1

dfs.namenode.name.dir
file:/usr/local/hadoop/tmp/dfs/name

dfs.datanode.data.dir
file:/usr/local/hadoop/tmp/dfs/data

5-3.执行NameNode格式化：
```
cd /usr/local/hadoop
.bin/hdfs namenode -format
1
2
```
格式化成功则提示“successfully formatted”

5-4.启动NameNode和DataNode守护进程：
```
cd /usr/local/hadoop
./sbin/start-dfs.sh
1
2
```
5-5.查看是否启动成功：
```
jps
1
```
若启动成功则返回“NameNode”“DataNode”和“SecondaryNameNode”几个进程名字。

启动成功后，可访问Web界面http://localhost:9870查看NameNode和DataNode信息，并可在线查看HDFS中的文件。

5-6.关闭Hadoop的命令：
```
./sbin/stop-dfs.sh
1
```
6.Hadoop集群的配置（这里建议将后面的工具安装完成后，再配置此步骤，否则会非常痛苦）

在配置之前，请提前在两台虚拟机上安装完成JAVA、Hadoop等。
或者也可以选择直接克隆一台出来。

6-1.将虚拟机网络设置为桥接模式：

6-2.手动设置ubuntu的ip地址，并修改ubuntu的主机名hostname：

本次ip设置为10.50.141.10与10.50.141.11，需要注意的是设置的ip要与主机ip在同一子网下。
```
sudo vim /etc/hostname #修改主机名
1
```
6-3.修改/etc/hosts文件，配置主机和ip地址之间的映射关系：

6-4.重启后，互ping，查看是否配置成功：

6-5.SSH无密码登录slave节点：

6-6.配置PATH环境变量：

接下来开始正式配置集群/分布式模式，需要修改“/usr/local/hadoop/etc/hadoop”目录下的配置文件，这里仅设置正常启动所必须的设置项，包括workers 、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共5个文件。

6-7.在/usr/local/hadoop/etc/hadoop目录下，修改workers文件：

6-8.在/usr/local/hadoop/etc/hadoop目录下，修改core-site.xml文件：

6-9.在/usr/local/hadoop/etc/hadoop目录下，修改hdfs-site.xml文件：

6-10.在/usr/local/hadoop/etc/hadoop目录下，修改mapred-site.xml文件：

6-11.在/usr/local/hadoop/etc/hadoop目录下，修改yarn-site.xml文件：

6-12.删除master节点的hadoop日志文件，再将整个hadoop压缩复制，传送到slave节点：

6-13.在slave节点上，将其解压到/usr/local/目录中并修改权限：

6-14.在master节点上，格式化名称节点并启动Hadoop：

6-15.在master节点上，关闭Hadoop：

7.Hbase及其单机模式的安装

7-1.进入Hbase压缩包的位置（这里默认在桌面），打开终端，将其解压缩到/usr/local/目录中：
```
sudo tar -zxvf ./hbase-2.4.12-bin.tar.gz -C /usr/local
1
```
7-2.将解压的文件夹重命名为hbase，并赋予权限:
```
cd /usr/local
sudo mv ./hbase-2.4.12 ./hbase #更改文件夹名字
sudo chown -R hadoop ./hbase #赋予权限
1
2
3
```
7-3.配置环境变量（vim ~/.bashrc）：

在PATH中追加如下内容:

:/usr/local/hbase/bin

使用此命令，使环境变量文件立即生效：
```
source ~/.bashrc
1
```
7-4.查看HBase版本，确定HBase安装是否成功：
```
/usr/local/hbase/bin/hbase version
1
```
HBase单机模式配置

7-5.修改hbase-env.sh配置文件（文件位置/usr/local/hbase/conf/hbase-env.sh）

在文件中添加如下内容，原文件已有此配置，可删除语句前的“#”开启，或直接添加下面的内容
export JAVA_HOME=/usr/lib/jvm/jdk-8-openjdk-amd64
export HBASE_MANAGES_ZK=ture

7-6.修改hbase-site.xml配置文件（文件位置/usr/local/hbase/conf/hbase-env.sh）

在此文件中指定HBase数据的储存位置,在文件中添加如下内容
hbase.rootdir file:///usr/local/hbase/hbase-tmp
7-7.测试运行HBase

切换至HBase安装目录/usr/local/hbase，并启动HBase：
```
cd /usr/local/hbase
bin/start-hbase.sh #启动hbase
bin/hbase shell #打开hbase shell
bin/stop-hbase.sh #停止hbase运行
1
2
3
4
```
若终端的提示符变为“hbase:001:0>”则为安装成功.

8.Hive的安装

9.Scala的安装

9-1.进入Scala压缩包的位置（这里默认在桌面），打开终端，将其解压缩到/usr/local/目录中：
```
sudo tar -zxvf ./scala3-3.1.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中
1
```
9-2.进入到/usr/local/目录，将解压后的文件夹更名为scala，并修改权限：
```
cd /usr/local #进入目录
sudo mv ./scala3-3.1.2 ./scala #重命名文件夹
sudo chown -R hadoop ./scala #修改文件夹权限
1
2
3
```
9-3.启动scala交互执行环境：
```
cd /usr/local/scala
./bin/scala
1
2
```
此时命令提示符显示为“scala>”即为安装成功。

退出scala交互，执行如下命令：
```
：quit   #注意quit前的“：”
1
```
10.sbt的安装

10-1.进入Sbt压缩包的位置（这里默认在桌面），打开终端，将其解压缩到/usr/local/目录中，并修改权限：
```
sudo unzip -n sbt-1.6.2.zip -d /usr/local #将压缩包解压到/usr/local/目录中
sudo chown -R hadoop /usr/local/sbt #hadoop为用户名
1
2
```
10-2.将bin目录下的sbt-launch.jar复制到sbt的安装目录下：
```
cd /usr/local/sbt
cp ./bin/sbt-launch.jar ./
1
2
```
10-3.在安装目录下使用vim命令创建一个Shell脚本文件，用于启动sbt：
```
vim /usr/local/sbt/sbt
1
```
文件内容如下：（-XX:MaxPermSize=256M此选项在JDK 8中已弃用，并由该-XX:MetaspaceSize选项取代。）

#!/bin/bash
SBT_OPTS=“-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MetaspaceSize=256M”
java $SBT_OPTS -jar `dirname $0\`/sbt-launch.jar "$ @"

10-4.为Shell文件增加可执行权限：
```
chmod u+x /usr/local/sbt/sbt
1
```
10-5.执行Shell文件，启动sbt：（这里不使用./sbt sbt-version）
```
./sbt sbtVersion
1
```
11.Spark的安装

11-1.进入Spark压缩包的位置（这里默认在桌面），打开终端，将其解压缩到/usr/local/目录中：
```
sudo tar -zxvf ./spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local #将压缩包解压到/usr/local/目录中
1
```
11-2.进入/usr/local/目录，重命名解压后的文件夹，并修改权限：
```
cd /usr/local #进入目录
sudo mv ./spark-3.2.1-bin-hadoop3.2 ./spark #重命名文件夹
sudo chown -R hadoop ./spark #修改文件夹权限
1
2
3
```
11-3.修改Spark配置文件spark-env.sh：
```
cd /usr/local/spark/conf #进入spark的conf目录，修改配置文件
cp ./spark-env.sh.template ./spark-env.sh #将配置文件spark-env.sh.template复制后并命名为spark-env.sh
1
2
```
编辑spark-env.sh文件（vim ./spark-env.sh），在第一行添加下面内容：

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

11-4.通过运行自带的实例，检验是否安装成功：
```
cd /usr/local/spark
bin/run-example SparkPi 2>&1 | grep "Pi is" #运行自带的实例
1
2
```
若返回“Pi”的值，则安装成功。

11-5.启动spark-shell命令：
```
cd /usr/local/spark
bin/spark-shell
1
2
```
11-6.退出spark-shell命令：
```
:quit
1
```
文件名

下载链接

提取码

jdk-18_linux-x64_bin.tar.gz

https://caiyun.139.com/m/i?0Y5CsEx1P0c2E

KAfC

hadoop-3.3.2.tar.gz

https://caiyun.139.com/m/i?0Y5CffZha2e62

FUYC

hbase-2.4.12-bin.tar.gz

https://caiyun.139.com/m/i?0Y5CrH3d5aGwk

bwSa

apache-hive-3.1.3-bin.tar.gz

https://caiyun.139.com/m/i?0Y5CsYxWpefq9

1EQH

scala3-3.1.2.tar.gz

https://caiyun.139.com/m/i?0Y5CffZctNOsQ

f7L2

sbt-1.6.2.zip

https://caiyun.139.com/m/i?0Y5CsYxS8zQcv

ojTc

spark-3.2.1-bin-hadoop3.2.tgz

https://caiyun.139.com/m/i?0Y5CrusM7m4SE

hBfH
相关阅读:
2024.1IDEA 到2026年
 分库分表ShardingSphere-JDBC笔记整理
 Mongo的数据操作
 三维控件中定位一个点_vtkPointWidget
字节原来这么容易进,是面试官放水，还是公司实在是太缺人？
si9000 单端（线）&差分（动）线板层结构与阻抗计算
 【无标题】
Word处理控件Aspose.Words功能演示：使用C＃对PDF文件进行进一步修改和转换
 架构——方法多态(重载)
面试题亲身经历
原文地址：https://blog.csdn.net/m0_67391907/article/details/126553361

3.java -jdk的安装

4.Hadoop以及单机配置的安装

5.Hadoop伪分布式的配置

6.Hadoop集群的配置（这里建议将后面的工具安装完成后，再配置此步骤，否则会非常痛苦）

7.Hbase及其单机模式的安装

HBase单机模式配置

8.Hive的安装

9.Scala的安装

10.sbt的安装

11.Spark的安装