Hadoop集群搭建的详细过程

Hadoop集群搭建的详细过程
Hadoop集群搭建

一、准备
- 三台虚拟机：master01，node1,node2
- 时间同步
```
1.date命令查看三台虚拟机时间是否一致
2.不一致时间同步：ntpdate ntp.aliyun.com
```
- 调整时区
```
cp  /usr/share/zoneinfo/Asia/Shanghai  /etc/localtime
```
- 查看jdk
```
java-version
```
- 修改主机名
```
三台分别执行vim /etc/hostname 修改为指定的主机名
```
- 关闭防火墙
```
systemctl stop firewalld
```
  - 查看防火墙状态
    
    systemctl status firewalld
  - 取消防火墙自启
    
    systemctl disable firewalld
- 静态ip设置
  
  手动编辑配置文件
```
1、编辑网络配置文件
vim /etc/sysconfig/network-scripts/ifcfg-ens33
TYPE=Ethernet
BOOTPROTO=static
HWADDR=00:0C:29:E2:B8:F2
NAME=ens33
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.137.150
GATEWAY=192.168.137.2
NETMASK=255.255.255.0
DNS1=192.168.190.2
DNS2=223.6.6.6

需要修改：HWADDR（mac地址,centos7不需要手动指定mac地址）
		IPADDR（根据自己的网段，自定义IP地址）
		GATEWAY（根据自己的网段填写对应的网关地址）
		
2、关闭NetworkManager，并取消开机自启
systemctl stop NetworkManager
systemctl disable NetworkManager

3、重启网络服务
systemctl restart network
```
- 配置免密登录
```
1、生成密钥
ssh-keygen -t rsa

2、配置免密登录
ssh-copy-id master01
ssh-copy-id node1
ssh-copy-id nade2

3、测试免密登录
ssh node1
```
- 配置映射文件：/etc/hosts
```
192.168.137.150 master01
192.168.137.160 node1
192.168.137.170 node2
```
二、搭建Hadoop集群

1、上传安装包并解压
```
cd /usr/local/soft/
解压：
tar -zxvf
```
2、配置环境变量
```
vim /etc/propfile
```
```
重新加载环境变量
source /etc/profile
```
3、修改Hadoop配置文件
```
cd /usr/local/soft/hadoop-2.7.6/etc/hadoop
```
- 配置hadoop-env.sh
- 配置core-site.xml
  
  fs.defaultFS：默认文件系统的名称。其方案和权限决定文件系统实现的URI。uri的方案确定命名文件系统实现类的配置属性（fs.scheme.impl）。uri的权限用于确定文件系统的主机、端口等。
  
  hadoop.tmp.dir：是 hadoop文件系统依赖的基本配置，很多配置路径都依赖它，它的默认位置是在 /tmp/{$user}下面，注意这是个临时目录！！！
  
  因此，它的持久化配置很重要的！如果选择默认，一旦因为断电等外在因素影响，/tmp/{$user}下的所有东西都会丢失。
  
  fs.trash.interval：启用垃圾箱配置，dfs命令删除的文件不会立即从HDFS中删除。相反，HDFS将其移动到垃圾目录（每个用户在/user//.Trash下都有自己的垃圾目录）。只要文件保留在垃圾箱中，文件可以快速恢复。
```
 <property>
        <name>fs.defaultFSname>
        <value>hdfs://master01:9000value>
    property>

    <property>
        <name>hadoop.tmp.dirname>
        <value>/usr/local/soft/hadoop-2.7.6/tmpvalue>
    property>

    <property>
        <name>fs.trash.intervalname>
        <value>1440value>
    property>
```
- 配置hdfs-site.xml
  
  dfs.replication：每个datanode上只能存放一个副本。我这里就2个datanode
  
  dfs.permissions：如果为“true”，则在HDFS中启用权限检查。如果为“false”，则关闭权限检查，但所有其他行为保持不变。从一个参数值切换到另一个参数值不会更改文件或目录的模式、所有者或组。
```
    <property>
        <name>dfs.replicationname>
        <value>1value>
    property>

    <property>
        <name>dfs.permissionsname>
        <value>falsevalue>
    property>
```
- 配置mapred-site.xml.template
  
  mapreduce.framework.name：用于执行MapReduce作业的运行时框架。
  
  mapreduce.jobhistory.address：Hadoop自带了一个历史服务器，可以通过历史服务器查看已经运行完的Mapreduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下，Hadoop历史服务器是没有启动的，我们可以通过*mr-jobhistory-daemon.sh start historyserver命令来启动Hadoop历史服务器。我们可以通过Hadoop jar的命令来实现我们的程序jar包的运行，关于运行的日志，我们一般都需要通过启动一个服务来进行查看，就是我们的JobHistoryServer，我们可以启动一个进程，专门用于查看我们的任务提交的日志。mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address默认的值分别是0.0.0.0:10020和0.0.0.0:19888
```
1、复制：
[root@master01 hadoop]# cp mapred-site.xml.template mapred-site.xml
2、修改
	<property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
    property>

    <property>  
        <name>mapreduce.jobhistory.addressname>  
        <value>master01:10020value>  
    property>  

    <property>  
        <name>mapreduce.jobhistory.webapp.addressname>  
        <value>master01:19888value>  
    property> 
```
- 配置yarn-site.xml
  
  yarn.resourcemanager.hostname：指定yarn主节点
  
  yarn.nodemanager.aux-services：NodeManager上运行的附属服务。需配置成 mapreduce_shuffle，才可运行MapReduce程序。默认值：“”
  
  yarn.log-aggregation-enable：yarn日志聚合功能开关
  
  yarn.log-aggregation.retain-seconds：日志保留时限，默认7天
```
<property>
          <name>yarn.resourcemanager.hostnamename>
          <value>master01value>
      property>
  
      <property>
          <name>yarn.nodemanager.aux-servicesname>
          <value>mapreduce_shufflevalue>
      property>
  
      <property>
          <name>yarn.log-aggregation-enablename>
          <value>truevalue>
      property>
  
      <property>
          <name>yarn.log-aggregation.retain-secondsname>
          <value>604800value>
      property>
```
- 配置slaves
  
  从节点的信息
```
node1
node2
```
4、分发Hadoop到node1、node2
```
cd /usr/local/soft/
scp -r hadoop-2.7.6/ node1:`pwd`
scp -r hadoop-2.7.6/ node2:`pwd`
```
5、格式化namenode（第一次启动的时候需要执行，以及每次修改核心配置文件后都需要）

在主节点下进行格式化
```
hdfs namenode -format
```
6、启动Hadoop集群
```
start-all.sh
```
7、查看master01、node1、node2上的进程
```
jps
```
NameNode：接受客户端的读/写服务,收集 DataNode 汇报的 Block 列表信息

DataNode：真实数据存储的地方（block）

SecondaryNameNode：做持久化的时候用到

进程 master01（主） node1（从） node2（从）

NameNode √

SecondaryNameNode √

ResourceManager √

DataNode √ √

NodeManager √ √

8、访问HDFS的web界面
```
http://192.168.137.150:50070
```
9、访问YARN的web界面
```
http://192.168.137.150:8088
```
10、配置windows映射，让电脑可以下载hadoop上的文件
- 首先到这个目录c盘的这个目录下。c盘文件不允许修改，点击hosts的属性，安全，编辑，给user用户一个修改权限就可以修改了。
添加：192.168.137.150 master01

192.168.137.160 node1

192.168.137.170 node2
相关阅读:
datax-hdfsReader 学习
 Day32 Web自动化进阶
 【C++】继承 ③ ( 继承的一些重要特性 | 子类拥有父类的所有成员 | 多态性 | 子类可以拥有父类没有的成员 | 代码示例 )
【Python3】【力扣题】268. 丢失的数字
 NC14695 不可名状之物
 前端面试题目（二十五）
让AI玩《我的世界》
计算机体系结构的概念和学习目的
 博客之QQ登录功能(二)
path development介绍
原文地址：https://www.cnblogs.com/bfy0221/p/16610427.html

进程	master01（主）	node1（从）	node2（从）
NameNode	√
SecondaryNameNode	√
ResourceManager	√
DataNode		√	√
NodeManager		√	√

Hadoop集群搭建

一、准备

二、搭建Hadoop集群

1、上传安装包并解压

2、配置环境变量

3、修改Hadoop配置文件

4、分发Hadoop到node1、node2

5、格式化namenode（第一次启动的时候需要执行，以及每次修改核心配置文件后都需要）

6、启动Hadoop集群

7、查看master01、node1、node2上的进程

8、访问HDFS的web界面

9、访问YARN的web界面

10、配置windows映射，让电脑可以下载hadoop上的文件