【无标题】

lg.sh相当于开启java-jar，可以通过参数改日期，在/home/bin目录下，因为102 103两台机器都要采集所以写了这个脚本

hadoop104 cd /opt/module/flume-1.9.0/conf 日志消费flume
vim kafka-flume-hdfs.conf
a1.sinks.k1.hdfs.codeC = org.apache.hadoop.io.compress.GzipCodec

cd /home/atguigu/bin mysql_to_hdfs_init.sh mysql_to_hdfs.sh
首日sqoop同步脚本与每日同步脚本，并删除创建lzo索引的命令
org.apache.hadoop.io.compress.GzipCodec

f1.sh 日志采集的两个flume，102 103，通过taildir source监控applog目录下log目录下的app.*.log文件传到kafka，而这个文件由applog目录下的java -jar生产，你可以通过改变日期生成多个文件
f2.sh 业务数据采集，104，通过kafka source、file channel、hdfs sink将kafka的数据采集到hdfs上以gzip存储，hdfs目录会自动生成，一个flume程序就是一个Application进程
hdfs：/origin_data/gmall/log

mysql_to_hdfs_init.sh业务数据首日同步脚本（全量），第一个参数传表名，第二个参数传日期，不传默认昨天，其实只是决定了生成的hdfs中的目录，第一个参数all同步所有表，且all会作为一级hdfs目录，表名为同步某个表
hdfs：/origin_data/gmall/db

hdfs_to_ods_log.sh + 日期导入hdfs日志数据到hive，默认导入昨天
hdfs_to_ods_db_init.sh +表名 +日期 ods层业务表首日数据装载脚本

重下hive记得把hiveservices.sh脚本重写到conf目录下
spark on hive
要创建两个路径spark-history spark-jars

hive.metastore.uris thrift://hadoop102:9083 hive.server2.thrift.bind.host hadoop102 hive.server2.thrift.port 10000 javax.jdo.option.ConnectionURL jdbc:mysql://hadoop102:3306/metastore?useSSL=false



    javax.jdo.option.ConnectionDriverName
    com.mysql.jdbc.Driver


    

    javax.jdo.option.ConnectionUserName
    root




    javax.jdo.option.ConnectionPassword
    123456

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17


    hive.metastore.warehouse.dir
    /user/hive/warehouse




    hive.metastore.schema.verification
    false




    hive.metastore.event.db.notification.api.auth
    false



    javax.jdo.option.ConnectionURL
    jdbc:mysql://hadoop102:3306/metastore?useSSL=false&useUnicode=true&characterEncoding=UTF-8




    spark.yarn.jars
    hdfs://hadoop102:8020/spark-jars/*




    hive.execution.engine
    spark




    hive.spark.client.connect.timeout
    300000ms


    hive.spark.client.server.connect.timeout
    300000ms



    spark.dynamicAllocation.enabled
    true

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48

相关阅读:
大前端 - 泛客户端 - Electron
推动数据流通，国家在下一盘怎样的大棋？
Next.js下通过env分环境控制功能开关
ES6中let、const、和var之间的用法以及区别
NSSCTF做题第9页（2）
二叉树题目：统计二叉树中好结点的数目
http和https的区别（面试题）
项目进度管理
大模型能力
Qt planeGame day10

原文地址：https://blog.csdn.net/XWxDSJ/article/details/128163518