• 【无标题】


    lg.sh相当于开启java-jar,可以通过参数改日期,在/home/bin目录下,因为102 103两台机器都要采集所以写了这个脚本

    hadoop104 cd /opt/module/flume-1.9.0/conf 日志消费flume
    vim kafka-flume-hdfs.conf
    a1.sinks.k1.hdfs.codeC = org.apache.hadoop.io.compress.GzipCodec

    cd /home/atguigu/bin mysql_to_hdfs_init.sh mysql_to_hdfs.sh
    首日sqoop同步脚本与每日同步脚本,并删除创建lzo索引的命令
    org.apache.hadoop.io.compress.GzipCodec

    f1.sh 日志采集的两个flume,102 103,通过taildir source监控applog目录下log目录下的app.*.log文件传到kafka,而这个文件由applog目录下的java -jar生产,你可以通过改变日期生成多个文件
    f2.sh 业务数据采集,104,通过kafka source、file channel、hdfs sink将kafka的数据采集到hdfs上以gzip存储,hdfs目录会自动生成,一个flume程序就是一个Application进程
    hdfs:/origin_data/gmall/log

    mysql_to_hdfs_init.sh业务数据首日同步脚本(全量),第一个参数传表名,第二个参数传日期,不传默认昨天,其实只是决定了生成的hdfs中的目录,第一个参数all同步所有表,且all会作为一级hdfs目录,表名为同步某个表
    hdfs:/origin_data/gmall/db

    hdfs_to_ods_log.sh + 日期导入hdfs日志数据到hive,默认导入昨天
    hdfs_to_ods_db_init.sh +表名 +日期 ods层业务表首日数据装载脚本

    重下hive记得把hiveservices.sh脚本重写到conf目录下
    spark on hive
    要创建两个路径spark-history spark-jars

    hive.metastore.uris thrift://hadoop102:9083 hive.server2.thrift.bind.host hadoop102 hive.server2.thrift.port 10000 javax.jdo.option.ConnectionURL jdbc:mysql://hadoop102:3306/metastore?useSSL=false
    
    
        javax.jdo.option.ConnectionDriverName
        com.mysql.jdbc.Driver
    
    
        
    
        javax.jdo.option.ConnectionUserName
        root
    
    
    
    
        javax.jdo.option.ConnectionPassword
        123456
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    
        hive.metastore.warehouse.dir
        /user/hive/warehouse
    
    
    
    
        hive.metastore.schema.verification
        false
    
    
    
    
        hive.metastore.event.db.notification.api.auth
        false
    
    
    
        javax.jdo.option.ConnectionURL
        jdbc:mysql://hadoop102:3306/metastore?useSSL=false&useUnicode=true&characterEncoding=UTF-8
    
    
    
    
        spark.yarn.jars
        hdfs://hadoop102:8020/spark-jars/*
    
    
    
    
        hive.execution.engine
        spark
    
    
    
    
        hive.spark.client.connect.timeout
        300000ms
    
    
        hive.spark.client.server.connect.timeout
        300000ms
    
    
    
        spark.dynamicAllocation.enabled
        true
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
  • 相关阅读:
    大前端 - 泛客户端 - Electron
    推动数据流通,国家在下一盘怎样的大棋?
    Next.js下通过env分环境控制功能开关
    ES6中let、const、和var之间的用法以及区别
    NSSCTF做题第9页(2)
    二叉树题目:统计二叉树中好结点的数目
    http和https的区别(面试题)
    项目进度管理
    大模型能力
    Qt planeGame day10
  • 原文地址:https://blog.csdn.net/XWxDSJ/article/details/128163518