码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • DataX实现Mysql与ElasticSearch(ES)数据同步


    文章目录

    • 一、Linux环境要求
    • 二、准备工作
      • 2.1 Linux安装jdk
      • 2.2 linux安装python
      • 2.3 下载DataX:
    • 三、DataX压缩包导入,解压缩
    • 四、编写同步Job
    • 五、执行Job
    • 六、定时更新
      • 6.1 创建定时任务
      • 6.2 提交定时任务
      • 6.3 查看定时任务
    • 七、增量更新思路

    一、Linux环境要求

    jdk1.8及以上
    python2

    二、准备工作

    2.1 Linux安装jdk

     yum install -y java-1.8.0-openjdk.x86_64
    
    • 1

    查看是否安装成功

    java -version
    
    • 1

    2.2 linux安装python

     yum install -y python
    
    • 1

    查看python版本号,判断是否安装成功

    python --version
    
    • 1

    2.3 下载DataX:

    三、DataX压缩包导入,解压缩

    tar -zxvf datax.tar.gz 
    
    • 1

    四、编写同步Job

    在datax/job下,json格式,具体内容及主要配置含义如下

    mysqlreader为读取mysql数据部分,配置mysql相关信息
    username,password为数据库账号密码
    querySql:需要查询数据的sql,也可通过colums指定需要查找的字段(querySql优先级高)
    elasticsearchwriter部分为数据写入ES部分,配置ES相关信息,
    endpoint为ES地址,index为索引,columns为需要写入列的信息,其余配置选填

    坑!:若运行时提示mysql连接失败,且账号密码,ip,端口号都没问题的情况下,需要像文中一样在jdbcUrl的内容后面加上useSSL=false"

    vim /opt/software/datax/job/job.json
    
    • 1

    将内容换成以下内容

    {
        "job": {
          "setting": { 
              "speed": {
                  "channel": 1
              },
              "errorLimit": {
                  "percentage": 0
              }
          },
          "content": [
              {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "123456",
                        "connection": [{
                            "querySql": ["select * from user_t"],
                            "jdbcUrl": ["jdbc:mysql://数据库地址:3306/mysql?useSSL=false"]
                        }]
                    }
                },
                  "writer": {
                      "name": "elasticsearchwriter",
                      "parameter": {
                          "endpoint":"http://ES地址:9200",
                           "accessId":"",
                          "accessKey":"",
                          "index": "user-demo",
                          "cleanup": false,
                          "discovery":false,
                          "column": [
                              {
                                "name": "id",
                                "type": "id"
                              },
                            {
                                "name": "userName",
                                "type": "text"
                            },
                                                     {
                                "name": "address",
                                "type": "text"
                            }
    
                          ]
                      }
                  }
                }
            ]
            }
        }
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54

    五、执行Job

    配置好之后执行命令:

     python /opt/software/datax/bin/datax.py /opt/software/datax/job/job.json 
    
    • 1

    注意换成自己的datax路径

    正常情况下输出一大堆之后会是这样,由于我在mysql表中插了三条测试数据,,所以读出记录总数为3
    在这里插入图片描述完成操作

    六、定时更新

    6.1 创建定时任务

    vim crondatax
    内容:
    5 13 * * * python /opt/software/datax/bin/datax.py /opt/software/datax/job/job.json

    /opt/software/datax/log.date +\%Y\%m\%d\%H\%M\%S 2>&1
    含义为每天13:05执行python /opt/software/datax/bin/datax.py /opt/software/datax/job/job.json 命令,日志输出地址为/opt/software/datax,命名为“log.时间”
    crontab格式可参考下图:

    6.2 提交定时任务

    crontab crondatax

    /sbin/service crond restart

    6.3 查看定时任务

    crontab -l

    七、增量更新思路

    数据库表设计时加入最后操作时间字段,新增,修改数据都会记录最新时间
    Datax的json中,mysql查询语句中按照定时任务规律,查询此字段时间大于定时任务时间间隔之前的时间的数据。

  • 相关阅读:
    小白量化《穿云箭集群量化》(2)量化策略编写(1)
    Hadoop运维之:配置文件作用概述ing
    【小f的刷题笔记】(JS)数组 - 前缀和 LeetCode303 & LeetCode34
    “第六届世界声博会暨2023科大讯飞全球1024开发者节”开幕式回顾及舆情问题
    学习路之PHP--laravel postman 提交表单出现419错误
    Uniapp——使用安卓原生插件
    21条最佳实践,全面保障 GitHub 使用安全
    LeetCode每日一题(263. Ugly Number)
    【校招VIP】计算机网络之TCP/IP模型归纳
    web学习---JavaScript---笔记(二)
  • 原文地址:https://blog.csdn.net/m0_68681879/article/details/132764153
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号