码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 搭建开源元数据平台DataHub


    DataHub是现代数据堆栈的开源元数据平台,旨在实现端到端数据发现、数据可观察性和数据治理。这个可扩展的元数据平台是为开发人员构建的,以适应其快速发展的数据生态系统的复杂性,帮助数据从业者利用其组织内的数据价值。

    技术文档:Introduction | DataHub

    源码:https://github.com/datahub-project/datahub 

    DataHub部署:

    1、安装docker、jq和docker-compose v1。确保为Docker引擎分配足够的硬件资源:2 CPU、8GB 内存、2GB Swap 和 10GB 硬盘。

    2、启动Docker。

    3、安装Python 3.6+

    4、安装DataHub CLI

    1. python3 -m pip install --upgrade pip wheel setuptools
    2. python3 -m pip uninstall datahub acryl-datahub || true # sanity check - ok if it fails
    3. python3 -m pip install --upgrade acryl-datahub
    4. datahub version

    DataHub CLI命令:

    1、在本地部署DataHub实例

    datahub docker quickstart

    这将使用docker-compose部署DataHub实例。

    完成后,在浏览器中访问http://localhost:9002。使用datahub作为用户名和密码登录。

    查看datahub所有支持的选项:

    datahub docker quickstart --help

    2、采集示例元数据

    datahub docker ingest-sample-data

    如果启用了元数据服务身份验证,则需要使用命令中的--token 参数提供个人访问Token。

    3、停止DataHub

    datahub docker quickstart --stop

    4、重置DataHub

    datahub docker nuke

    该命令会清除DataHub的所有状态

    5、备份DataHub

    datahub docker quickstart --backup

    该命令将备份MySQL镜像,并默认将其写入到路径 ~/.datahub/quickstart/backup.sql。

    可以通过传递--backup-file参数来自定义备份路径。

    datahub docker quickstart --backup --backup-file /home/my_user/datahub_backups/quickstart_backup_2002_22_01.sql

    快速启动备份不包含任何时间序列数据(数据集统计信息、配置文件等),如果删除所有索引并从此备份中恢复,将丢失该信息。

    6、恢复DataHub

    恢复备份(主+索引)

    datahub docker quickstart --restore

    此命令将提取位于路径 ~/.datahub/quickstart/backup.sql 的文件,并用它恢复主数据库以及弹性搜索索引。

    可以通过传递--restore-file参数来自定义备份路径。

    datahub docker quickstart --restore --restore-file /home/my_user/datahub_backups/quickstart_backup_2002_22_01.sql

    仅恢复索引[处理索引不同步/损坏问题]

    如果索引损坏,或者缺少一些更新。为了从主存储区重新启动索引,您可以运行此命令将索引与主存储区同步。

    datahub docker quickstart --restore-indices

    仅恢复主备份(无索引)

    如果只想恢复主数据库(MySQL)的状态,但不想重新索引数据。则必须显式禁用还原索引功能。

    datahub docker quickstart --restore --no-restore-indices

    7、升级本地DataHub

    再次执行快速启动命令。它将拉下较新的镜像并重新启动实例,而不会丢失任何数据。

    datahub docker quickstart

    8、定制DataHub

    如果要自定义DataHub安装,需要下载cli工具使用的docker-compose.yaml
    https://raw.githubusercontent.com/datahub-project/datahub/master/docker/quickstart/docker-compose-without-neo4j-m1.quickstart.ymlhttps://raw.githubusercontent.com/datahub-project/datahub/master/docker/quickstart/docker-compose-without-neo4j-m1.quickstart.yml根据需要进行修改,并通过传递下载的docker-compose文件来部署DataHub:

    datahub docker quickstart --quickstart-compose-file 


     

  • 相关阅读:
    pink老师前端CSS教程案例-学成在线首页
    完全指南:mv命令用法、示例和注意事项 | Linux文件移动与重命名
    2023最新版Android逆向教程——第4天:真机环境的配置
    三维模型体积计算及其注意事项
    3.1 - 程序设计语言 3.2 - 高级语言的特点及引用 3.3 - 静态/动态类型语言
    用opencv实现人脸识别(5)
    AI浪潮下,大模型如何在音视频领域运用与实践?
    在内核调试时输出调试信息
    10月BIOTREE协助发表文章再创新高,最高影响因子31.373
    多git仓库一键更新脚本分享 2.0
  • 原文地址:https://blog.csdn.net/watson2017/article/details/126404518
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号