• 大数据平台进度,它来了


    大家好,我是脚丫先生 (o^^o)

    又是元气满满的周一。

    然而,我自己除了瞌睡还是有点瞌睡,不知道小伙伴们是否一样。

    一直以来我负责着大数据平台的工作,但是都是很模块化的,交付的项目大多数都是满足即可。

    总是无法沉淀一个完善的产品,甚是遗憾。

    因此,自己想研发属于自己的大数据平台。

    希望未来的日子里,自己能不断的,轻抚它,优化它。

    也希望未来的日子里,依然有输出「Hello World」的喜悦

    整个大数据平台预计明年开源出来,多多与小伙伴们一起交流,一起进步!!!

    虽然很烂,但是有一句话,不是这样说的嘛,重复才能产生伟大,我想说,重复并不是循环从01,而是从0.11、0.21、0.41,要在一定的势能基础上,继续加固和创新。

    一、 登陆页面

    登陆页面和基本的后台管理一致。

    基本没啥难度,都属于后端和前端的登陆、权限知识。

    该页面以星空为背景,我感觉还是挺好看的,大数据正如星河般的数据,那么的无穷尽。

    二、首页

    首页页面,面板还没有确定具体的思路的研发。

    不过自己有两个想法:

    1.首页面板显示方法论,一般而言大数据平台是很复杂的,没有具体的操作手册,很难玩明白。

    2.首页面板显示数据仓库里的每层数据容量,做一个图的可视化。

    主菜单:

    数据汇聚、数据开发、数据质量、数据集市、可视化、平台基础

    三、数据汇聚

    数据汇聚模块,目前进度80%

    数据汇聚模块,名如其意,就是常常说的数据采集,属于大数据平台的基石。

    该模块其实是集成了Datax-web。

    修改了前端和优化了后端。

    因为,之前我们小组一直是以datax进行异构数据源的采集,这方面稍微有点经验。

    不过之后,还是想开发爬虫程序到数据汇聚模块,想获取到真实的数据,利用大数据平台,走完整个数据仓库流程。

    四、数据开发

    数据开发模块,进度为0%

    不过,自己也是有想法的,暂时先完成离线开发。

    思路以Hive为数据仓库,可视化的拖拽和自定义SQL组件进行数据的ETL,调度系统集成强大的Airflow。

    之所以调度系统选择Airflow,主要是之后开发的数据科学模块,以Python语言为主。

    五、 数据治理

    数据治理模块,目前进度50%

    数据治理的核心工作:在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。

    数据治理将全程监控整个数据流程,有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。

    在数据治理模块中,主要研发了元数据管理,数据质量管理,数据标准管理。

    当然,数据治理体系的建设还有其他的模块,目前仅限于此。

    六、数据集市

    数据集市模块,目前进度20%

    数据集市,把Hive数据仓库里建模完成的主题数据,通过API接口的方式被访问。

    七、数据可视化

    数据可视化模块,目前进度已经完成,调试修改阶段

    数据可视化,该模块可以直接抽取Hive仓库里的数据,进行简单的统计分析,直接出图。

    八、平台基础

    平台基础模块,目前进度已经完成。

    主要以集群管理、系统管理、系统日志。

    谈谈集群管理。

    集群管理,主要是监控HDFS和Yarn的资源、任务,并以图的方式进行展示。

    存储概览:监控HDFS的资源、节点、文件数等信息。

    计算概览:监控Yarn上任务的运行状况、资源等信息。

    监控概览:监控服务器的Cpu、内存等信息。

    九、总结

    大数据平台管理,是想完成一个自研的项目,在不断学习的同时、不断的优化。

    争取 0->0.1---->1这个过程。

    最后想完成持续的业务场景

    比如说:

    通过数据汇聚里的爬虫,对游民星空的游戏数据进行爬取,进入Hive数据仓库里,利用数据开发,进行ETL流程的统计分析,并且以调度的形式周期的进行。整个过程数据治理全程支撑。

    最后利用可视化模块进行游戏统计指标的可视化展示。

    实现数据的OneData过程。

    或者,在数据仓库里完成建模以后,形成数据资产,以数据集市的api接口的方式提供给其他的应用。

    实现数据的OneService过程。

    好了,今天就聊到这里,祝各位终有所成,收获满满!

    更多精彩内容请关注 微信公众号 👇「大数据指北」🔥:


    一枚热衷于分享大数据基础原理,技术实战,架构设计与原型实现之外,还喜欢输出一些个人私活案例。


    更多精彩福利干货,期待您的关注 ~

  • 相关阅读:
    Java 注解与反射
    Transformers x SwanLab:可视化NLP模型训练
    Redis字符串指令
    git文件取消版本控制和撤销修改
    HotSpot的算法实现
    DB2查看索引是否生效
    IT项目管理必备软件,这10款精心整理的项目管理工具请收好!
    1363. 形成三的最大倍数 贪心
    Linux Find命令详解(图片版)
    Java并发—ReetrantLock详解及应用
  • 原文地址:https://blog.csdn.net/shujuelin/article/details/126222861