• 数字化时代,数据仓库是什么?有什么用?


    在激烈的市场竞争和全新的数字经济共同作用下,数字化转型成为了大多数企业的共识,也是获取数字经济的最佳方式。在整个数据价值生产链路中,数据仓库的主要作用就是中心化分发,将原始数据与数据价值挖掘活动隔离。

    所有的原始数据都会进入数据仓库,再由数据仓库统一分发给下游的数据使用者。这样的结构实现了原始数据与数据分析工作的解耦,让业务活动可以专注于生产,也让数据价值挖掘可以专注于分析。

    数据仓库架构

    通常情况下,为了把一个复杂的工作拆成了多个简单的工作,一般将数据仓库架构分为三层,即数据操作层、数据仓库层和应用数据层(数据集市层)。

    (1)ODS(Operation Data Store 数据准备区)

    数据仓库源头系统的数据表通常会原封不动的存储一份,这称为ODS层,也称为准备区。它们是后续数据仓库层加工数据的来源。ODS层数据的主要来源是业务数据库、埋点日志、其他数据源。

    业务数据库:可使用DataX、Sqoop等工具来抽取,每天定时抽取一次;在实时应用中,可用Canal监听MySQL的 Binlog,实时接入变更的数据。

    埋点日志:线上系统会打入各种日志,这些日志一般以文件的形式保存,可以用 Flume 定时抽取。

    其他数据源:从第三方购买的数据、或是网络爬虫抓取的数据。

    (2)DW(Data Warehouse 数据仓库层)

    该层包含DWD、DWS、DIM层,由ODS层数据加工而成,主要是完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。

    DWD(Data Warehouse Detail 细节数据层),是业务层与数据仓库的隔离层。以业务过程作为建模驱动,基于每个具体的业务过程特点,构建细粒度的明细层事实表。可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,也即宽表化处理。

    • (3)DWS(Data Warehouse Service 服务数据层)
      基于DWD的基础数据,整合汇总成分析某一个主题域的服务数据。以分析的主题为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表。
    • (4)DIM(公共维度层 )
      基于维度建模理念思想,建立一致性维度。
    • (5)TMP层
    • 临时层,存放计算过程中临时产生的数据。
    • (6)ADS(Application Data Store 应用数据层)

    该层是基于DW层的数据,整合汇总成主题域的服务数据,用于提供后续的业务查询等。

    数据中台、数据仓库、大数据平台、数据湖傻傻分不清楚

    1) 基础能力上的区别

    数据平台:提供的是计算和存储能力

    数据仓库:利用数据平台提供的计算和存储能力,在一套方法论的指导下建设的一整套的数据表

    数据中台:包含了数据平台和数据仓库的所有内容,将其打包,并且以更加整合以及更加产品化的方式对外提供服务和价值

    数据湖:一个存储企业各种各样原始数据的大型仓库,包括结构化和非结构化数据,其中湖里的数据可供存取、处理、分析和传输

    2) 业务能力上的区别

    数据平台:为业务提供数据主要方式是提供数据集

    数据仓库:相对具体的功能概念是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表

    数据中台:企业级的逻辑概念,体现企业数据产生价值的能力,为业务提供服务的主要方式是数据API

    数据湖:数据仓库的数据来源

    总的来说,数据中台距离业务更近,数据复用能力更强,能为业务提供速度更快的服务,数据中台在数据仓库和数据平台的基础上,将数据生产为一个个数据API服务,以更高效的方式提供给业务。数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。

  • 相关阅读:
    JS控制显示或隐藏TR
    【CVE-2023-35843】NocoDB 任意文件读取漏洞
    GIF图像动态生成-JAVA后台生成
    ISO9001质量管理体系剖析
    Kafka系列之:深入理解死信队列和重试队列
    Day42 尚硅谷JUC——Fork_Join分支合并框架
    结合均线分析k线图的基本知识
    车辆合格证识别易语言代码
    awk根据某个字段过滤文件航
    RPA的命令库与子程序是什么?
  • 原文地址:https://blog.csdn.net/weixin_44958787/article/details/134205425