• 大数据之数据质量检查


    数据质量常从八大基本要素(准确性、及时性、即时性、真实性、准确性、完整性、安全性和扩展性)入手,制定全集团范围内的数据质量度量标准,而八大基本要素又可以分别从单列、跨列、跨行和跨表几个角度进行分析

    检查类型说明单列跨列跨表跨行
    完整性主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面---主外键完整性检查
    例如:楼盘表中的城市代码地行政区划主数据表中不存在
    不可为空类1.应为空值类,属性满足某些条件下不可维护值
    2.不应为空值,属性满足某些条件下必须维护值
    1.外关联约束类,如楼盘表中的城市必须在城市维表中存在
    及时性指数据提取、传送、处理、装载、展现的及时和快速性
    有效性主要包括值域和业务规则的有效性1.语法约束类,如,身份证号符合国家标准要求
    2.格式规范类,如,日期格式检查
    3.长度约束类,如,楼盘ID长度8位以上
    4.值域约束类,如:楼栋高度在0-100之间
    1.业务规则约束类,
    唯一性指主键唯一和候选键唯一两个方面记录唯一类,如:楼盘ID不可重复出现
    一致性指统计口径上数据使用的一致性,系统间,表与表之间数据的一致性(可以扩展为数据波动性检查)1.单表等值一致约束类,如上刊率=上刊时长/可用上刊时长
    2.单表逻辑一致约束类,如合同的结束日期不能早于开始日期
    1.跨表等值一致约束类,如:同一指标在多表中存在,需要保持数据值一致
    准确性指计量误差、度量单位等方面的精确度
    内容正确、格式合法、数据唯一、脏数据
    准确性--波动性数据量在不同时间段的波动,根据设置的阈值,来判断合理性。
    全安性主要包括数据在传输、使用过程中的安全性
    扩展性该系统数据体系在不满足业务需求时进行扩展的可能性与复杂度
  • 相关阅读:
    Python-Python高阶技巧:闭包、装饰器、设计模式、多线程、网络编程、正则表达式、递归
    重新定义分析 - EventBridge 实时事件分析平台发布
    redis方法 setIfAbsent
    【nginx根据特定header值设置proxy_set_header】
    Pytorch 多卡并行(1)—— 原理简介和 DDP 并行实践
    GD32_定时器输入捕获波形频率
    opencv从入门到精通 哦吼01
    结构体学习
    软件工程
    首版次高端软件的申报材料?
  • 原文地址:https://blog.csdn.net/sdl_ok/article/details/127692149