更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
|
领域
|
场景举例
|
场景描述
|
场景特点
|
|
数据资产
|
引用热度计算
|
资产被频繁消费和广泛引用,是对自身权威性的有利佐证,类似网页引用中的PageRank值,我们根据资产的下游血缘情况,定义了资产定义引用热度值。热度高的资产,更值得被信任。
|
离线方式批量消费血缘数据;
覆盖范围越广越好;
少量错误不会造成恶劣影响
|
|
理解数据上下文
|
在找数据时,通过查看一份数据资产的血缘,来更多的了解它的“前世今生”,可以更好的判定当前资产是不是自己需要的,或者是不是值得信赖的。就像了解一个人,可以从他周围的朋友中得到很多信息一样,是对这个人“生平”很好的补充。
|
实时方式获取血缘数据;
覆盖范围越广越好;
少量错误不会造成恶劣影响
| |
|
数据开发
|
影响分析
|
当处于血缘上游的研发同学修改任务前,通过查看自己的下游,通知对应资产或任务的负责人,进行相应的修改,否则会造成严重的生产事故
|
实时方式获取血缘数据;
覆盖范围越广越好;
血缘错误可能会造成严重事故
|
|
归因分析
|
当某个任务出现问题时,通过查看血缘上游的任务或资产,排查出造成问题的根因是什么
|
实时方式获取血缘数据;
覆盖范围越广越好;
血缘错误会影响效率
| |
|
数据治理
|
链路状态追踪
|
事先挑选已知的核心任务,通过血缘关系,自动化的梳理出其所在的核心链路,并做重点的治理与保障
|
离线方式批量消费血缘数据;
覆盖核心链路;
血缘错误可能会造成严重事故
|
|
数仓治理
|
数仓规范化治理,包括但不限于:数仓分层中不合理的逆向引用;数仓分层不合理;冗余的表与链路等
|
离线方式批量消费血缘数据;
覆盖离线和实时数仓;
少量错误不会造成恶劣影响
| |
|
数据安全
|
安全合规检查
|
资产本身具有安全等级,资产的安全等级不应该低于上游资产的安全等级,否则会有权限泄露风险。基于血缘,通过扫描高安全等级资产的下游,来排除安全合规风险
|
离线方式批量消费血缘数据;
覆盖离线和实时数仓;
错误可能会造成安全风险
|
|
标签传播
|
首先根据规则自动识别(或人工)部分资产的安全标签,基于血缘,将标签自动传播到下游更广泛的资产
|
离线方式批量消费血缘数据;
覆盖离线和实时数仓;
少量不准确不会造成恶劣影响
|
|
方案
|
优势
|
劣势
|
备注
|
|
1:复用任务节点,为字段之间的关系添加特殊定义的边
|
直观上更容易理解
|
边类型数量可能爆炸,写入与遍历复杂
|
上下游的Column之间映射关系多时,劣势明显
|
|
2:在字段之间添加冗余的任务节点,复用边的语义
|
统一了数据模型与遍历过程。
|
冗余了任务节点
|
通常字段之间的任务节点没有实际意义,如果想知道由什么任务引入的关联关系,可以多查询一次虚拟节点与任务节点之间的边。
|
定义:假设一个任务实际的输入和产出与血缘中该任务的上游和下游相符,既不缺失也不多余,则认为这个任务的血缘是准确的,血缘准确的任务占全量任务的比例即为血缘准确率。
定义:当至少有一条血缘链路与资产相关时,称为资产被血缘覆盖到了。被血缘覆盖到的资产占关注资产的比例即为血缘覆盖率。
定义:从任务发生修改,到最终反应到血缘存储系统的端到端延时。