数据湖定义:一种集中化的存储仓库,它将数据按其原始的数据格式存储,通常是二进制blob或者文件。一个数据湖通常是一个单一的数据集,包括原始数据以及转化后的数据(报表,可视化,高级分析和机器学习等)。

对比传统的Hadoop架构,数据湖有以下几个优点:
- 高度灵活:数据的读取、写入和加工都很方便,可保存所有的原始数据
- 多重分析:支持包括批、流计算,交互式查询,机器学习等多种负载
- 低成本:存储计算资源独立扩展;采用对象存储,冷热分离,成本更低
- 易管理:完善的用户管理鉴权,合规和审计,数据“存管用”全程可追溯