Greenplum 对比 Hadoop

Greenplum 对比 Hadoop
Greenplum属于MPP架构，和Hadoop一样都是为了解决大规模数据的并行计算而出现的技术，两者的相似点在于：
- 分布式存储，数据分布在多个节点服务器上
- 分布式并行计算框架
- 支持横向扩展来提高整体的计算能力和存储容量
- 都支持X86开放集群架构
但两种技术在数据存储和计算方法上，也存在明显的差异：
- 是否有模式概念：Greenplum MPP按照关系数据库行列表方式存储数据（有模式）；Hadoop按照文件切片方式分布式存储（无模式）。
- 数据分布机制：MPP主要采用Hash分布，计算节点和存储紧密耦合，数据分布粒度在记录级的更小粒度；Hadoop FS按照文件切块后随机分配，节点和数据无耦合，数据分布粒度在文件块级（缺少64MB）。
- 计算框架：MPP采用SQL并行查询计划，Hadoop采用MapReduce计算框架。
基于上述不同，体现在效率、功能等特性方面也大不相同。

计算效率对比

MapReduce相比而言是一种较为蛮力的计算方式，数据处理过程分为Map->Shuffle->Reduce的过程，相比MPP而言，MapReduce的数据在计算前未经整理和组织，而MPP预先把数据有效的组织，例如：行列表关系、Hash分布、索引、分区、列存、统计信息收集等，这决定了在计算过程中效率大不相同。
- MAP效率。 Hadoop的MAP阶段需要对数据再解析，而MPP数据库则会直接取行列表，效率高。Hadoop按默认64MB拆分文件，而且数据不能保证在所有节点均匀分布，因此，MAP过程的并行化程度低；MPP数据库按照数据记录拆分和Hash分布，粒度更细，数据分布在所有节点中非常均匀，并行化程度更高。Hadoop HDFS 没有灵活的索引、分区、列存等技术，而MPP通常利用这些技术大幅提高数据的检索效率。
- Shuffle效率。 Shuffle对比MPP计算中的重分布，由于 Hadoop数据与节点的无关性，Shuffle基本避免不了；而MPP数据库对于相同Hash分布数据不需要重分布，节点大量网络和CPU消耗。MapReduce没有统计信息，不能做基于cost based的优化；MPP数据库可以利用统计信息很好的进行并行计算优化。例如，MPP对于不同分布的数据可以在计算中基于cost动态决定最优执行路径，如采用重分布还是小表广播。
- Reduce效率。 对比MPP数据库的SQL执行器executor，MapReduce缺乏灵活的Join技术支持；MPP可以基于cost来自动选择Hash Join、Merge Join还是Nested Join，基于可以在Hash Join通过cost选择小表做Hash，在Nested Join中选择index提高Join性能等。MPP对于Aggregation提供Multiple-agg、Group-agg、Sort-agg等多种技术来提供计算性能，MapReduce需要开发人员自己实现。
另外，MapReduce在整个Map->Shuffle->Reduce过程中通过文件来交换数据，效率很低，MapReduce要求每个步骤间的数据都要序列化到磁盘，意味着MapReduce作业的IO成本很高，导致交互分析和迭代算法开销很大，MPP数据库采用Pipline方式在内存数据流中处理数据，效率比文件方式高很多。

总结：MPP数据库在计算并行度、计算算法上比Hadoop更优，效率更高。

功能对比

MPP数据库采用SQL作为交互式语言，SQL简单易学，具有很强的数据操纵能力和过程语言能力，SQL语言是专门为统计和数据分析开发的语言，各种功能和函数琳琅满目，SQL语言不仅适合开发人员，也适用于分析业务人员，大大简化数据的操作和交互过程。

MapReduce编程明显困难，在原生的MapReduce开发框架基础上开发，需要熟悉JAVA开发和并行原理。为了解决易用性的问题，近近来SQL on Haddop技术大量涌现，几乎成为当前Hadoop开发使用的一个技术热点趋势。这些技术包括Hive、HAWQ、Spark SQL、Impala、Presto、Drill、Tajo等。这些技术有些是在MapReduce上做优化，比如Spark采用内存中的MapReduce技术，有的采用C/C++代替Java语言重构Hadoop和MapReduce，有些是直接绕开MapReduce，如Impala、HAWQ借鉴MPP计算思想来做查询优化和内存数据Pipeline计算，以此提高性能。

虽然SQL on Hadoop比原始MapReduce在易用上有所提高，但SQL成熟度和关系分析上目前还与MPP数据库有较大差距。

上述产品，除了HAWQ外，对SQL的支持非常有限，特别是分析型复杂SQL，如SQL 2003 OLAP 窗口函数，几乎都不支持。由于Hadoop本身Append-only特性，SQL on Hadoop大多不支持数据局部更新和删除功能，基本上都缺少索引和存储过程等特征。除HAWQ外，大多对于ODBC/JDBC/DBI/OLEDB/.NET接口的支持有限，与主流第三方BI报表工具的兼容性不如MPP数据库。

SQL on Hadoop不擅长交互式的Ad Hoc查询，大多通过预关联的方式规避这个问题。另外，在并发处理方面能力较弱。高并发场景下，需要控制计算请求的并发度，避免资源过载导致的稳定性问题和性能下降问题。

架构灵活性对比

为保证数据的高性能计算，MPP数据库节点和数据之间是紧耦合的，相反，Hadoop的节点和数据是没有耦合关系的。这决定了Hadoop的架构更加灵活，存储节点和计算节点的无关性，现在在2个方面：
- 扩展性。 Hadoop架构支持单独增加数据节点或计算节点，依托Hadoop的SQL on Hadoop系统，例如HAWQ、SPARK均可单独增加计算层的节点或数据层的HDFS存储节点，HDFS数据存储对计算层来说是透明的。MPP数据库扩展时，一般情况下是计算节点和数据节点一起增加的，增加节点后需要对数据做重分布才能保证数据与节点的紧耦合，进而保证系统的性能。Hadoop增加存储层节点后虽然也需要Rebalance数据，但不是那么紧迫。
- 节点退服。 Hadoop节点宕机退服对系统影响较小，并且系统会自动将数据在其它节点扩充到3份；MPP数据库节点宕机时，系统性能损耗大于Hadoop。HAWQ实现了计算节点和HDFS数据节点的解耦，采用MR2.0的YARN来进行资源调度，同时具有Hadoop的灵活伸缩的架构特性和MPP的高效能计算能力。不过HAWQ比Greenplum MPP数据库要低一倍左右，但比其它基于MapReduce的SQL on Hadoop性能要好。
选择MPP还是Hadoop？

如果数据需要频繁的计算和统计并且希望具有更好的SQL交互式支持和更快计算性能及复杂SQL语法支持，建议选择MPP数据库。特别如数据仓库、集市、ODS、交互式分析数据平台等系统，MPP有明显的优势。

如果数据加载后只会被用于读取少数次的任务和用于少数次的访问，而且主要用于Batch，对计算性能不是很敏感，选择Hadoop也不错，Hadoop不需要花费较多的精力来模式化你的数据，节点数据模型设计和数据加载设计方面的投入。包括历史数据系统、ETL临时数据区、数据交换平台等。
相关阅读:
PIL、OpenCV、numpy处理图像格式的相互转化方式
 Java可变参数的应用
 spring组件之BeanFactory
测试Python读写ini配置文件
 S32 Design Studio for ARM 2.2 快速入门
 YOLOv10改进教程|C2f-CIB加入注意力机制
 MATLAB--微分方程
 基于ZTMapGIS打造智慧环保指挥中心平台，强化环境监测精细化管理
 CSS基础
 集合（容器）-List接口及实现类
原文地址：https://blog.csdn.net/Post_Yuan/article/details/133342282

计算效率对比

功能对比

架构灵活性对比

选择MPP还是Hadoop？