研究目标
Hadoop 作为开源大数据技术的起源,兴起于2006年。我们收集从Hadoop 发展第10年,即2015年至今的相关公开数据进行关联分析,研究开源大数据进
入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。
使用热力值进行定量分析
开源项目热力值,使用量化指标,刻画开源项目的开发迭代活跃度和受开发者欢迎程度。
具体来讲,主要来自于几个方面:
这些和大数据技术发展趋势、开源项目的技术吸引力、开源社区治理水平以及项目传播力强相关。
本报告所呈现的开源大数据热力从全景、技术栈分类以及单项目角度对入围项目的热力表现进行可视化的多维度洞察,并将项目进程中的关键事件与热力表
现进行关联分析,并引入开源基金会、知名开源项目等领域专家进行访谈,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳
总结。
数据来源
采集时间为2022年10月1日。
通过 GitHub log 获取2015年1月至2022年9月的公开数据(包括项目Id、Star、Issue、Open PR,Review Comment,Merge PR等)。
通过Jira api 获取2015年1月至2022年9月的公开数据(包括项目Id、Issue数量)。
热力值计算
https://github.com/X-lab2017/open-digger/tree/master/cooperations
每隔40个月,热力值提升1倍。
我们按照数据处理的生命周期,对开源大数据项目进行了技术分类,包括「数据集成」、
「数据存储」、
「批处理」、「流处理」、
「数据查询与分析」、
「数据可视化」、
「数据调度与编排」、
「数据开发与管
理」8个类别。2022年开源大数据总热力值,增长到2015年的4倍。每隔40个月,热力值提升1倍。
热力变迁反映技术趋势
2025年总热力值将突破3万
按照目前热力增长趋势预测,到2025年,总热力值将突破3万,
「数据集成」、
「数据调度与编排」、
「数
据开发与管理」将成为强劲的热力增长点。
一套复杂体系分化为六大热点技术
热力跃迁更加频繁,彼此交替推动
从计算一体化到存储一体化
热力变迁背后是用户使用痛点的转移\
多元化技术的蓬勃发展
发轫于云端的技术重构
数据集成 率先完成重构

解决用户痛点是核心竞争力
每个项目都需要解决用户在某个细分场景的痛点,用户痛点并非一成不变,优秀开源项目的与时俱进,成为热力趋势中的“常青树”。
掌握开源社区运作的方法论
持续关注开发者体验
商业化对于开源社区发展是双刃剑
参考
https://files.alicdn.com/tpsservice/d985b559f65e3ffd004620e0050e9f21.pdf