1、开源大数据热力报告2022热力“摩尔定律”和热力图谱热力趋势:多元化、一体化、云原生研究目标和研究模型热力值TOP30和热力跃迁逻辑研究致谢报告目录研究目标Hadoop 作为开源大数据技术的起源,兴起于2006年。我们收集从Hadoop 发展第10年,即2015年至今的相关公开数据进行关联分析,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。使用热力值进行定量分析开源项目热力值,使用量化指标,刻画开源项目的开发迭代活跃度和受开发者欢迎程度。具体来讲,主要来自于几个方面:(1)开发者对开源项目的关注度,以及应用场景的广度和深度(2)开发者参与项目开发的贡献活跃度
2、(3)开发者在开发过程中展现出的协作关联度(4)项目和社区的可持续发展的健康度这些和大数据技术发展趋势、开源项目的技术吸引力、开源社区治理水平以及项目传播力强相关。本报告所呈现的开源大数据热力从全景、技术栈分类以及单项目角度对入围项目的热力表现进行可视化的多维度洞察,并将项目进程中的关键事件与热力表现进行关联分析,并引入开源基金会、知名开源项目等领域专家进行访谈,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。数据来源采集时间为2022年10月1日。通过 GitHub log 获取2015年1月至2022年9月的公开数据(包括项目Id、Star、Issue、Open
3、 PR,Review Comment,Merge PR等)。通过Jira api 获取2015年1月至2022年9月的公开数据(包括项目Id、Issue数量)。如何定量分析“后Hadoop时代”开源项目和技术趋势热力值计算公式把2015年作为基期,2015年所有开源项目平均热力值作为基数,赋值为100。将三个关键指标做归一化处理,赋予对应权重比例,并由此确立了三个关键指标的归一化系数。详见下表:某项目某年热力值=年度新增 Star 原始值*归一化系数+年度新增 Issue 原始值*归一化系数+年度 OpenRank 原始值*归一化系数#说明:所有大数据项目数据合计来看,新增 Star 数8年增
4、长倍数为3,Issue 数8年增长倍数为1.8,OpenRank 值8年增长倍数为8。因此将基期中三个核心指标的权重比例设置为:25%:35%:40%。第8期的权重比例将变化为:15%:15%:70%。表征开发协作的比重大幅提升,这也与开源项目的生命源动力来自于更广泛的社区开发协作保持一致性。热力值计算详见:https:/ Issue)-参与开发协作(提交 PR 和 Review、活跃 Contributor 等)。因此,热力值由该规律中的3个关键指标加权而来。项目关注:每年新增 Star 数量,来自于 GitHub 公开数据社区反馈:每年新增 Issue 数量,来自于 GitHub 与 Ji
5、ra 公开数据开发协作:每年 OpenRank 值,OpenRank 由 GitHub 公开数据(Open PR,Review Comment,Merge PR)计算所得,算法来自X-Lab开放实验室#说明:因开源大数据项目中有超过40%的项目,使用Jira进行Issue提交和反馈,因此将 X-Lab 原有的 OpenRank 算法进行了修正,将Issue剔除出来,不参与 OpenRank 计算。而将 GitHub 与 Jira 公开数据中的Issue 数单独列出作为社区反馈维度进行计算。2015年所有项目原始值归一化系数归一化后的值归一化后的权重平均新增Star数772.480.032525
6、%平均新增Issue数1137.800.033535%平均OpenRank值14.372.784040%热力值100100%热力值研究模型每隔40个月,热力值提升1倍我们按照数据处理的生命周期,对开源大数据项目进行了技术分类,包括数据集成、数据存储、批处理、流处理、数据查询与分析、数据可视化、数据调度与编排、数据开发与管理8个类别。2022年开源大数据总热力值,增长到2015年的4倍。每隔40个月,热力值提升1倍。热力变迁反映技术趋势 开发者对数据查询与分析保持了长期的开发热情,连续8年位于热力值榜首。2017年流处理热力值超过批处理,大数据处理进入实时阶段。数据规模越来越大,数据结构更多样化