当前位置:首页 > 报告详情

InfoQ:2022年开源大数据热力报告(12页).pdf

上传人: 匆*** 编号:105660 2022-11-09 12页 4.90MB

1、开源大数据热力报告2022热力“摩尔定律”和热力图谱热力趋势:多元化、一体化、云原生研究目标和研究模型热力值TOP30和热力跃迁逻辑研究致谢报告目录研究目标Hadoop 作为开源大数据技术的起源,兴起于2006年。我们收集从Hadoop 发展第10年,即2015年至今的相关公开数据进行关联分析,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。使用热力值进行定量分析开源项目热力值,使用量化指标,刻画开源项目的开发迭代活跃度和受开发者欢迎程度。具体来讲,主要来自于几个方面:(1)开发者对开源项目的关注度,以及应用场景的广度和深度(2)开发者参与项目开发的贡献活跃度

2、(3)开发者在开发过程中展现出的协作关联度(4)项目和社区的可持续发展的健康度这些和大数据技术发展趋势、开源项目的技术吸引力、开源社区治理水平以及项目传播力强相关。本报告所呈现的开源大数据热力从全景、技术栈分类以及单项目角度对入围项目的热力表现进行可视化的多维度洞察,并将项目进程中的关键事件与热力表现进行关联分析,并引入开源基金会、知名开源项目等领域专家进行访谈,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。数据来源采集时间为2022年10月1日。通过 GitHub log 获取2015年1月至2022年9月的公开数据(包括项目Id、Star、Issue、Open

3、 PR,Review Comment,Merge PR等)。通过Jira api 获取2015年1月至2022年9月的公开数据(包括项目Id、Issue数量)。如何定量分析“后Hadoop时代”开源项目和技术趋势热力值计算公式把2015年作为基期,2015年所有开源项目平均热力值作为基数,赋值为100。将三个关键指标做归一化处理,赋予对应权重比例,并由此确立了三个关键指标的归一化系数。详见下表:某项目某年热力值=年度新增 Star 原始值*归一化系数+年度新增 Issue 原始值*归一化系数+年度 OpenRank 原始值*归一化系数#说明:所有大数据项目数据合计来看,新增 Star 数8年增

4、长倍数为3,Issue 数8年增长倍数为1.8,OpenRank 值8年增长倍数为8。因此将基期中三个核心指标的权重比例设置为:25%:35%:40%。第8期的权重比例将变化为:15%:15%:70%。表征开发协作的比重大幅提升,这也与开源项目的生命源动力来自于更广泛的社区开发协作保持一致性。热力值计算详见:https:/ Issue)-参与开发协作(提交 PR 和 Review、活跃 Contributor 等)。因此,热力值由该规律中的3个关键指标加权而来。项目关注:每年新增 Star 数量,来自于 GitHub 公开数据社区反馈:每年新增 Issue 数量,来自于 GitHub 与 Ji

5、ra 公开数据开发协作:每年 OpenRank 值,OpenRank 由 GitHub 公开数据(Open PR,Review Comment,Merge PR)计算所得,算法来自X-Lab开放实验室#说明:因开源大数据项目中有超过40%的项目,使用Jira进行Issue提交和反馈,因此将 X-Lab 原有的 OpenRank 算法进行了修正,将Issue剔除出来,不参与 OpenRank 计算。而将 GitHub 与 Jira 公开数据中的Issue 数单独列出作为社区反馈维度进行计算。2015年所有项目原始值归一化系数归一化后的值归一化后的权重平均新增Star数772.480.032525

6、%平均新增Issue数1137.800.033535%平均OpenRank值14.372.784040%热力值100100%热力值研究模型每隔40个月,热力值提升1倍我们按照数据处理的生命周期,对开源大数据项目进行了技术分类,包括数据集成、数据存储、批处理、流处理、数据查询与分析、数据可视化、数据调度与编排、数据开发与管理8个类别。2022年开源大数据总热力值,增长到2015年的4倍。每隔40个月,热力值提升1倍。热力变迁反映技术趋势 开发者对数据查询与分析保持了长期的开发热情,连续8年位于热力值榜首。2017年流处理热力值超过批处理,大数据处理进入实时阶段。数据规模越来越大,数据结构更多样化

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要内容概括如下: 1. 研究目标:分析开源大数据技术发展趋势,以及开源社区的运作模式对技术走向的助推作用。 2. 热力值计算:使用量化指标,刻画开源项目的开发迭代活跃度和受开发者欢迎程度,包括项目关注度、社区反馈、开发协作等。 3. 热力变迁:从2015年开始,开源大数据技术从Hadoop体系转变为多元化技术并行发展,形成六大热点技术领域。 4. 一体化演进:从计算一体化到存储一体化,再到云原生技术重构,开源大数据技术不断演进。 5. 云原生大规模重构:2015年后出现的新项目,无一例外地在云原生方向进行了积极的技术布局,重构开源技术栈。 6. 项目热力跃迁逻辑:解决用户痛点是核心竞争力,持续关注开发者体验,接受本地开发者的文化和沟通习惯。 7. 商业化与开源社区:开源与商业化可以并存,但需要平衡发展,避免商业化对开源社区的影响。
开源大数据技术发展趋势如何? 开源项目如何提升影响力? 云原生如何重构开源技术栈?
客服
商务合作
小程序
服务号
折叠