1、边思康边思康(边边澄)、吕峰军(澄)、吕峰军(明城明城)蚂蚁开源观察一:观察一:AIAI“开源开源”目前是一个混沌态目前是一个混沌态开源的定义,其实不存在了,OSAID 的定义没有被共识“可复现”这件事变得很困难,数据孤岛很严重Note:pictures from internet,copyrights belong to their original author观察二观察二:AIAI 开源的开发者都是谁?开源的开发者都是谁?曾经以为他们跟之前的开发者很像 如今看到算法,产品,vibe coder,好多种Note:pictures from internet,copyrights belon
2、g to their original author蚂蚁集团在 AI 领域的开源实践起步较早,2017 年就与 Ray 分布式计算框架社区合作,构建 AI 底层开发基建。这几年,随着 AI 快速发展,我们在今年 3 月开源了自研的 MoE 模型,命名为 Ling,并通过 InclusionAI(https:/ AI 模型的普及和应用。首先首先,蚂蚁集团的蚂蚁集团的 AIAI 开源社区背景开源社区背景首先,这是蚂蚁首次做 AI 模型开源社区,以及加上很多意义上的首次。其次,我们的开发者又在哪里呢?在开发者变的情况下,如何考虑“体验”呢?开发者体验开发者体验背景背景 “短期看来是我们处在空白期短期
3、看来是我们处在空白期”治理社区平台多样化(需同时维护 GitHub 和 HuggingFace)交付物复杂(模型、代码、Paper、数据集等等)开发者体验开发者体验迷思一:他们在哪儿?迷思一:他们在哪儿?Note:pictures from internet,copyrights belong to their original author开发者体验开发者体验迷思二:怎样的体验才算好?迷思二:怎样的体验才算好?社区文档不完善,在 AI 项目中尤其是;开发工具链不成熟,行业迭代和更新都飞快,“小病小治,大病不治”。Note:pictures from internet,copyrights b
4、elong to their original author开发者体验迷思三开发者体验迷思三:怎么合作?:怎么合作?团队工程化能力和社区开发经验不足社区协作门槛高,“论文有很多,但是 patch 却很少”Note:pictures from internet,copyrights belong to their original author“技术的迭代和演进导致规则的更新和范式的变化”OSPOOSPO 视角的挑战视角的挑战技术发展新产品新商业模式新组织形态Note:pictures from internet,copyrights belong to their original autho
5、rOSPOOSPO 视角迷思一:社区治理机制不存在视角迷思一:社区治理机制不存在高贡献门槛,模型选择多,没有粘性、也形成不了壁垒知识产权和许可协议冲突训练优化和资源消耗巨大,一般人玩不转Note:pictures from internet,copyrights belong to their original authorOSPOOSPO 视角迷思二:技术工具链割裂视角迷思二:技术工具链割裂传统 CI 无法已经无法适用 AI 项目数据使用和确权、训练这块即便“开源”也还是“闭源”Note:pictures from internet,copyrights belong to their or
6、iginal authorOSPOOSPO 视角迷思三:视角迷思三:AIAI 开源成功案例稀缺开源成功案例稀缺一个什么样的模型/数据开源社区才是好社区?在社区里,怎样的动作才算是最佳实践?GitHub 数据使用场景多,模型平台可用数据场景少Note:pictures from internet,copyrights belong to their original author尝试一:提前启动开源治理工作尝试一:提前启动开源治理工作23 年更新了开源流程,以适用不断发展的各种形式的开源项目设立数据集开源流程,针对模型开源有专门的流程管控模型合规安全探索,