《百度安全:2025大模型驱动的研发新范式报告(32页).pdf》由会员分享,可在线阅读,更多相关《百度安全:2025大模型驱动的研发新范式报告(32页).pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、李杨百度资深研发工程师个人简介百度资深研发工程师,文心快码(Baidu Comate)业务落地负责人,云端开发平台(iCoding)的技术负责人。百度一级专利发明人,名下国内外发明专利10余个,已获授权国家重点研发计划基于人机结对编程与协同进化的智能敏捷开发云平台技术骨干百度工程效能部李杨目录01AI编码助手的行业发展02新一代编码工具能力及实现03领域案例及应用场景04人机协同新范式AI编码助手的行业发展 从低谷到狂热推出Copilot,免费公测Copilot正式收费,推出企业版ChatGPT正式发布,AI编码助成为业关注焦点快码内部项,启动模型训练Copilot歌猛进,与OpenAI各类模
2、型深度整合SourceGraph推出Cody,主打本地知识增强Cursor展露头,构建AI原IDECodeium推出,率先持私有化、VPC多种部署模型Cosine推出,主打代码库知识增强AutoGPT、GPT-Engineer、MetaGPT等开源项陆续推出Augment推出,主打体积代码知识增强Tabnine推出,主打代码补全文心快码百度内全面落地,文心快码百度内全面落地,20232023年年1010月月2424日正式对外发布。日正式对外发布。文心快码文心快码3.03.0在在20242024年年1111月月1212日正式发布,全系标配智能体。日正式发布,全系标配智能体。iFlyCode通义灵
3、码Replit AgentCodeGeeX代码浣熊MarsCode腾讯云AI助DevinCodeFuseBolt.newJetBrains AI国外“卷”国内“卷”智能体新赛道百度 AI代码生成占比33%Google AI代码生成占比25%亚马逊 编码速度提高57%AI助力研发提效初显技术突破:Scaling Laws是通往AGI的银弹参数规模决定模型下限,千亿参数的GPT 3.5模型是“奇点”,带来质变训练数据质量和规模决定模型上限,代码数据相对于任何自然语言都是质量最高的“文本”,有极强的规律可循因此,大模型首先在“编程”领域发起了变革产品突破:GitHub找到了一种绝佳的交互方式在IDE
4、中通过幽灵字符向开发者展示预测结果,使用Tab采纳,N秒后自动消失未改变任何开发流程,极其丝滑的将AI能力嵌入到开发者的习惯文心快码训练数据提取方式,极其规范化的高质量数据数据源预处理数据清洗数据标注Github私域代码官方文档文件大小过滤哈希分片相似代码去重行列字符数、圈复杂度安全敏感词、密码密钥等过滤知识点分类代码格式化人工精标策略代码格式化启动信息构建信息配置信息依赖框架API定义实体关系核心逻辑高频业务关键词语言分布README全部基于各语言专家整理的规则池+语法树AI编码助手的行业发展 技术发展的必然SVNJenkinsiCafeiCodeiPipe时期业务复杂度DOS/PCPC(G
5、UI)/客户端-服务器Web/互联网移动/云AI/边缘/量子iCafeiCodeiPipeiScaniCoviTestiCafeiCodeiPipeiScaniCoviTest工程能力底图价值流、健康度iCafeiCodeiPipeiScaniCoviTest工程能力底图价值流、健康度一站式、云原生 1w+工程师,1k+业务团队,10w+代码库 85%的需求一周交付,50%的研发资源云化 80%的应用从开发到上线全流程在线 每天1w次代码提交 每月1kw次流水线自动化任务流程支撑工具支撑聚焦流程+协作忽视了个人效率的提升企业提效的必然(以百度研效工具发展轨迹为例)智能研发助手=代码自动补全(C
6、ompletions)+理解私域知识(RAG)+独立分析需求(Agent)流程是是实践后的经验、教训等总结,一定是滞后的 如,针对Prompt、数据集等在工程团队如何管理,目前没有明确的范式 面对花样繁多的项目管理流程,多数开发者更想聚焦于研发 过度在团队内推广研发流程,反而引起开发者的抗拒心理,大幅降低开发者的幸福感核心原因在于整个提效的设计不是站在开发者个人,而是站在组织上Github Copilot+ChatGPT的诞生,吹响了开发者个人提效的号角,几乎一夜之间所有组织都开始关注大模型催生了开发者个人提效的银弹开发者的iPhone时刻企业提效的必然单兵作战文心快码-构建人机协同新范式n文