《大模型落地到代码助手场景的探索实践-汪晟杰.pdf》由会员分享,可在线阅读,更多相关《大模型落地到代码助手场景的探索实践-汪晟杰.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、大模型落地到代码场景的探索实践汪晟杰 腾讯云产品总监议题AI 时代下催生的新架构的机遇和挑战深度探索提示工程、代码模型和评测框架橄榄式的大模型软件开发架构的尝试N+1+1的大模型时代的软件设计策略实践方案和演示AI时代下应用机遇和模型危机新架构的机遇和挑战 AI大模型助力个体成为超级个体人人效率工具阻力:工具学习成本人人类独立创作通过学习工具来减少重复基于AI辅助创作+效率工具AI模型自然语言代码描述AI带来新一代的人机关系变革人工智能正从“工具”变成人类的“伙伴”,不断学习进化,提供更高级的定制服务,在代码领域,协助个体成为超级开发者软件工程+AI1.0:以瀑布模型为代表3.0:大模型时代2
2、.0:以敏捷、DevOps为代表结构化、规范化、工程化持续构建、持续集成、持续交付围绕数据、模型、提示需求分析设计开发测试运维1968年,NATO会议,软件工程学科诞生2001年,敏捷宣言发布2023年,大模型爆发式产生AI代码智能化、极简开发、极致体验研发过程+AI研发全流程+AI?AI编码的机遇根据根据 survey.stackoverflow.co 统计统计根据根据 腾讯内部问卷反馈腾讯内部问卷反馈编写代码 82.55%正在或计划使用 70%代码学习者可能性更高代码测试 75.81%代码纠查 77.99%提升开发效率 48%工具智能化 24%AI新技术探索 16%经验复用 12%48%1
3、6%24%12%产研产研团队团队研发的阶段图 沟通 编码排错评审调优代码解释生成注释代码纠错有针对性地给予对应的代码,并替换错误的代码区块代码查错定位问题并辅助生成建议辅助MR校对代码指令不用敲代码,指令操作页面修改代码AI评审A辅助指导当前文件、类、函数的作用,帮助加速理解代码逻辑。辅助一键自动生成提交信息可生成评审建议生成单元测试代码补全代码补全据当前代码类型、AST 树结构等相关信息,进行代码补全,生成高质量的代码代码沟通通过 Q&A 进行上下文推理给出回复模型危机与挑战全自研模型与国外GPT语料差异通用AGI大模型在特定场景的产品下并不具有优势训练、推理成本受限模型安全合规挑战模型可信
4、度挑战模型能力挑战模型评测及权威挑战更多模型安全合规模型透明度可信、可审计、可解释、负责任隐私保护用户敏感信息保护、责任分担、版权数据安全客户、业务、交易、内外部数据的整合、使用金融伦理数据伦理、算法伦理、主体伦理、行为伦理合规监管探索可安全部署的可行性LLM 的出现为工程团队带来了很多新思路,但是受限于 ChatGPT 的数据安全性问题以及可用性问题,越来越多团队开始转向使用自己部署和调优的本地模型LLaMA辅助代码生成模型应用基础研效模型Vicuna-13B Vicuna-7B代码理解单测生成代码重构技术咨询其他编程辅助任务wiki知识问答代码模型的想法然而随着我们对 LLaMa 使用的不
5、断深入,我们发现 LLaMa 在某些方面不能完全满足我们的需求LLaMa 系的模型 token window size 只有 2048,对于 general domain 的文本问答还能勉强够用,但是一旦涉及到代码理解、代码生成这类超大 token 的 prompt/output 任务,极易因超出 token 长度限制导致生成中断或者由于上文信息不全导致任务无法继续下去等LLaMa 是综合了文本问答、对话、逻辑推理和代码等能力的综合模型,其 pre-train 阶段使用的代码知识库仅占 6.5%。而模型所内化的世界知识体系就是在 pre-train 阶段形成的,这就注定了 LLaMa 的工程知
6、识存在 upper-boundFig.2 Vicuna-13b 无法正确回答“nest.js如何实现文件上传”Fig.3 LLaMa 模型Pre-train数据介绍AI时代下应用机遇和模型危机代码模型的更替面向代码模型的更替即使是参数规模最大的 LLaMa-65B 版本,其 HumanEval 分数也低于专用代码生成模型,与 Copilot 的初代版本所用的 code-cushman-001 模型差距更加明显(见下面 Tab.1)基于 The Stack 知识库训练出来的 StarCoder 相比 LLaMa 天然拥有更大的技术领域知识库更大的技术领域知识库,且 token window si