《代码大模型对于工程理解的探索研究-汪晟杰.pdf》由会员分享,可在线阅读,更多相关《代码大模型对于工程理解的探索研究-汪晟杰.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、代码大模型对于工程理解的探索研究腾讯云 产品专家/汪晟杰 代码大模型的内核 IDE的新体验 下一代编码变革 提示词的3S原则01 编码过程的辅助 根据 survey.stackoverflow.co 统计根据 内部问卷反馈编写代码 82.55%正在或计划使用 70%代码学习者可能性更高代码测试 75.81%代码纠查 77.99%提升开发效率 48%工具智能化 24%AI新技术探索 16%经验复用 12%AI 及新技术探索诉求日益强烈及新技术探索诉求日益强烈代码本质的几大特征代码本质的几大特征秩序性010102020303逻辑性上下文感知性代码大模型本质要解决Token/算力成本01010202
2、0303语料/意图理解质量/自动化评测代码大模型的产品赛道可见的价值数据安全=好010102020303IDE+编码效能=快对话+工程理解=准【应用形态】打造流畅高效的编程体验【模型】探索适合代码场景的行业模型q LLaMa系的模型 token window size 有限(2048),涉及到代码理解/生成这类 prompt/output 任务,易因超出token长度限制或由于上下文信息不全导致任务中断q LLaMa 是综合模型,预训练阶段私用代码知识库仅占 6.5%,工程知识量存在天花板q LLaMa系模型 humanEval 和 MBPP 测试结果低于专用代码生成模型【企业需求】符合国内行
3、业客户诉求SMAF多模能力数据看板丰富场景代码安全Securityq 保证基础模型里用于训练的代码是安全的MaaS Analysis Fullq 保障补全出来的代码是安全的q 各部门的业务特性不同,可能需要多个性化行业模型q 根据不同业务特性,进行二次训练,补全模型q 如何保障二次训练以及行业代码的训练效果q 有哪些效能指标,可以帮助管理者观察工具对开发工作的提升q 代码补全是高频场景,优先度最高q AI 编码辅助之外,代码扫描、评审、以及DevOps上下游规划q 针对专业开发者,提升工作效率和质量,对AI辅助生成的代码存在批判性思维 q 针对代码学习钻研用户,专注代码本身,创建小的、即时使用
4、的任务型应用程序 q 具备高粘度的编程体验,及时补全将调用的函数、方法等辅助性编码实践下文 q 响应速度更快、成本更低,基于更小的模型?智能编码下衍生的智能编码下衍生的SMAF诉求诉求全链路 N+1+1 成本与体验的拉扯代码补全技术对话单元测试代码诊断训练推理管理平台模型工厂数据运营4+1+1代码生成率代码采纳率对话采纳率测试生成率耗时情况QPS全链路遥测基于混元进行大模型指令对齐和强化学习进行行业模型的训练和推理优化,提升产品响应速度与交互体验反馈真实场景下的bad base,挖掘行业场景价值体体验验成成本本用相对较低的推理成本,batch 计算,小于300ms的延迟预训练更小的代码模型SF
5、T 微调IDE+AI 打造原生效果的打造原生效果的AI辅助的辅助的IDE形态形态VSCode 实验性原生交互接口实验性原生交互接口探索如何将 AI 更深入地集成到 VS Code 中,并提出了许多很酷的想法,例如改进的重命名和重构、基于示例的代码转换以及使用创建文件 glob 模式或正则表达式的方法自然语言。-摘自 vscode 的blogchat:可能是关于聊天功能的 API 提案。inlineCompletionsAdditions:可能是关于内联补全添加的 API 提案。interactive:可能是关于交互功能的 API 提案。documentPaste:可能是关于文档粘贴的 API
6、提案。interactiveUserActions:可能是关于交互用户行为的 API 提案。chatProvider:可能是关于聊天提供者的 API 提案。codeActionAI:可能是关于代码行为 AI 的 API 提案。findTextInFiles:可能是关于在文件中查找文本的 API 提案。textSearchProvider:可能是关于文本搜索提供者的 API 提案。terminalDataWriteEvent:可能是关于终端数据写入事件的 API 提案。terminalExecuteCommandEvent:可能是关于终端执行命令事件的 API 提案。terminalSelect