1、研发领域大模型评测探索与实践分享范娜华为范娜华为 华为云测试专家华为云研发领域大模型、CodeArts Snap智能开发助手评测负责人,华为云研发大模型评测专家。西安电子科技大学电子工程学院智能信息处理研究所硕士,2012年入职华为,有10+年以上测试实战经验,在网络安全测试、电信领域大、小模型评测、研发领域大模型评测及大小模型评测工程化实践方面具有丰富的经验积累。参与中国信息通信研究院智能化软件工程技术和应用要求:智能测试能力、智能化开发落地指南 相关标准、指南拟定工作。目录C O N T E N T S1.研发大模型评测问题挑战2.华为研发大模型评测介绍3.研发大模型评测探索思考华为智能开
2、发助手:CodeArts Snap2022-72022-112023-7Pangu-Coder代码生成能力亿级/十亿级参数模型业界SOTA,多项重要指标国际领先智能开发助手首次亮相HC大会,开启邀测智能开发助手亮相HDC大会,现场演示端到端应用开发CodeArts SnapCodeArts SnapPangu-CoderCodeArts Snap信通院4+级评级,国内首批通过评估企业之一信通院4+级评级,国内首批通过评估且最高评级企业之一2023-62024-7华为智能开发助手:CodeArts Snap函数级-项目级生成采纳率提升HarmonyOS HarmonyOS 应用开发理解业务逻辑,
3、支持HarmonyOS ArkTS代码生成,UT生成、知识问答和代码转写代码生成基于业务逻辑,生成采纳率60%+,多轮对话提升代码准确度支持简单任务的代码大模型升级为复杂任务的研发大模型,多Agent自主协同代码检查编译构建测试流水线需求管理运维代码开发代码仓盘古研发大模型数据处理模型微调提示词工程检索增强问题分析AgentCode AgentCode Review AgentTest AgentFix Agent大模型精准调优多Agent协同系统CodeArts Snap 智能开发助手1300万经典技术文档760亿行精选代码10000+API技术文档8500万开源代码仓读代码写代码调代码测代
4、码查代码代码翻译代码转写代码解释代码调试单元测试用例生成代码质量检查代码修复推荐代码生成代码注释研发知识问答设计开发测试持续交付运维仓库级代码解释需求润色辅助分析API测试用例生成问题定位配置辅助智能运维智能检视摘要生成智能ChatOps助手单兵作战团队协同研发大模型评测问题挑战01百模大战开启模型蓬勃发展公司/机构大模型/产品名称最新迭代时间Open AIChatGPT/GPT-42023年3月GoogleLaMDA/PaLM/mT5/Gemini2023年12月DeepmindGopher/Chinchilla/Sparrow2023年12月AnthropicClaude2023年7月Me
5、taOPT-IML/BlenderBot-32023年8月AI21 LabsJurassic2023年3月NVIDIAMegatron-Turing NLG2023年10月百度Titan/Ernie Bot2023年3月智谱AIGLM/GLM-130B/ChatGLM-6B2023年3月华为PanGu2023年7月阿里M6/通义2023年4月商汤日日新2023年4月科大讯飞星火2023年5月模型飞速发展以OpenAI为例:百模大战开启.国内外大模型推出节奏加快OpenAI发布GPT-1模型,1.1亿参数2018年6月2018年11月OpenAI发布GPT-2模型,15亿参数2019年6月Ope
6、nAI发布GPT-3模型,1750亿参数2020年5月OpenAI推出GPT-3模型的beta版本2022年11月OpenAI发布基于GPT-3.5的全新对话式AI模型ChatGPT2022年12月ChatGPT第一次更新提升了总体性能2023年3月OpenAI震撼推出了大型多模态模型GPT-42023年11月OpenAI推出了GPT-4 Turbo GPT4.5发布2024年4月2024年5月OpenAI推出了GPT-4o产品发展模型能力日新月异智能协同智能生成智能问答模型能力逐日强大满足客户使用场景逐步丰富代码