1、蚂蚁代码大模型的评测实践申敏 蚂蚁集团演讲嘉宾申敏 蚂蚁集团-测试开发专家蚂蚁集团测试开发专家,研究方向:大模型在代码领域的评测技术。长期投入蚂蚁支付、账务、计收费等业务领域质量保障工作,熟悉企业级编码风格及要求,当前,负责蚂蚁百灵大模型CodeFuse系列的代码能力评测。目 录CONTENTS1.前言2.代码大模型的评测内容3.代码大模型的评测方法4.代码大模型的评估基准5.代码大模型多任务评估6.展望前言PART 01前言:模型发展与模型评估2023年大模型呈爆发式增长,截至2023年7月,中国累计有130个大模型问世,国外大模型138个,其中,美国大模型114个。赛迪顾问IT2023模型
2、发布必然离不开模型评估;AIGC编程是模型落地最为广泛的场景之一,充分衡量方能更好的运用or选用。前言:CodeFuse 让研发变的更简单CodeFuse 是一款为国内开发者提供智能研发服务的产品,该产品是基于蚂蚁集团自研的基础大模型进行微调的代码大模型。CodeFuse 具备代码补全、添加注释、解释代码、生成单测,以及代码优化等功能,以帮助开发者更快、更轻松地编写代码。官网:https:/ 模型:旨在支持整个软件开发生命周期的大型代码语言模型(Code LLMs),涵盖设计、需求、编码、测试、部署、运维等关键阶段。https:/arxiv.org/abs/2311.02303https:/a
3、rxiv.org/abs/2310.06266 CodeFuse系列论文:业界开源评测集上的roadmap前言:大模型时代如何评估代码大模型通用 代码(垂类)跨项目编码等任务多样可信:多样:多维:代码能力、基础能力、安全能力等多维度多编码语言、编码规范、样本纯净、标准开放、客观中立伴随蚂蚁代码大模型的投产,我们发现代码领域打榜与实际投产存在一定的差异,基于此,我们探索并构建了适合企业项目的代码大模型的评测范式。代码大模型的评估内容PART 02代码大模型的评估内容基础能力编码领域无害确定安全生成理解使用认知能力发现衡量评估应用与改进通过评估内容客观衡量代码大模型的各项能力,发现其长处和短处,反
4、馈并协助模型做针对性的改进。代码大模型的评估内容生成类理解类功能正确语义语句产品体验内容安全内容类别代码大模型的评估方法PART 03代码大模型的评估方法客观评测主观评测基于评测基准对生成内容进行各维度量化评估组织多位专业人员通过人模交互观察模型表现 并根据基础标准、专家知识和经验综合评估按照是否由人来评估模型性能,评测方法分为主观和客观代码大模型的评估方法按照prompts设置方法评测又可分为:零样本(zero-shot)、小样本(few-shot)、零样本思维链(zero-shot-cot)、小样本思维链(few-shot-cot)代码生成能力目前大部分采用的策略是:零样本(zero-sh
5、ot)代码大模型评估基准PART 04评估基准有效未被污染的多样多维:多语言,多任务,多维衡量 采纳原则:模型评估基准是优化模型,了解差距,衡量不同架构模型的同类场景性能的最有效的工具。2018Concode(B LEU)CodeT5/Redcoder-ext(2+)单语言-JavaCoNaLA(BLEU)单语言-pythonTranX/Reranker/PanGu-Coder-FT-I(10+)2021APPS (passany)HumanEval(passk)MBPP (passk)单语言-PythonCodex-12B/CODE-T/GPT-4等(50+)20222023 Multi-H
6、umanEval(passk)HumanEval-X (passk)CodeContests(Test Set)10+语言Python/Java/Go/Ruby DS1000(TestCases-Score)CoderEval(passk,acck)ClassEval (passk,)CCEval (ES/EM?FQ,)CodeFuseEval (passk,ES,BLUE.)单语言 静态指标 单轮多语言 动态指标 单轮多语言 动静指标 单轮评估基准的演进人工构造众测标注模型