《A4--黄立华--大模型机器问答产品质量保障模型评测实践.pdf》由会员分享,可在线阅读,更多相关《A4--黄立华--大模型机器问答产品质量保障模型评测实践.pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、大模型机器问答产品质量保障模型评测实践Michael Ling、黄立华、刘薇GTS 测试专家黄立华公司名称 CS TSE GTS测试专家AMS 测试专家,测试TSE,负责GTS的智能化测试规划、演进、技术突破,长期从事大模型辅助测试实践和大模型产品测试,目前主要负责大模型产品质量保障测试,构建了大模型测试系统,主要聚焦大模型的测试集构建、测试集设计充分性评估、测试执行、性能基线测试、性能模高测试、性能风暴测试、性能长稳测试、性能AI FUZZ测试测试工作。在大模型辅助使能测试方面,主要进行大模型辅助测试设计数据清洗、prompt构建和调优,大模型辅助测试设计和大模型辅助代码生成方面工作,Bad
2、usecase分析和改进。目录C O N T E N T S1.大模型测试背景和痛点介绍2.领域大模型测试平台3.测试策略制定关键能力4.测试集构建和测试集设计充分性评估5.测试评估裁判大模型评测关键能力6.大模型性能测试技术8.效果与收益大模型测试背景和痛点介绍01大模型测试背景和痛点看业界C-Eval测评集涵盖了52个不同学科的13948个多项选择题,由上海交通大学,清华大学,爱丁堡大学共同完成该测评方案.Safety-Prompts是清华大学CoAI课题组推出的一个用于评测中文大模型安全性的基准平台。测试数据集通过集成+人工+GPT辅助生成。AGIEval是微软研究团队推出的一个以人为本
3、(Human-Centric)的基准测试,主要来源人类高质量的考试题 测试痛点:1.业界都是基于通用大模型测试集使用,没有告诉测试集如何构建出来和如何评估测试集充分性 2.领域测试大模型如何进行进行评测和设计测试集大模型测试背景和痛点看测试自己测试周期不足,算法和功能测试无法满足版本发布周期11天要求(传统测试没有算法测试,在周期内有算法测试,整体测试周期无法满足项目要求);测试集如何快速构建和评估充分性测试集执行人工标注效率慢,无法满足版本发布要求;对于大模型的性能、安全测试不清楚如何测试。领域大模型测试平台02整体解决方案业务流程前端使用用户(业务、测试、一线客户)登录AI大模型测试工具平
4、台专家设计测试集场景库用户选择项目和测试集场景库用户选择泛化技术场景生成异常场景测试集专家规则资产生成正常原始测试集用于基于目的自定义选择测试集(安全、性能、准确率)用户日志流量聚类总结Badusecase总结语料段章节知识总结准确率测试集执行性能测试集执行安全测试集执行裁判大模型自动化判定人工按抽取比例进行标注修正版本间对比出测试报告+专家规则自动提单性能基线、摸高、风暴、长稳性能测试版本间对比出测试报告+AI算法挖掘隐患自动提单专家规则挖掘安全问题新大模型产品测试开发工程师(新产品适配)登录管理面界面创建新产品测试集表自定义字段创建项目配置新产品大模型产品集成接口和环境信息整体解决方案系统
5、架构关键技术:1、基于平均皮尔逊距离算法AI技术:实现频繁序列挖掘,识别高频用户问和用户行为事件聚类,生成测试集场景。2、基于大模型进行测试集泛化技术。3、基于时间系列预测算法+KS-Test算法实现性能测试集构建和性能AI FUZZ压测。4、裁判大模型自动化标注判定 5、用户数据飞轮测试集构建和测试集评估充分性方法。6、大模型问题挖掘资产(准确率问题、语料问题、性能问题、安全问题)。大模型测试工具系统架构统一数据服务统一数据采集大模型算法服务日志脱敏SQL调用链追踪服务和用户测试结果评估裁判大模型自动标注底座测试集生成服务安全、性能、准确率测试集生成大模型泛化AIGC服务泛化管理MySQLS
6、pringBoot(MVC框架)英文裁判大模型中文裁判大模型环境SQL数据脱敏采集现网流量日志采集日志按用户归类大模型KPI指标采集日志预处理和用户事件丰富大模型测试集鲁棒性泛化裁判大模型测试结果自动标注评判传统AI算法服务基于平均皮尔逊距离算法莱温斯坦距离算法用户聚类生成测试集大模型算法问题挖掘资产测试集自动化执行顺序执行随机执行性能基线、摸高、风暴、长稳、FUZZ执行Prompt管理badusecase生成测试集时间系列预测算法自定义编排执行人工抽测标注大模型语料问题挖掘资产大模型性能问题挖掘资产白盒BUG规则处理Ks-test算法生产流量测试集安全测试执行大模型安全问题挖掘资产大模型评测