当前位置:首页 > 报告详情

A4--黄立华--大模型机器问答产品质量保障模型评测实践.pdf

上传人: 张** 编号:181241 2024-10-01 45页 7.31MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了大模型机器问答产品质量保障模型的评测实践。主要内容包括: 1. 大模型测试背景和痛点:业界通用大模型测试集使用,没有告诉测试集如何构建出来和如何评估测试集充分性。 2. 领域大模型测试平台:整体解决方案包括业务流程、系统架构和关键技术。 3. 测试策略制定关键能力:滚动测试策略,模型和应用分开测试,缩短测试周期和给出最佳算法模型发布生产。 4. 测试集构建和测试集设计充分性评估:基于知识来源正向构建,基于提问范式资产设计测试集,基于运营数据飞轮生成测试集,基于大模型泛化扩展。 5. 测试评估裁判大模型评测关键能力:主观评价维度分数,答案生成正确性,准确率。 6. 大模型性能测试技术:性能测试集挑选,性能摸高测试,性能风暴测试,性能长稳测试。 7. 大模型与应用结合:传统AI慢SQL分析自主提单,白盒扫描代码静态调用链。 8. 效果与收益:低成本适配新产品实现能力共享,测试周期缩短,测试集总量100万,裁判大模型自动化判定实现快速的结果评估,性能测试实现全量自动化测试和回归。
大模型测试如何快速构建测试集? 裁判大模型如何实现自动化判定? 大模型性能测试有哪些关键指标?
客服
商务合作
小程序
服务号
折叠