当前位置:首页 > 报告详情

A1--李亮--LLM-端侧应用的评测方法及其实践.pdf

上传人: 张** 编号:181293 2024-08-01 34页 2.77MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大型语言模型(LLM)在端侧应用的评测方法及实践。LLM具有强大的泛化能力,但评测体系难以全面建立,评测结果缺少可解释性,且评测数据存在污染现象。因此,需要进行LLM的基础评测,了解其能力边界,建立可信的自有评测体系,探索其缺陷及在应用中的风险,以及评估基模型训练效果和模型选型。OPPO自建了LLM评测体系,设计了三种类型的对话、三种题型和三种评分方法,并采用了成对比较的评测方法。同时,文章还提到了LLM端侧应用效果评测实践,包括功能测试、性能测试、稳定性测试、安全测试和兼容性测试等。未来研究方向包括共性点提取+评估标准建设、自动化评测方法探索和多模态大模型评测体系建设。
"LLM评测挑战有哪些?" "如何提高LLM的评测效率?" "LLM在端侧应用中的评测实践有哪些?"
客服
商务合作
小程序
服务号
折叠