当前位置:首页 > 报告详情

刘伟-aidd2023北京站演讲-大语言模型评价的挑战和实践.pdf

上传人: 2*** 编号:142167 2023-09-10 37页 4.29MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大语言模型评价的挑战及方法。文章指出,模型评价的目标是选出泛化能力强的模型,以完成机器学习任务。评价方法包括人工评价和自动评价,原则是公平性、可重复性和低代价。然而,现有的大语言模型评价存在诸多挑战,如模型通用能力强、Prompt敏感、动态演化等。同时,评估侧也存在问题,如多数情况没有标准答案、普通标注人员能力不足等。文章提出了关注的能力边界、Case边界、指令形式和自动化量化等问题,并介绍了C-Eval、CMMLU等评测数据集。最后,文章提到了小米AI实验室的研究成果,以及大语言模型在考试试题验证和中文知识推理评估方面的应用。
"大语言模型挑战有哪些?" "如何评价大语言模型的性能?" "大语言模型在实际应用中如何表现?"
客服
商务合作
小程序
服务号
折叠