复旦大学:2023年大语言模型评测报告(69页).pdf

编号:608443 PDF 69页 8.36MB 下载积分:VIP专享
下载报告请您先登录!

复旦大学:2023年大语言模型评测报告(69页).pdf

1、1张奇复旦大学大语言模型评测2评测推动了NLP的进展,但是面临很多问题Dynabench:Rethinking Benchmarking in NLP阅读理解从评测集合公开到算法超越人类的时间越来越短这对NLP研究来说不是好事,而是巨大的问题!3大语言模型都有哪些种类?4大语言模型的不同阶段原始数据数千亿单词:图书、百科、网页等语言模型预训练基础模型预训练阶段数据集合算法模型资源需求1000+GPU月级别训练时间GPT 3.0、LLaMa、PaLM标注用户指令数十万用户指令和对应的答案语言模型预训练SFT 模型1-100GPU天级别训练时间MOSS、ChatGLM6b、Vicuna-13B等指

2、令微调标注对比对百万量级标注对比对二分类模型RM 模型1-100GPU天级别训练时间奖励函数用户指令十万量级用户指令强化学习方法RL 模型1-100GPU天级别训练时间ChatGPT、Claude强化学习5基础语言模型不具备指令理解能力SFT模型和RL模型可以完成多种任务、要能够服从人类指令不同种类的大模型评测应该有不同的方法6SFT和RL模型评测现状7现有大模型评测类型评测分类维度题目类型客观题主观题有标准答案无标准答案评测方式人工GPT4评测模型题目难度初高中本科以上题目范围通用领域HELM:Holistic Evaluation of Language Models(斯坦福,2022)提

3、出了语言模型的整体评估,以提高语言模型的透明度“场景、任务、指标”HELM应用场景分类:应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。评估指标分类:评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性(Calibration and uncertainty)、稳健性(Robustness)、公平性(Fairness)、偏见和刻板印象(Bias and stereotypes)、有毒性(Toxicity)以及效率(E

4、fficiency)。这些指标用于评估语言模型在不同应用场景下的性能。部分场景与评价指标crfm.stanford.edu/helm/v0.2.2/?HELM数据集与指标1.应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。2.评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性(Calibration and uncertainty)、稳健性(Robustness)、公平性(Fairness)、偏见和刻板印象(Bia

5、s and stereotypes)、有毒性(Toxicity)以及效率(Efficiency)。这些指标用于评估语言模型在不同应用场景下的性能。3.大规模评估方法:在42个场景下对30个语言模型进行大规模评估。评估方法是通过修改prompt并加入5个样例,将语言模型拓展到需要评估的任务上。这种评估方法可以有效评估和比较语言模型在不同应用场景下的性能,为进一步改进和优化提供参考。语言模型、问答、摘要三个任务的prompt设计比对HELM评价方式HELM得到了得到了25个结论个结论1.Instruction-tuning:优势在于模型参数量小的情况下取得突出结果。2.模型准确性与获取方式的关系:

6、开源模型相对较差,随着时间推移差距可能变大或变小。3.校准对模型准确性的影响:取决于场景和迁移方式,可能成正比或反比。4.鲁棒性和公平性对准确性的影响:在一些扰动下的最坏情况准确度,可能需要权衡。5.性能差距与人口统计层面的关系:不同人群可能存在性能差距。6.生成性损伤的固定偏差和毒性:在核心场景中平均很低,但仍对社会有危害。7.准确性与效率的关系:模型大小和准确度成正比,但训练和推理开销增大。8.问题回答中的生成结果差异:在不同问题回答场景中观察到明显差异。9.信息检索任务的模型表现:比较好但未达到SOTA水平。10.摘要任务中模型生成超越官方参考摘要:需改进摘要基准和评估指标。11.情感分

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(复旦大学:2023年大语言模型评测报告(69页).pdf)为本站 (AG) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠