当前位置:首页 > 报告详情

大模型评测幻觉检测 - AICon.pdf

上传人: 张** 编号:175726 2024-09-09 30页 6.42MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大语言模型的幻觉检测问题。北京智源人工智能研究院的杨熙介绍了幻觉的定义和检测方法,指出幻觉现象在大模型中普遍存在。他们开发的HalluDial数据集,包含146,856个样本,用于对话级幻觉评估。同时,他们还开发了HalluJudge模型,用于自动评估大语言模型的幻觉率。研究发现,GPT系列模型幻觉率较低,部分国内开源模型表现良好。此外,幻觉率与模型规模无明显相关性。杨熙强调,深入理解大模型的机理和问题,准确把握技术发展趋势,研究创新科学和先进的评测方法,是推动大模型评测国际标准的关键。
如何确保AI内容的真实性?" 大模型能力评估的挑战与解决方案" 如何利用评测工具检测和定位大模型幻觉?"
客服
商务合作
小程序
服务号
折叠