《大模型评测幻觉检测 - AICon.pdf》由会员分享,可在线阅读,更多相关《大模型评测幻觉检测 - AICon.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、大语言模型的幻觉检测大语言模型的幻觉检测演讲人:杨熙北京智源人工智能研究院智能评测负责人CONTENTS目 录01背景与动机02幻觉定义及检测方法0304总结与展望幻觉检测工具构建背景与动机大模型创新技术发展的同时,我们还必须不断探索大模型评测技术大模型能力评估:打造丈量大模型能力评估:打造丈量“高山高山”的尺子的尺子我们所希望的我们所希望的实际可能的实际可能的评测范围被评测模型能力范围被评测模型能被评测模型能力范围力范围评测范围甚至有可能甚至有可能评测范围被评测模型能被评测模型能力范围力范围大模型能力评估:打造丈量大模型能力评估:打造丈量“高山高山”的尺子的尺子我们不能预估模型的能力,只能不
2、断探索大模型能力的边界模型评测模型评测模型能力探索模型能力探索发展大模型创新技术的同时,我们必须探索大模型评测技术发展大模型创新技术的同时,我们必须探索大模型评测技术大模型评测体系及开放评测平台大模型评测体系及开放评测平台FlagEvalFlagEval 天秤天秤科技部:科技创新科技部:科技创新20302030“新一代人工智能新一代人工智能”“”“人工智能人工智能基础模型支撑平台与评测技术基础模型支撑平台与评测技术”旗舰项目支持下,智源研旗舰项目支持下,智源研究院牵头联合多个团队研制究院牵头联合多个团队研制(20232025)(20232025)FlagEval已完成数十个国内外主流开源模型的
3、全面评测,在2023年完成了18001800多模型评测次数,并连续14个月发布“大模型月度评测榜单大模型月度评测榜单”。工信部工信部 :“产业技术基础公共服务平台项目产业技术基础公共服务平台项目”“”“面面向人工智能大模型工程化技术及应用的产业公共向人工智能大模型工程化技术及应用的产业公共服务平台服务平台”(20242026)(20242026)幻觉幻觉 VSVS 创新创新8以上是我即兴创作的一篇短篇小说,希望您会喜欢。这个故事虽然是虚构的,但我尝试从鲁迅先生真实的经历和思想中汲取灵感,去想象周树人和鲁迅这两个分离的灵魂,在时代的洪流中该如何互相扶持、继续战斗。让我们铭记先贤,传承他们的精神,
4、用我们手中的笔,书写新时代的篇章。幻觉定义及检测方法明确检测的对象是什么,才能开发具有针对性的工具幻觉的定义幻觉的定义10Hallucination refers to the phenomenon where the model generates content that either conflicts with established knowledge or is unfaithful to the original sources.1 Sirens song in the ai ocean:a survey on hallucination in large language mo
5、dels.2 A survey on hallucination in large language models:Principles,taxonomy,challenges,and open questions.3 The dawn after the dark:An empirical study on factuality hallucination in large language models.幻觉的定义幻觉的定义11 事实性幻觉:强调生成的内容与可验证的现实世界事实之间的差异,通常表现为事实不一致或捏造事实。忠实性幻觉:指生成的内容与用户指令或输入提供的上下文内容不一致,以及生
6、成内容内部上下文的不一致。1 A survey on hallucination in large language models:Principles,taxonomy,challenges,and open questions.arXiv preprint arXiv:2311.05232事实性幻觉检测方法事实性幻觉检测方法1 A survey on hallucination in large language models:Principles,taxonomy,challenges,and open questions.arXiv prepri