《4-教育领域大模型解决方案及评测实践-0724-文皓.pdf》由会员分享,可在线阅读,更多相关《4-教育领域大模型解决方案及评测实践-0724-文皓.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、教育领域大模型解决方案及评测实践文皓科大讯飞高级AI测试工程师、核心研发平台认知测试总监目录01CONTENTS0203为什么建设教育大模型评测体系批改场景任务测评经验介绍04未来的规划以测试视角看整体测试方案国际大模型产业竞争目前呈现“激烈迅猛”之势2023.3.142023.3.222023.5.142023.5.102022.11.302023.5.222023.5.252023.7.192023.7.112023.9.252023.11.72024.2.162023.12.72024.3.5ChatGPT发布,上线2个月活跃用户过亿OpenAIOpenAI发布GPT-4,综合能力远超C
2、hatGPT发布Microsoft 365 Copilot,GPT-4全面接入OfficeMicrosoftGoogle推出语言大模型PaLM2及新版BardMicrosoft 布Copilot,将自然语言交流功能融入到 Windows 11推出Claude-100k 版本,强化认知能力AnthropicMeta重磅发布LIMA 65B,性能飞升MetaAnthropic 7月11日推出全新的Claude2大语言模型OpenAI GPT-4V灰度开放,支持语音、图片输入Google 发布Gemini 1.0,多模态能力,MMLU测试中超过人类专家Anthropic 发布Claude 3支持20
3、0k上下文7月19日发布免费商用开源模型LIama Meta发布GPT-4 Turbo,支持128k上下文,推出应用商店GPTsOpenAI发布文生视频模型,效果显著超越业界现有水平OpenAI国际大模型竞争之势2023年下半年获批全民开放的大模型国内正在经历从“百模大战”转向“产品应用”据统计,2023年中国累计发布200余个大模型国内大模型竞争之势通用认知大模型领域逐步“百花齐放”,效果度量和评价成为重要关注点以高校为代表的学术答题评测在学术答题上有一定优势和特色以特定学科知识为主以企业为主体的行业评测能在相应领域反应一定的问题以特定行业任务为主以机构为主体的产业评测站在第三方视角有不同的
4、解读以各自评测体系为主内部使用提效情况从学科种类上,覆盖人类标准考试的选择题-工程科学(计算机、数理化等国内外考试)-社会科学(政治、经济、地理等)-人文科学(法学、语言、历史等)-其他科学(公务、GRE等其余国内外考试)内部使用提效情况覆盖医学、法学、心理、教育四个行业部使用提效情况工业互联网领域的八个行业麻省理工科技评论发布大模型评测报告IDC发布AI大模型技术能力评估报告新华社研究院推出大模型评测2.0版本SuperCLUE发布中文通用大模型综合性测评基准业界通用认知大模型的评测体系通用认知智能大模型测评体系综合行业内现有体系、测试任务和我们研制通用大模型过程的测试经验,进行归纳和提炼业
5、内主流评测体系通用认知大模型的评测体系教育大模型评测体系必要性能力评测过程主观性强需要有指导性的评测框架教育场景任务类型多但未围绕认知全面设计体系面向教育的生成式内容需要更高的价值观和安全性的评测要求面向教与学的主动引导性、回复权威风格、知识准确度有不同于通用大模型评测体系的要求公正、准确评估模型的应用性能,揭示当前模型的不足,激发研究及应用的创新已有了通用大模型测评体系为什么还需要教育领域测评体系?2023年年7月,月,2023世界人工智能世界人工智能大会智能教育主题论坛在上海召开,大会智能教育主题论坛在上海召开,论坛发布论坛发布教育通用人工智能大模型教育通用人工智能大模型标准体系研究报告标
6、准体系研究报告和和教育通用人教育通用人工智能大模型系列标准工智能大模型系列标准两项研究成两项研究成果果2 0 2 3 年年 5 月,华 东 师 范 大 学月,华 东 师 范 大 学EduNLP团队针对团队针对K12教育发布教育发布CALM-EDU评测框架评测框架覆盖多层级多任务的教育评测成为验证教育大模型能力的方法教育大模型评测框架教育应用场景和产品较多,不同产品形态和能力各有不同围绕基础能力+学科答题+教学场景功能+安全四大版块构建教育专有大模型评测体系评测指标内容安全生成式人工智能服务管理暂行办法抗指令安全6类维度教育内容安全教学资源安全规范安全 有害率=/100%H:标记为Harmful