文皓-教育大模型评测体系构建与场景化测试实践.pdf-三个皮匠报告

1、教育大模型评测体系构建与场景化测试实践文皓|科大讯飞文皓科大讯飞AI研究院教育质量部总监有10多年软件开发及测试经验，2017年加入讯飞研究院质量团队，负责AI算法测试，对于认知类技术产品的落地有较多经验;在讯飞星火大模型的攻关项目中，参与了星火大模型在教育、汽车、司法等多个业务场景的落地工作。目录CONTENTSI.背景与挑战II.教育大模型评测体系构建III.作文批改场景端到端测试实践IV.总结与展望背景与挑战PART 01人工智能四次浪潮1956年美国达特茅斯会议“人工智能”概念诞生2006第三次浪潮AI for Science形成热潮2000第二次AI冬天1990第二次黄金期Hopf

2、ield网络&BP算法第五代计算机兴起1970第一次黄金期Logic Theorist第一款人工智能软件Perceptron 第一款神经网络软件1980第一次AI冬天DNN在语音识别上的成功CNN在图像识别上的成功深度学习（Hinton 2006）第五代计算机失败，DARPA削减投入Transformer在自然语言处理获得成功Attention在机器翻译上获得成功GPT、Bert开启NLP的预训练新范式2022 ChatGPT智慧涌现2022第四次浪潮2016 AlphaGo下围棋胜过人类2019 SQuAD 2.0阅读理解超过人类人工智能(Artificial Intelligence)：能

3、够和人一样进行感知、认知、决策、执行的人工程序或系统通用人工智能的“曙光”语言理解、知识问答、逻辑推理、代码解释等48项任务海量多源多模态数据统一的深度神经网络大模型视频模态语音模态图像模态文本模态认知大模型成为通用人工智能的“曙光”GPT（Generative Pre-Trained Transformer）持续推动认知大模型的研发数据来源：https:/ GPT-3.5（中文超越，英文相当）V3.02024年6月27日底座能力全面对标GPT-4 Turbo（2024年4月版本）V4.02023年5月6日七大核心能力发布大模型评测体系发布V1.06月9日突破开放式问答多轮对话能力再升级数学能

4、力再升级V1.510月24日七大能力全面超过GPT-4 Turbo（2024年4月版本）4.0Turbo2025年1月15日首发星火深度推理模型X1首发星火语音同传大模型底座能力持续提升4.0Turbo升级深度推理大模型星火X1二次升级，在重点行业进一步扩大领先优势星火深度推理模型X1发布4.0Turbo通用任务效果显著提升整体效果对标OpenAI o1和DeepSeek R1星火X1二次升级2025年4月20日星火大模型效果最新进展长思维链深度思考结果对比Spark-X1-0420（70B Dense）OpenAI-o1(参数未知）DeepSeek-R1（671BMoE，激活37B）自建测试

5、集文本生成87.584.787.8语言理解86.985.687知识问答86.586.185.7逻辑推理81.279.681.8数学能力89.784.689.5代码能力80.781.281.4公开测试集MMLU-Pro82.783.184AIME-202573.379.570AIME-202476.774.479.8MATH-50097.796.497.3AGI-Eval90.585.490.2HumanEval-X91.390.491.5数据来源:测试集合来源：自建测试集主要来自真实的大模型请求任务数据，来源分布包括讯飞星火APP、星火大模型API、业界主流任务数据等；公开测试集主要以数学、答

6、题、推理、代码等外部典型测试集为主教育数字化建设聚焦人工智能在教育领域的应用示范和创新突破提升立德树人能力面向创新人才培养支撑科技自立自强抓住智能社会的历史机遇把握教育数字化发展形势要求2023年5月29日中央政治局集体学习习近平总书记强调：“教育数字化是我国开辟教育发展新赛道和塑造教育发展新优势的重要突破口。”党的二十大推进教育数字化，建设全民终身学习的学习型社会、学习型大国。24年6月20日，习近平总书记强调“人工智能是新一轮科技革命和产业变革的重要驱动力量，将对全球经济社会发展和人类文明进步产生深远影响”教育领域应用的市场分析数据来源：2024艾瑞咨询报告2020-2027年中国AI+教

文皓-教育大模型评测体系构建与场景化测试实践.pdf

相关报告