当前位置:首页 > 报告详情

SuperCLUE:中文大模型基准测评2025年5月报告(39页).pdf

上传人: 云朵 编号:713038 2025-06-13 39页 13.20MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告内容,主要概括如下: 1. 2025年上半年,国内外大模型技术快速发展,国内模型在多模态、推理等领域取得突破,与国外顶尖模型差距缩小。 2. 5月SuperCLUE通用能力测评中,o4-mini(high)以70.51分位居第一,在代码生成、指令遵循等方面表现突出。国内模型Doubao-1.5-thinking-pro-20541在文本理解与创作上得分81.04分,领先其他模型。 3. 国内推理模型表现亮眼,NebulaCoder-V6、Doubao-1.5-thinking-pro-20541等在数学推理、科学推理、代码生成上取得高分。但国内模型在指令遵循方面普遍低于海外模型。 4. 小模型表现超出预期,Qwen3系列在10B级别小模型榜单中领先,展现极高性价比。 5. 测评显示,国内大模型在文本理解与创作方面成熟度较高,在代码生成、智能体方面还需提升,在数学推理、科学推理等方面成熟度较低。 6. SuperCLUE测评结果与人类评估高度一致,具备较高的可信度。
"中文大模型哪家强?" "小模型也能大作为?" "AI智能体如何影响未来?"
客服
商务合作
小程序
服务号
折叠