当前位置:首页 > 报告详情

SuperCLUE:中文大模型基准测评2025年9月报告(25页).pdf

上传人: 芦苇 编号:936284 2025-10-17 25页 17.31MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据《中文大模型基准测评2025年9月报告》,以下是全文关键点概括: 1. **模型性能**:海外模型在通用能力测评中占据榜单前六,其中GPT-5(high)以69.37分领先。国内模型DeepSeek-V3.2-Exp-Thinking和Doubao-Seed-1.6-thinking-250715分别以62.62分和60.96分并列国内第一。 2. **性价比**:国内模型API价格平均为3.88元/百万Tokens,远低于海外模型的20.46元/百万Tokens。 3. **推理效率**:海外推理模型平均每题耗时41.60秒,远低于国内模型的101.07秒。 4. **开源模型**:国内开源模型在榜单中表现优异,DeepSeek-V3.2-Exp-Thinking以62.62分夺得开源榜首。 5. **任务表现**:在智能体Agent任务上,国内外头部大模型整体表现相当,但在不同场景中存在差异。 6. **代码生成**:国内模型在代码生成任务上表现优异,但与海外顶尖模型仍有差距。 7. **精确指令遵循**:海外头部大模型在精确指令遵循任务上表现优于国内模型。 8. **幻觉控制**:海外模型在幻觉控制领域占据领先地位,Claude-Opus-4.1-Reasoning以85.24分夺得榜首。
"海外模型API价格几何?" "国内模型性价比如何?" "SuperCLUE测评结果如何?"
客服
商务合作
小程序
服务号
折叠