1、中文大模型基准测评中文大模型基准测评2022024 4年年上半年上半年报告报告 2024.07.09 2024年度中文大模型阶段性进展评估SuperCLUE团队精准量化AGI进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI,defining the roadmap for humanitys journey towards AGI.报告核心结论摘要国内外大模型差距进一步缩小:国内外大模型差距进一步缩小:国内外大模型差距进一步缩小:OpenAI最新模型GPT-4o依然是全球表现最好的模型,但国内大模型已将差距缩小至5%以内。国内
2、开源模型崛起:国内开源模型崛起:本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct,并且超过了众多国内外闭源模型。各任务表现:各任务表现:在文科、理科和Hard任务中,GPT-4o综合最佳,Claude-3.5在Hard任务表现突出,Qwen2-72B在文科任务表现优异。端侧小模型表现惊艳:端侧小模型表现惊艳:端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,极大提升了落地的可行性。3SuperCLUE模型象限SuperCLUE各维度任务来源:SuperCLUE,2024年7月9日来源:SuperCLUE,2024年7月9日目 录目 录 1.1
3、.国内大模型关键进展及国内大模型关键进展及趋势趋势2023-2024年大模型关键进展2024年值得关注的中文大模型全景图2023-2024年度国内外大模型技术发展趋势中文大模型基准SuperCLUE介绍SuperCLUE测评体系及数据集总榜、理科榜单、文科榜单、Hard榜单及模型象限开源榜单及端侧小模型榜单大模型对战胜率、成熟度指数评测与人类一致性分析 2.SuperCLUE2.SuperCLUE通用能力测通用能力测评评 4.SuperCLUE4.SuperCLUE专项与行业专项与行业基准基准测评测评 5.5.优秀模型优秀模型案例介绍案例介绍优秀模型案例介绍各行业、专项测评未来两个月基准发布计
4、划 3.SuperCLUE3.SuperCLUE多模态能力测评多模态能力测评AIGVBench视频生成测评SuperCLUE-Image文生图测评SuperCLUE-V多模态理解测评4第1部分 国内大模型关键进展及趋势国内大模型关键进展及趋势1.2023-2024大模型关键进展 2.中文大模型全景图 3.国内外大模型发展趋势5(关键进展)时间准备期准备期成长期成长期爆发爆发期期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅
5、速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开 源闭源大模型层出不穷,形成百模大战的竞争态势)。故事的起点:故事的起点:ChatGPTChatGPT发布发布国内迅速形成大模型共识国内迅速形成大模型共识百度发布文心一言1.0 2023-2024大模型关键进展2022.122023.022023.122024.042024.062023.06OpenAIOpenAI发布发布GPT-4GPT-4清华开源ChatGLM360发布360智脑科大讯飞发布星火阿里云发布通义千问MetaMeta开源开源Llama2Llama2百川智能开源BaichuanOpenAIOpen
6、AI发布发布GPT-4 TurboGPT-4 Turbo、多模态多模态GPT-4VGPT-4V百度升级文心一言4.0阿里云开源Qwen-7B华为发布盘古3.0字节跳动公测大模型产品豆包vivo发布BlueLM小米发布大模型MiLM西湖心辰发布西湖大模型零一万物开源Yi-34B科大讯飞升级星火3.0云从科技发布从容大模型OPPO发布AndesGPT商汤科技发布商量2.0GoogleGoogle发布发布 多模态大模型多模态大模型GeminiGemini腾讯发布混元助手SuperCLUE:AI大模型2023-2024年关键进展OpenAIOpenAI发布文生视频发布文生视频SoraSora百川智能发