InfoQ：2023大语言模型综合评测报告-在线下载-三个皮匠报告

1、1大语言模型综合能力测评报告2023研究方法说明21桌面研究通过对行业公开信息进行桌面研究，资料包括但不限于专业机构学术论文、文章资料、论坛讨论、研究报告、相关厂商产品介绍、相关专家公开演讲内容等。2专家访谈InfoQ 研究中心针对本次研究定向邀请了国内外的相关专家进行访谈。3InfoQ 分析结合桌面研究和专家访谈进行观点沉淀和交流，并经由报告形式对外展示。大模型发展背景大模型产品特征和核心能力大模型产品测评结果和特征010203大模型产品未来发展展望043目录CONTENTS4大模型发展背景大语言模型发展经过三阶段在2023年进入爆发阶段微软基于ChatGPT发布New Bing Face

2、Book发布LLaMA-13B 谷歌发布Bard以应对ChatGPT 复旦团队发布MOSS OpenAI发布GPT-4并实现图像识别百度文心一言发布微软宣布将GPT-4接入Office全家桶通义千问、盘古NLP、天工3.5、星火等国产大模型陆续发布谷歌更新Bard并推出PaLM 2模型微软宣布Windows系统全方位集成Copilot2023 谷歌推出用于处理自然语言任务的 Transformer 神经网络架构20172018 OpenAI 发布 GPT-1 OpenAI发布GPT-2并部分开源谷歌推出BERT模型2019 百度推出可以准确理解语义的ERNINE2.02020 Op

3、enAI推出能实现文本生成图像的DALL-E模型 FaceBook推出CLIP模型华为正式发布盘古大模型 OpenAI推出Codex2021 OpenAI 推出 ChatGPT-3.52022大语言模型诞生阶段大语言模型探索阶段大语言模型爆发阶段5国内外厂商齐发力，大语言模型产业规模可观6雪湖海若其他应用子曰MathGPT知海图AI曹植WPS AI序列猴子斜杠ChatBotChatJD从容自研大模型文心盘古悟道日日新通义混元言犀星火玉言孟子源1.0二郎神基础模型天河天元大模型基础模型国外国内ClaudeClaudeChatBotBingChatBardChatGPTColabAICedill

4、e AICopilotCopilot其他应用BloomT0BloomZGPT-J 6BGPT-4DALLE2CodeXLaMDAPaLMPaLM-ET5ImagenFlanLLaMAMMSOPT-175BLIMA-65BStable DiffusionStableLMGopherChinchillaGato基础模型vicuna-13bDolly 2.0Jurassic-1 Jumbo大语言模型研发的关键影响要素7 模型训练的形式涌现出的思维链基于人类反馈的学习模型算法和模型顶级开发者构建的大规模研发团队昂贵的GPU背后的大规模资金投入资金和资源模型参数规模训练模型次数训练使用的数

5、据集数据资源基础要素基础要素核心要素大语言模型产品研发需要同时具备三大要素，分别为数据资源要素、算法和模型要素、资金和资源要素。InfoQ研究中心分析目前市场中的产品特征，数据资源、资金和资源两要素为大模型研发的基础要素，即必要不充分要素。虽然数据、资金资源为大语言模型研发设置了高门槛，但对于实力雄厚的大型企业仍然是挑战较小的。算法和模型是目前区分大语言模型研发能力的核心要素。算法和模型影响的的模型丰富度、模型准确性、能力涌现等都成为评价大语言模型优劣的核心指标。大语言模型训练之需要足够“大”8 模型在参数规模达到一定程度后，性能首先得到急剧提升，同时涌现许多新的能力。特别是任务所训练的模型适

6、用于更多以前未经训练的任务。涌现对大型模型应用的影响非常重要，只有通过这种能力，我们才能高效地实现模型的泛化，并实现模型的迁移。百亿参数是入场券GPT-3和LaMDA的数据显示，在模型参数规模不超过100亿-680亿时，大模型的很多能力（如计算能力）几乎为零。大量计算触发炼丹机制根据NVIDIA 研究论文里的附录章节显示，一次迭代的计算量约为4.5 ExaFLOPS，而完整训练需要9500次迭代，完整训练的计算量即为430 ZettaFLOPS（相当于单片A100跑43.3年的计算量）。常见的数据集包括GSM8k、USSE、MMLU、HumanEval等。O1.模型参数规模O2.模型计算量O3

InfoQ：2023大语言模型综合评测报告（33页）.pdf

InfoQ：2023大语言模型综合评测报告（33页）.pdf