当前位置:首页 > 报告详情

计算机行业深度:“大模型”系列(5)大模型研究框架(2025)-250420(58页).pdf

上传人: 卢*** 编号:627423 2025-04-21 58页 6.29MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要内容概括如下: 1. 文章回顾了计算机行业大模型的发展历程,以Transformer架构和Scaling law为核心,从大语言模型(LLMs)的兴起、Transformer架构的提出、预训练Transformer模型时代、GPT-3开启预训练侧Scaling law叙事,到Post-training重要性凸显,RLHF范式出现,训练侧Scaling law瓶颈出现,推理侧接过Scaling law叙事。 2. 文章分析了国内大模型的发展,以DeepSeek、豆包、阿里千问为例,展示了国内大模型在降本提效方面的进展。DeepSeek通过创新的降本提效手段,极大提升GPU在计算/通信上的利用率;豆包大模型在实时语音、视频生成/理解领域布局,月活数据冲上全球第二;阿里Qwen引领国产开源模型标杆,推出QwQ-32B模型,登顶全球最强开源模型。 3. 文章探讨了海外大模型的发展,以OpenAI、Google、Meta、Antropic等公司为例,展示了海外大模型在资源头部集中、押注AGI方面的进展。OpenAI、Google、Meta等公司依托自身资源壁垒,在自然语言、多模态、推理模型上取得领先地位。 4. 文章对模型未来的研判是,投注后训练+算法大幅优化,低成本落地+实现AGI为终极目标。模型在架构、pre-training、post-training、落地层面均迎来加速变革。 5. 文章最后给出了投资建议,认为大模型技术稳步提升,推动AGI时代加速到来,以大模型为底座的技术迭代或将持续驱动国产AI估值迎来重塑,维持计算机行业“推荐”评级。
国内大模型发展现状如何? 海外大模型发展有何特点? 大模型未来发展趋势是什么?
客服
商务合作
小程序
服务号
折叠