《计算机行业AIGC算力时代系列报告:ChatGPT芯片算力研究框架-230210(29页).pdf》由会员分享,可在线阅读,更多相关《计算机行业AIGC算力时代系列报告:ChatGPT芯片算力研究框架-230210(29页).pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、#page#浙商证券股份有限公司算力需求爆发拉动芯片量价齐升光模块和光芯片通过AI服务器实现Transformer技术模型送代芯片需求快速增加GPU门门芯片均价大幅提升算力需求增加CPU号芯片量价X十需求AI训练计算需求FPGA模型训练成本预计每3.5个月翻一番饰1200万美元请算力A模型算法训练数据英伟达GPUA100号新ChatGPT完美运行1万颗光模块(加速器)AI芯片资料来源:浙商证券研究所#page#浙商证券股份有限公司摘要ChatGPT热潮席卷全球。ChatGPT(ChatGenerativePre-trainedTransformer)是由OpenAl于2022年12月推出的对话
2、AI模型一经面世便受到广泛关注,其2023年1月月活跃用户达到1亿,是史上月活用户增长最快的消费者应用。在问答模式的基础上ChatGPT可以进行推理、编写代码、文本创作等等,这样的特殊优势和用户体验使得应用场景流量大幅增加。1、芯片需求=量价个,AIGC拉动芯片产业量价齐升1)量:AIGC带来的全新场景+原场景流量大幅提高。技术原理角度:ChatGPT基于Transformer技术,随着模型不断送代层数也越来越多,对算力的需求也就越来越大;运行条件角度:ChatGPT完美运行的三个条件:训练数据+模型算法+算力,需要在基础模型上进行大规模预训练,存储知识的能力来源于1750亿参数,需要大量算力
3、。2)价:对高端芯片的需求将拉动芯片均价。采购一片英伟达顶级GPU成本为8万元,GPU服务器成本通常超过40万元。支撑ChatGPT的算力基础设施至少需要上万颗英伟达GPUA100,高端芯片需求的快速增加会进一步拉高芯片均价。2、ChatGPT的“背后英雄”:芯片,看好国内GPU、CPU、FPGA、AI芯片及光模块产业链1)GPU:支撑强大算力需求。由于具备并行计算能力,可兼容训练和推理,目前GPU被广泛应用于加速芯片。看好海光信息、景嘉微;2)CPU:可用于推理/预测。AI服务器利用CPU与加速芯片的组合可以满足高吞吐量互联的需求。看好龙芯中科、中国长城3)FPGA:可通过深度学习+分布集群
4、数据传输赋能大模型。FPGA具备灵活性高、开发周期短、低延时、并行计算等优势。看好安路科技、复旦微电、紫光国微是“身首于到票应上+C出IV区卡HOISVI“磁:oIsy(t寒武纪、澜起科技5)光模块:容易被忽略的算力瓶颈。伴随数据传输量的增长,光模块作为数据中心内设备互联的载体,需求量随之增长。看好德科立、天孚通信、中际旭创#page#浙商证券股份有限公司风险提示1、AI技术发展不及预期2、版权、伦理和监管风险33、半导体下游需求不及预期#page#01ChatGPT带动算力芯片量价齐升目录02CPU、GPU、FPGA、AI芯片提供底层算力支持CONTENTS03光模块支撑数据传输#page#
5、page#浙商证券股份有限公司201人工智能四层架构,芯片为底层支撑AI绘画:盗梦师AI写作:奔写AIGCAI音乐:DeepMusic上层应用ChatGPT百度:文心大模型谷歌:PaLM大模型华为:盘古大模型GPT3.5OpenAl:百度:PaddlePaddleMeta:PyTorch深度学习框架华为:MindSpore谷歌:TensorFlow湖CPUGPU底层芯片FPGAASIC了资料来源:澜舟科技,IDC,量子位,电子发烧友等,浙商证券研究所#page#浙商证券股份有限公司01人工智能不同计算任务需要各类芯片实现强大的调度、管理并行架构低延时成本低协调能力;计算单元多开发周期短能耗低应
6、用范围广适合大量逻辑确定硬件可根据需求调整性能强开发方便灵活的重复计算成本和壁垒高针对AI设定特定架构通用性强CPUNPUGPUD4atrix uniAUSystem Memory应用方便FPGAAI用ASICDRAM研发阶段逻辑判断数据中心模型训练任务调度与控制成熟量产阶段AI推理性能更优,能效更高资料来源:Huaweiforum浙商证券研究所#page#浙商证券股份有限公司01ChatGPT流量激增,为AI服务器带来重要发展机遇原场景流量提升+新应用场景服务器算力要求提升AI服务器需求增加达成1亿月活跃用户耗时传统CPU服务器史上用户增速最终端用户使用频率提高通用性较强,专用性较弱iTun
7、es快消费级应用数据流量暴涨,对服务器Ewitter0的数据处理能力、可靠性Meta及安全性等要求相应提升算力无法满足nstagam78个月S60个月54个月OpenAI30个月数据的质和量发生变化,9个月AI服务器需求非结构化数据占比激增2个月应用288亿美元CAGR=18.8%ChatGPT在问答模式的基础上进行推理、编写代码、原场景流量提升文本创作等,用户人数及使用次数均提升。122亿美元全球AI服务器市场内容生产智能客服智能音箱规模创造新应用场景游戏NPC陪伴型机器人Q20202025资料来源:SensorTower,World of Engineering,头豹研究院华经产业研究院,
8、浙商证券研究所#page#浙商证券股份有限公司AI服务器快速增长,大力拉动芯片需求01中国人工智能服务器工作负载预测中国人工智能芯片市场规模占比AI服务器=?FPGA.0.4%ASIC.1.0%100%NPU9.6%异构形式7030%50409CPU30910%十20202022202320242022026GPU.89.0%2021年全球服务器市场格局2021年中国服务器市场格局GPU新华三/HPE其他,17.1%其他,21.8%15.6%馆浪潮,30.7%FPGA戴尔,15.4%ODM.8.59怡联想,6.6%ODM浪潮,8.9%ASIC35.5%新华三/HPE华为,7.4%联想,6.4%
9、1017.5%华为,1.1%戴尔7.5%2022-2023中国人工智能计算力发展评估报告,资料来源:IDC芯八哥,wind浙商证券研究所整理#page#浙商证券股份有限公司3SAI服务器芯片构成CPU+加速芯片应用场景AI服务器应用领域CPU+加速芯片:通常搭载GPU、计算机视觉机器学习FPGA、ASIC等加速芯片,利用训练CPU与加速芯片的组合可以满足(算力30TOPS)自然语言处理高吞吐量互联的需求芯片种类优点缺点提供了多核并行计算的基础结构,核心高度推理管理控制能力弱,功GPU数多,可支撑大量数据的并行计算,拥适配耗高(算力30TOPS)有更高浮点运算能力开发难度大,只适合可以无限次编程
10、,延时性较低,拥有流FPGA定点运算,价格比较水线并行(GPU只有数据并行),实时昂贵性最强,灵活性最高计算与通用集成电路相比体积更小,重量更(530TOPS)灵活性不够,价格高ASIC轻,功耗更低,可靠性提高,性能提高于FPGA保密性增强,成本降低资料来源:华经产业研究院,亿欧智库,浙商证券研究所#page#浙商证券股份有限公司01CPU擅长逻辑控制,可用于推理/预测整个CPU的指挥控制中心,由指CPU运行原理令寄存器IR、指令译码器ID和操修改指令作控制器OC等组成。取指令指令译码执行指令计数器控制单元作为计算机系统的运算和控制核心,暂时存放数据是信息处理、程序运行的最终执行单元的区域,控
11、制指令CPU控制指令保存等待处理有大量的缓存和复杂的逻辑控制单元,优势或已经数据擅长逻辑控制、串行的运算处理过运算单元存储单元的数据。计算量较小,且不擅长复杂算法运算和劳势处理并行重复的操作。执行部件,运算器的核心。可以执行算术运算和逻辑运算。运算单元所进行的全部操作在深度学习中可用于推理/预测都是由控制单元发出的控制信号来指挥12资料来源:CSDN,浙商证券研究所整理#page#浙商证券股份有限公司01服务器CPU向多核心发展,满足处理能力和速度提升需要多核心CPU单核心CPU系统性能优劣不能只考I虑CPU核心数量,还要考虑操作系统、调度算串行单任务处理分时多任务处理分时多任务处理处理的任务
12、更多、法、应用和驱动程序等。处理速度更快一心一用”一心多用”多心多用20172023200520102020英特尔Sapphire酷睿i9Lakefield奔腾D系列酷容i7-980X从单核到多核Rapids史上第一个双核首款6核处理器18核处理器首款采用混合架构拥有56个核心处理器的x865核处理器20072018202020052023AMD第二代锐龙锐龙ThreadripperPhenom9500香龙9004Athlon 64X2从双核到96核3990XThreadripper同一块芯片内整首款原生4核处最大核心数量已拥有64核核心数量最多可理器合两个K8核心达到32核达96个3资料来源
13、:芯论语,半导体产业纵横,AMD官网,浙商证券研究所#page#浙商证券股份有限公司01GPU高度适配AI模型构建ChatGPT引I发GPU热潮AI模型构建(以以英伟达A100为例)百度:即将推出文心一言推理过程训练过程(ERNIEBot)GPU的并行计算高度适配神经网络多实例GPU(MIG)技术允许多个网络同时苹果:引入AI加口速器设计的M2系基于单个A100运行,从而优化计算资源的列芯片(M2pro和M2max)将被利用率搭载于新款电脑在A100其他推理性能增益的基础之上,仅结构稀疏支持一项就能带来高达两倍的性能OpenAl:随着ChatGPT的使用量提升。激增,OpenAl需要更强的计算
14、能在BERT等先进的对话式AI模型上,A100GPU帮助高速解决问题:2048个A100力来响应百万级别的用户需求,因可将推理吞吐量提升到高达CPU的249倍;GPU可在一分钟内成规模地处理BERT此增加了对英伟达GPU的需求249X之类的训练工作负载;245X3XAMD:计划推出与苹果M2系列芯片竞条的台积电4nm工艺Penix系列芯片,以及使用Chiplet工艺设计的AlveoV70AI0.7X芯片。这两款芯片均计划在今年推1X向市场,分别面向消费电子市场以A10080GBV100A10040GB及AI推理领域CPU OnlyA10080GBA10040GBFP16FP16FP1614资料
15、来源:英伟达官网,腾讯网浙商证券研究所#page#page#浙商证券股份有限公司ASIC可进一步优化性能与功耗,全球巨头纷纷布局01国内外ASIC芯片龙头布局随着机器学习、边缘计算、自动驾驶的发展,大量数据处理任务的产生,对于芯片计算效率、计算能力和计能耗比的要求也越来越高,ASIC通过与CPU结合的方式被广泛关注,国内外龙头厂商纷纷布局迎战AI时代的到来。谷歌:张量处理器TPU阿里巴巴:含光800AI芯片最新的TPUV4集群被称为Pod,包含4096个硬件:自研芯片架构v4芯片,可提供超过1exaflops的浮点性能软件:集成达摩院先进算法,可实现大网络模型在一颗NPU上完成计算。英伟达:G
16、PU+CUDA百度:昆仑2代AI芯片国外国内主要面向大型数据密集型HPC和AI应用采用全球领先的7nm制程,搭载自研的第二基于Grace的系统与NVIDIAGPU紧密结代XPU架构,相比一代性能提升2-3倍;合,性能比NVIDIADGX系统高出10倍;昆仑芯3代将于2024年初量产。Habana(Intel收购)华为:昇腾910已推出云端AI训练芯片Gaudi和云端AI业界算力最强的AI处理器,基于自研华为推理芯片Goya;达芬奇架构3DCube技术16资料来源:机器之心,华为官网,半导休产业纵横,公开资料整理,浙商证券研究所#page#浙商证券股份有限公司01数据传输速率:容易被忽略的算力瓶
17、颈算力需求:超摩尔发展算力供给:芯片提升+并行计算并行瓶颈:数据传输速率通信延时导致加速放缓AI时代模型算力需求以超过摩尔定律增长数据中心通过交换机网络实现设备互联算力(FLPOs)加理论加速比速比5-6个月翻倍(远超摩尔定律)实际加速比深度学习时深度学习之前大模型时王家惠20个月翻倍(近似摩尔定律)代兴送模型发布时间并行计算节点数17资料来源:GoogleScholar,并行处理中节点间通信对加速比的影响,浙商证券研究所#page#浙商证券股份有限公司01数据传输核心器件:光模块光模块包含发射器件和接收器件,光纤通信时的光电转换数据中心占光模块一半以上市场(2021Q4)32.6%骨干发射器
18、件接收器件电信城域驱动电路放大器电信电信号探测器(内含激光器(内含接入光芯片)光模块光芯片)号67.4%光纤传输数据中心内部数通光信号电信号电信号数据中心互联光模块向高速传输发展,以顺应数据传输量增长趋势10G40G400GQSFP-DD、OSFP-XD800、1.6T.SFP、XFPQSFP、CFP、COBO1x9、GBIC硅光技术4G2G5G3G相干技术光电共封装技术2000-20102010-20202020之后1995-2000(CPO)18资料来源:中际旭创年报,光纤在线,电子发烧友,华经情报网,浙商证券研究所#page#浙商证券股份有限公司3S国产服务器CPU发展之路02通过CHI
19、PLET布局先进制技术创新引领本士程,服务器芯片广泛应用产业链弯道突围“存储墙存算一体打破限制,实现降本增效9#page#浙商证券股份有限公司02服务器CPU需求增长,国化产三条发展路线中国服务器市场规模国产服务器CPU发展之路中国加速计算服务器市场预测自主化程度:低,未我12000上海兆芯来扩充指令集难度较(百万美元)10000大,但生态迁移成本CisCX86架构IP内核授权8000小、性能高中U6000海光信息缺点:安全基础不牢40002000自主化程度:较高,华为鲲鹏20222023202520242026安全基础相对牢靠指令集架拥有自主发展权HUAWEIARM架构服务器CPU市场格局构
20、授权缺点:生态构建较为Phytium天津飞腾困难服务器CPUX86架构厂商份额飞腾AMDRISC自主化程度:极高,龙芯中科:MIPS架构龙芯中科申威科技已基本实现授权+自主完全自主可控1研制指令集缺点:生态构建极其英特尔MIPS架构申威科技90.205困难20资料来源:IDCwind,卷研究所整理#page#page#浙商证券股份有限公司02CHIPLET是布局先进制程、加速算力升级的关键技术Chiplet异构技术不仅可以突破先进制程的封锁,并且可以大幅提升大型芯片的良率、降低设计的复杂程度和设计成本、降低芯片制造成本。chiplet技术加速了算力升级,但需要柄性一定的体积和功耗,因此将率先在
21、基站、服务器、智能电车等领域广泛使用65135功模数28m能用十中字率拟90nm45nm十美国芯片法案禁子Chiplet芯粒芯粒Chiplet4GCPU5G2GPU基站AI7om够用14omFPGA服务器智能座舱AI演算L4+智驾L2+基带无人驾驶智能电车、33/2nm5nm好用智能座舱、VRARMR十人工智能、5/6G手机22资料来源:芯智讯,浙商证券研究所#page#浙商证券股份有限公司02CHIPLET已广泛应用于服务器芯片AMD:EPYC第1代至第4代华为海思:鲲鹏920采用7nm制造工艺,基于ARM架构授权Chiplet服务器芯片的引领者,4代产品采用5nm,由华为公司自主设计完成。
22、典型主频下,基于chiplet的第一代AMDEPYC处理器中,装载SPECintBenchmark评分超过930。8个“zen“CPU核,2个DDR4内存通道和32个PCle通道,以满足性能目标。Chiplet寒武纪:云端AI芯片思元3702022年AMD正式发布第四代EPYC处理器,拥有服务器基于7nm制程工艺,是寒武纪首款采高达96颗5nm的zen4核心,并使用新一代的芯片用chiplet(芯粒)技术的AI芯片Chiplet工艺,结合5nm和6nm工艺来降低成本。集成了390亿个晶体管,最大算力高英特尔:第14代酷容MeteorLake达256TOPS(INT8),是寒武纪第二代产品思元2
23、70算力的2倍。内存带宽是上一代产品的3倍,访存首次采用intel4工艺,首次引入chiplet小芯片设龙芯中科:龙芯3D5000(试验)能效达GDDR6的1.5倍。计,预计将于23年下半年推出至少性能功耗比的目标要达到13代RaptorLake面向服务器市场的32核CPU产品,通过Chiplet技术把两个3C5000硅片封装在的1.5倍水平。一起,集成了32个LA464处理器核和64MB片上共享缓存,22年未初样试验成功23资料来源:各公司官网,浙商证券研究所#page#浙商证券股份有限公司存算一体:打破“存储墙”限制,技术选代演进02存算技术演进路线“存储墙”成为了数据计算应用的一大障碍面
24、对计算中心的数据洪流,数据搬运慢、搬运能耗大等问题成为查存计算(ProcessingWithMemory)了计算的关键瓶颈。从处理单元外的存储器提取数据,搬运时间往往是运算时间的成百上千倍,整个过程的无用能耗大概在60%-最早期技术GPU对复杂函数的运算90%之间,能效非常低。近存计算(ComputingNearMemory)HW FLOPS:算力发展速度10000AMD的Zen系列CPU三星HBM-PIM存储墙限制存内计算(Computing In Memory)闪存知存Mythic干芯科技存储发展速度存内逻辑(Logic In Memory)201120142017满足大模型计千芯科技TS
25、MC算精度要求24#page#浙商证券股份有限公司02存算一体:更大算力、更高能效、降本增效存算一体就是存储器中叠加计算能力,以新的高效运算架构进行二维和三维矩阵计算。存算一体的优势包括:(1)具有更大算力(1000TOPS以上)(2)具有更高能效(超过10-100TOPS/W),超越传统ASIC算力芯片(3)降本增效(可超过一个数量级)CPUGPU存算一体存算一体一般10-100计算核心一般万量级计算核心一般百万量级等效计算核心存储器中叠加计算能力以新的高效运算架构进行控制单元计算计算二维和三维矩阵运算。筒地色号单元单元缓存控制存算一体的应用领域单元控制单元计算计算计计计性算算算单元单元缓存
26、自动驾驶自然语言处理控制单元计计算计智慧城市计算算缓存商品推荐缓存工业视觉医药计算事个性化推荐片外内存片外内存多语言精准识别片外内存25知乎先进存算一体芯片设计资料来源:(陈等),浙商证券研究所#page#浙商证券股份有限公司风险提示1、AI技术发展不及预期:当前以ChatGPT为代表的NLP模型以及其他类型人工智能模型发展仍不成熟,存在一定缺陷2、版权、伦理和监管风险:AIGC生成的内容依赖现有版权素材,另外不当使用或模型自身问题可能导致不良后果3、半导体下游需求不及预期:全球芯片行业存在周期性,可能因宏观经济波动导致需求低迷。8#page#浙商证券股份有限公司行业评级与免责声明行业的投资评
27、级以报告日后的6个月内,行业指数相对于沪深300指数的涨跌幅为标准,定义如下:1、看好:行业指数相对于沪深300指数表现+10%以上;2、中性:行业指数相对于沪深300指数表现-10%+10%以上;3、看淡:行业指数相对于沪深300指数表现-10%以下。我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系,表示投资的相对比重。建议:投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者不应仅仅依靠投资评级来推断结论27#page#浙商证券股份有限公司行业评级与免责声明法律声明及风险提示本报告由浙商证券股份有限公司(已
28、具备中国证监会批复的证券投资咨询业务资格,经营许可证编号为:Z39833000)制作。本报告中的信息均来源于我们认为可靠的已公开资料,但浙商证券股份有限公司及其关联机构(以下统称“本公司”)对这些信息的真实性、准确性及完整性不作任何保证,也不保证所包含的信息和建议不发生任何变更。本公司没有将变更的信息和建议向报告所有接收者进行更新的义务本报告仅供本公司的客户作参考之用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告仅反映报告作者的出具日的观点和判断,在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议投资者应当对本报告中的信息和意见进行独立评估,并应同时考量各自的
29、投资目的、财务状况和特定需求。对依据或者使用本报告所造成的一切后果,本公司及/或其关联人员均不承担任何法律责任。本公司的交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。本公司没有将此意见及建议向报告所有接收者进行更新的义务。本公司的资产管理公司、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。本报告版权均归本公司所有,未经本公司事先书面授权,任何机构或个人不得以任何形式复制、发布、传播本报告的全部或部分内容。经授权刊载、转发本报告或者摘要的,应当注明本报告发布人和发布日期,并提示使用本报告的风险。未经授权或未按要求刊载、转发本报告的,应当承担相应的法律责任。本公司将保留向其追究法律责任的权利28#page#浙商证券股份有限公司联系方式浙商证券研究所上海总部地址:杨高南路729号陆家嘴世纪金融广场1号楼25层北京地址:北京市东城区朝阳门北大街8号富华大厦E座4层深圳地址:广东省深圳市福田区广电金融中心33层邮政编码:200127电话:(8621)80108518传真:(8621)80106010浙商证券研究所:http:/29#page#