1、异构计算构建AI时代新范式宋丹丹 腾讯云异构计算产品总监主讲人:面临AI新时代,传统基础设施面临巨大挑战数亿模型参数20%结构化检索个别企业单一领域单机完成训练十亿万亿模型参数100%结构化+非结构化万千企业各行各业千卡集群调度AI 2.0AI 1.0腾讯云 AI 超级底座:软硬自研领先,实现ModelOps全链路,高性能易上手训练推理GooseFSCFS Turbo机型矩阵多元算力高性能网络紫霄主流芯片自研芯片沧海星脉银杉GPU自研服务器星星海利用率提升qGPU 共享技术推理加速TACO-Infer训练加速TACO-Train高性能计算集群 HCC高性能应用服务 HAI训推一体关键节点高效检
2、索极致性能灵活取用海量算力向量数据库Hyper Computing Cluster 2.0:为万亿参数大模型,打造Hyper AI算力300%相比上代训练效率提升万亿大模型训练效率,再次提速业界传统算力集群方案上一代腾讯云HCC集群新一代腾讯云HCC集群50天11天4天先进算力硬件基于星星海自研服务器,搭载最新GPU轻松接入,业务代码无侵入“零”改造适配软硬协同,针对腾讯云硬件定制适配加速框架层框架独家优化支持主流AI框架、训练作业模板训练一键部署推理混布调度基于SDHN实现硬件故障隔离网络故障无感知国内最强高性能计算集群HCC 2.0全面搭载腾讯自研星脉网络基础设施层3.2 Tbps RDM
3、A网络充分利用闲置训练集群资源算力编排层软件定义层5%超细粒度切分支持qGPU对单卡进行算力隔离星脉网络:为大模型而生,腾讯云自研,性能提升10倍SDHN控制器星脉网络架构TCCL/NCCL拥塞控制租户隔离故障规避流量哈希用户无感用户OS拓扑感知GPUServerGPUServer探测决策用户模型应用40%网络拥塞减少全局hash路由,实现可预期的网络性能80%跨LA组流量减少拓扑感知亲和性调度:最小化流量绕行QP级 链路拥塞感知通过精细流量探测,实时感知集群瓶颈毫秒级 故障规避快速路径切换,网络故障“零”影响星脉网络 SDHN动态流量调度,提升网络有效载荷高性能存储:多级加速数据快速读取,高
4、性能应用轻松上云高性价比云原生混合存储方案CPUGPUGPU MEML1 分布式缓存MEMGPU NodeL2 分布式缓存NVMeSSDMEMCPUGPUGPU MEMMEMGPU NodeNVMeSSDMEM对象存储COS文件存储Turbo CFS训练数据集Checkpoint文件读写POXIS语义读写POXIS语义读写支持全量训练数据持久化在对象存储上,通过GooseFS提供多级分布式缓存方案。提供海量低成本分布式存储。百万级IOPS、100GB/s吞吐,百us延时高性能低成本通过高性能并行文件存储TurboCFS,支持Checkpoint数据及重要模型/样本数据可靠存储可靠存储训推一体:
5、基于云原生网络架构,寻求低时延、大吞吐、低成本的业务无缝互联用户请求返回用户请求输入编译优化计算图优化算子生成AI 推理加速数据导入前向计算后向计算AllReduce权重更新AI 训练预处理前向计算后处理AI 推理训练数据集模型仓库(模型文件、配置文件等)模型文件导出AI推理加速训练集群推理集群推理加速服务推理服务部署AI 推理:前向传播的用户请求计算过程AI 训练:迭代计算寻找极值点的过程HCC高性能计算集群 轻量资源管理,一站式软硬件加速服务HARP通信算法网络框架层AngelPTM 万亿大模型训练框架LightCC模型层TCCL自适应FP16/XLA混合加速超大Batchsize收敛TT
6、ensorflow自研框架编译优化硬件加速算子生成计算图优化算子融合高性能子图分阶段量化TIDY 腾讯推理动态编译工具TVMZenDNNOneDNNTensorRTcuDNNAI 训练加速框架AI 推理加速框架软件加速框架轻量资源管理算力编排服务异构加速实例PTX1(腾讯自研紫霄 V1)GN7(T4)PNV4(A10)PNV5(L40S)GC49 NVIDIA 系列 GPUHCCPNV4(A100/A800)HCCPNV5(H800)AMD MI388Habana Gaudi2NPU系列GPU 容器共享技术 qGP