1、科技TEG技术创造未来机智深度学习训练平台及应用腾讯技术工程事业群云架构平台部宋书涛Tencent#page#科技TEG技术创造未来目录机智深度学习训练平台机智深度学习训练加速技术机智深度学习训练多机扩展机智高性能计算平台案例与业务应用Tencent#page#科技TEG技术创造未来机智深度学习训练平台算法AI业业务提供充足算力-星辰算力平台G数据算力区充分用好算力-机智机器学习平台Tencent#page#科技TEG技术创造未来兴长和民补划张器封证-如片城后民补划张题计算机视觉游戏AI广告推荐落地场景维福T卡?朋友圈其它广告Te平台层算法库数据处理任务调度Web/Client/API任务管理
2、用户权限管理大batchbatchsize评估训练收敛策略AutoML自动调参收敛方案深度学习框架通信方案自适应通信算法自适应梯度压缩与组件计算方案OP优化自适应混合精度图编译优化框架任务层百卡秒级调度任务队列弹性任务额度管理报警监控模块集成高性能存储ndFPGAGPU其他芯片资源层CPU服务器GPU服务器ASIC/FPGA100W核1.6W卡Tencent#page#科技TEG技术创造未来机智深度学习训练加速技术高性能计算程序梯度更新多机范的主要问题棉度噪声AutoML大bs评估超参数超收敛优化器梯度规约多机范晚主调节等超参数调节梯度要问题分层通信完整训练压缩传输硬件层面梯度融合等算法同步/
3、异步RDMAgDR反向计算(量化、稀过程(高速光缆)(ringtree.疏化)传的快传的少硬件层面单机范聘的主要问题单机主要计算图优编译器/XLA前向计算10和计算Disk-内存内存-显存OP优化(更强芯片问题化优化更快连接)计算优化I0问题读取数据算力平台Tencent#page#科技TEG技术创造未来机智深度学习训练加速技术-单机计算用户定义的神经网络应用网络优化软件:用户层面OP优化OP优化PyTarch19NXWTensorflow图优化框架层面图优化GCC FrontendXLAFrontend。硬件:IR定制芯片CuDNN.CuBLAS基于硬件特性GCC BackendXLA Ba
4、ckend的算子优化CUDA(LLVM:NVCC)提升拓扑连接编译器层面OS&APIDriverCPUGPUASIC,其它硬件层面Tencent#page#科技TEG技术创造未来机智深度学习训练加速技术-图编译优化自适应动态编译框架编译优化预热运行通过采样运行时信息,自动调整编译区域和策略,算子表达编译图优化灵活适应复杂场景。TF图采样分析划分编译区域,改进算子表达不可编译精细调整算子表达形式,避免引入元余的计算和同步开销。可编译改进编译图优化精细调整图变换算法,去除元余操作,聚合亲和性算子。自适应动态编译框架Tencent#page#科技TEG技术创造未来机智深度学习训练加速技术-混合精度,
5、自适应混合精度框架用户可灵活自定义策略,选择任意精度表达方式时间序列策暗在一次训练中多次切换全精度和混合精度计算。其他策路时间序列混合精度策略策略接口分阶段FP32-AMP-FP32开启混合精度,解决昆合精度开关精度损失问题。全精度训线运行控制器合精度订分层LossScale方法自适应混合精度框架精细化逐层调节LossScale因子,解决混合精度影自适区混合精度框票响收敛速度的问题。Tencent#page#科技TEG技术创造未来机智深度学习训练多机扩展1P(1-P)+N加了机器。机器不够用Training Puction没有预想的快Testing Function1(2)Fat Minimu
6、mSharp MinimumTencent10#page#科技TEG技术创造未来机智深度学习训练多机扩展-Lightcc通信库,LightcC-去中心化深度学习通信库LightcC-多机多卡通信库环形通信分层通信3D通信多流通信融合通信通信时间梯度压缩模型并行异步并行稀疏通信硬件拓扑计算融合梯度融合自适应阀值通信次数通信调度计算通信异步去中心化协商硬件加速高速网卡RDMAMPINCCLECCLTencent#page#科技TEG技术创造未来机智深度学习训练多机扩展一梯度通信梯度融合计算中计算完计算完计算完待计算待计算特计算计算中待传输特传输特传输待传输传