《小红书FinOps实践:云成本优化与资源效率提升之道-梁啟成V3.pdf》由会员分享,可在线阅读,更多相关《小红书FinOps实践:云成本优化与资源效率提升之道-梁啟成V3.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、梁啟成目录7+供应商200+云产品6+地域千万核级CPU算力万卡级GPU算力成本洞察云资源成本多少,业务知不知道自己花了多少钱?资源用量归属是否准确,成本分摊规则是否合理?业务目标和资源动因是什么,单位资源成本是多少?成本优化云产品折扣是否有下降空间,是否存在供应商独家“垄断”?是否存在闲置资源,是否正确配置数据存储周期以及介质?有没有办法提升有效工作负载占比,充分发挥昂贵资源的超强算力?成本运营云资源的开通权限是否完成收口,是否配套资源申请流程?实际资源成本相比预算计划,是否符合预期,是否定期组织review?成本洞察 Inform成本优化 Optimize成本运营 Operation资源归
2、属,资源托管方并非实际使用方,资源算谁的,如何衡量各方优化做工成本分摊,业务部门只收到账单金额但看不到实际用量(共享资源)厂商折扣,商务合同折扣属于高度机密信息,如何让业务感知成本但屏蔽折扣目标:对外统一混合云计费账单模型,对内屏蔽折扣、提供量价对应的资源账单,看清成本并实现精细化运营方案收益中台自持资源成本占比从15%+下降到 5%权责分明,采购负责商务saving,中台技术提升效率,业务技术优化用量工作量代价内外账金额偏差控制中台产品上架管理,资源用量上报、计费项定价与计费出账CPU 利用率(峰值/均值)资源使用方式(独占/共享/抢占)潮汐规律(小时/天/周)VM 跨 NUMA 访问远端内
3、存VM 跨 Socket 访问远端内存同 Socket 下 VM 邻居相互干扰内存访问延迟的差异是CPU利用率分层的关键因素,RT表现:本地访问 跨NUMA访问 跨Socket访问numa node 内存使用分布不均衡,局部访问压力难以控制,性能不一大量跨 numa 访问延迟劣化整体性能物理资源售卖率与 VM 性能保障之间的取舍,内存规格越大,越容易出现这个问题相同 socket 相同 numa node 下,VM 邻居之间也会竞争共享内存资源,负载跑得越高,竞争越为激烈大量 IPI 中断导致 CPU 波动透明大页使用不当 CPU 过高频繁 page fault 造成 RT 抖动定位分析内核对
4、 CPU 利用率的抖动干扰,不改一行业务代码也能拿到数倍性能提升的“意外”收获系统内存管理策略调整前,服务原来CPU跑到 30%就开始抖动,优化后可以跑到 85%,QPS提升 280%在机器内存碎片化严重情况下,透明大页开了跟没开一样并带来了额外开销,direct compact 引发抖动业务代码没有实现内存复用,机型升配后进程共享核数增加,CPU 遍历大量发送 IPI 中断抢锁,性能严重退化内存带宽早于 CPU 到达瓶颈内存带宽打满触发 CPU throttle爆发请求量超出 VM 处理能力VM 的内存带宽、网络带宽、磁盘 IO 等限制,均会阻碍了 CPU 利用率进一步提升大VM小Pod策略
5、申请大规格VM,单socket单VM,避免云底层虚拟化黑盒不受控的问题;多业务混跑,打散热点分布,降低某种资源共振带来的使用瓶颈(CPU/网络/内存带宽);通过K8s调度和内核burst能力,提升每个Pod的弹性和容忍度,不要 VM:Pod=1:1 完全限制死。效果:CPU分层显著缓解,峰值利用率提升10%+,服务Pod副本数节省30%+,全局利用率提升5%GPU利用率GPU饱和度(MFU模型浮点运算利用率/TensorCore利用率)计算类型分布(BF16/FB32/FP8)卡型用途(训练/推理)使用列存格式(Parquet)和数据湖技术存储和管理训练数据多云统一AI训练数据集,减少冗余存储
6、,通过近端缓存,优化跨云数据传输,异构介质分层管理数据策略搜索的流程分析模型(模型参数,activation内存占用大小)探索 ZeRO 阶段(评估所需最小内存 可用内存)调优微批量大小、梯度累计步长实验与优化(尝试不同配置组合)选择最佳配置(评价指标:吞吐、延迟、FLOPS)探索终止条件输出最终设置FP8 低精度训练加速张量缩放(Tensor Scaling),量化单位缩小至tensor通过 延迟 Scaling 高效获取 scale 值,使用Tensor 的 amax h