李亚斌-加速云端机器学习-Alluxio在小红书的实践-3.pdf

编号:168973 PDF 22页 2.13MB 下载积分:VIP专享
下载报告请您先登录!

李亚斌-加速云端机器学习-Alluxio在小红书的实践-3.pdf

1、DataFunConDataFunCon#20242024加速云端机器学习加速云端机器学习-AlluxioAlluxio在小红书的实践在小红书的实践李亚斌 小红书大数据技术专家ContentsContents目录目录面临的挑战多云数据加速层小红书实践案例未来规划0101 面临的挑战面临的挑战小红书多云业务架构特点 多云架构,成本优势明显,但业务通信链路复杂 不同region之间rt差异大 专线容量稀缺 机器学习训练慢,CPU/GPU利用率低 推荐召回索引分发慢,业务稳定性差,成本高昂 60亿+小文件,如何能够低成本训练 AI模型从百GB变大到TB级,磁盘存储成本高,加载慢 专线传输压力大痛点0

2、202 多云数据加速层多云数据加速层构建多云统一数据加速层选型目标 能够复用业务已有数据,无需进行数据搬迁 支持S3POSIX协议,便于各业务无缝对接 能够实现数据的跨云传输带宽控制和节省 能够支撑百亿级文件的AI训练 支持常见的云存储产品Alluxio架构Alluxio主要特性主要特性 格式透明:不侵入业务数据存储格式 协议兼容:支持S3POSIXHDFS等协议 多云统一视图:数据仅需通过专线传输一次,后续可通过缓存就近读取多协议兼容0303 小红书实践案例小红书实践案例机器学习训练原架构问题 训练慢,集群CPU利用率低原因 热点数据集,扇出大 Tbps级流量,触达对象存储桶带宽瓶颈 直连对

3、象存储,单线程性能低机器学习训练新架构解法 统一数据加速层Alluxio 智能缓存管理服务 基于运行历史规律,预加载热点数据,缓存命中率90%+重点数据Pin,其他数据自动淘汰 数据load进度可观测,一键补偿 探针服务 端到端探活,3分钟发现,1分钟止损。故障告警准确率100%训练速度提升效果 迁移前:训练时长9h36min,平均CPU利用率30%迁移后:训练时长5h42min,平均CPU利用率可以持续维持75%,训练速度提升了41%推荐召回索引下载场景问题 索引读取速度慢,通常发布一个机房的服务要34小时,发布完4个机房需1天时间 扩缩容慢:单机房故障时止损时长也达34小时 磁盘存储成本高

4、原因 索引存储在云盘,读取速度仅为350MB/s,且成本高昂(相比对象存储)每个机器磁盘上都要多个版本的索引,存在冗余存储推荐召回索引存算分离架构解法 索引存储与计算分离 云盘带宽瓶颈-宿主机网络带宽瓶颈 一个文件的Block分布在不同的机器上 智能缓存管理服务 跨专线加载索引 支持限速,保护专线带宽收益 索引拉取速度10倍+提升 索引下发(含业务逻辑)速度3倍提升 高性能云盘替换成对象存储,节省80%成本AI训练场景问题 60亿+级别小文件,元信息数量多 对象存储带宽和QPS有限解法 使用Alluxio缓存训练需要的数据 机器上有大量本地盘闲置,Alluxio与GPU混部,无额外硬件支出 使

5、用ClusterCache,同样的容量缓存命中率更高为什么能加速AI训练 提前把数据加载到缓存中,相比穿透对象存储读取性能更高 读取数据时通过智能判定随机读or顺序读,提前预读数据 无集中式的元信息服务,全量元信息在对象存储,只有热数据及其元数据在缓存中,对海量小文件友好 先写checkpoint到本地磁盘,异步上传至对象存储技术问题及解法 读放大严重:小range读、随机读场景更严重,存在proxy到worker,worker到ufs两层放大 热读透传range的endOffset,利用PositionRead解决。endOffset透传到ufs,防止无效数据传输 冷读NoCache场景直接读ufs 专线带宽打满 读ufs增加流控能力,保护专线带宽 读写性能不足 预读、WriteBack、线程模型优化0404 未来规划未来规划未来规划 打造统一的多云数据存储产品 AI训练:多地域GPU利用率提升 大数据查询加速 低效节点资源利用率提升感谢观看感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(李亚斌-加速云端机器学习-Alluxio在小红书的实践-3.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠