【Shopee】Alluxio在Shopee加速AI场景的应用.pdf

编号:153230 PDF 25页 3.40MB 下载积分:VIP专享
下载报告请您先登录!

【Shopee】Alluxio在Shopee加速AI场景的应用.pdf

1、Alluxio在Shopee加速AI场景的应用孙颢宁Shopee|Data Infra目录 Shopee AI 平台的发展与现状 Alluxio助力 AI 平台 Alluxio加速 AI 实践 未来规划Shopee AI 平台的发展与现状PART 1不同业务部门各自购买云服务进行训练,资源利用率低;构建AI平台的背景不同业务部门使用互不关联的工具和系统,影响了部门之间的协作和工作效率。AI平台涵盖了整个人工智能生命周期,包括数据集管理、模型训练、评估和部署,为人工智能生产提供了专业、便捷的环境。AI 平台的架构性能问题,目前gpu的模型训练速度越来越快,IO速度与gpu的训练速度不匹配,会严重

2、影响模型训练的效率。使用Alluxio可对数据进行预热,加速训练;为什么选择AlluxioAlluxio-FUSE支持POSIX协议,操作文件更便捷;Fluid开箱即用,基于K8S提供灵活部署Alluxio集群的能力。Alluxio助力AI平台PART 2存储服务化,提供FUSE和S3两种便捷的访问方式;提供Forward System,方便跨集群访问数据;加速Presto查询,减少带宽占用;加速AI训练。Alluxio服务架构AI训练的工作流程准备数据模型选择模型训练模型评估模型部署模型维护FetchCleanPrepareTrainmodelEvaluatemodelDeploy mode

3、lMonitor/collect data/evaluateAlluxio加速AI训练架构DI Alluxio集群与AI平台位于不同的机房;AI平台通过S3接口导入数据到Ceph中,然后挂载到使用Fluid创建的Alluxio集群;在K8S启动的Alluxio集群中预加载全部数据;通过FUSE读取数据,进行训练。Alluxio加速AI实践PART 3原方式:用户申请挂载,管理员审批挂载;Migrate data 开放挂载接口现方式:管理员创建规则,用户自动挂载,检查器根据规则判断。AI平台通过S3接口导入HDFS数据到Ceph,Alluxio需要申请挂载的方式不适合平台对接。在保障HDFS数据

4、安全的前提下,自动挂载的方式使AI平台的服务流程自动化。Load metadata新方式 回放snapshot文件在将数据集导入到Ceph时将文件的元数据(path和size)保存到一个snapshot文件中;启动Alluxio master时即加载snapshot文件到本地并进行缓存;load metadata时直接将缓存的元数据适配成listObject所需的格式。测试100w文件的数据集,load metadata效率提高了100%,避免向Ceph发送大量的listObject请求。Ceph处理listObject请求会将bucket全部扫描一遍,通过prefix来匹配,大量请求导致Ce

5、ph故障。Load data S3的读放大问题Load显示的throughput明显小于几个worker节点流量的总和。Load data S3的读放大问题rangebytes from cephbytes to worker(0)24k8k(8k)16k8k(16k)8k8krangebytes from cephbytes to worker(0,8k)8k8k(8k,16k)8k8k(16k,24k)8k8kS3AInputstream在openStream时range只设置startPosition,导致读了更多的数据。借鉴了Dora版本中rangeRead的实现来修复2.x的读放大问

6、题。解决S3的读放大问题,测试带宽占用峰值降低了70%,同时读效率提高了近100%。Load data 数据未完全缓存worker总的容量大于总数据量,空间并没有被完全使用,且数据未被完全缓存。scheduler向worker发送任务不考虑容量,容量满的worker也会被分配任务,此时就会驱逐部分数据来缓存新的数据。可能导致在训练过程中数据缓存率越来越低。Load data 数据未完全缓存按照batch来分配任务,所有worker容量不足时按block来分配,整体容量不足时则允许evict发生;load过程中与wo

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【Shopee】Alluxio在Shopee加速AI场景的应用.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠