02-大模型训练:JuiceFS 在 Kubernetes 环境中数千节点数据集的应用实践 -Rui Su.pdf

编号:620928 PDF 18页 906.31KB 下载积分:VIP专享
下载报告请您先登录!

02-大模型训练:JuiceFS 在 Kubernetes 环境中数千节点数据集的应用实践 -Rui Su.pdf

1、JuiceFS 在 Kubernetes 环境中数千节点数据集的应用实践苏锐-Juicedata 合伙人分享大纲-JuiceFS 是什么-JuiceFS 在 Kubernetes 上的几种使用姿势-数据 在 AI+Kubernetes 中遇到的挑战-提升 JuiceFS 在大型 Kubernetes 集群中的体验苏锐-2017 年作为联创开始 JuiceFS 的创业之旅-18 年 IT 工作,做过 Tech Lead、PM、CEO-西电 三系 校友JuiceFS 是什么?2017 年发布云服务;支持(几乎)所有全球公有云;生产最大规模单卷近千亿文件,百 PB 容量,聚合吞吐数百 GBps;10

2、0%POSIX 兼容。JuiceFS 是什么?2021 年发布;GitHub 11.3K;胖客户端模式,简单上手,简单运维;Golang 开发+CSI 完善,得到云原生开发者支持;使用最多:AI 平台Kubernetes PV大数据存算分离JuiceFS 在 Kubernetes 上的几种使用姿势hostPathCSI-MountPodCSI-SidecarhostPath将 JuiceFS 挂载到所有宿主机的同一个目录,比如/mnt/data;挂载参数在宿主机管理;Pod 声明 hostPath,指定挂载路径/mnt/data;灵活性不足;挂载点故障后无法无感恢复。apiVersion:v1

3、kind:Podmetadata:name:hostpath-podspec:containers:-name:test-containerimage:busyboxvolumeMounts:-mountPath:/dataname:hostpath-volumevolumes:-name:hostpath-volumehostPath:path:/mnt/datatype:DirectoryCSI-MountPod-Static ProvisionCSI-MountPod-Dynamic ProvisionCSI-Sidecar数据在 AI+Kubernetes 中的挑战Structured

4、 dataSemi-structured dataUnstructured dataParquet,Avro,ORC,Lance Log,CSV,JSON Image,Video,Audio,PCD,PDF,Fastq,XYZ,Bag,FFRecord ingestionclean,convertexperiment,feature engineeringpre-trainingpost-traininginferenceMegatron-LMMegatron-LMJuiceFS Unified Storage100PB100B10PB110B100TB1PB100M1B110TB10M100

5、M10100TB10K10M大家都关心的:性能大家都关心的:性能大家容易忽视的:图形化可观测-CSI Dashboard$helm install juicefs-csi-driver juicefs/juicefs-csi-driverhttp:/localhost:8088大家容易忽视的:缓存组配置简单灵活了之前,我们要通过 StatefulSet 或 DaemonSet 的方式创建缓存组,但存在以下问题:无法在同一集群内针对不同节点类型或资源(如挂载参数、缓存组权重等)进行单独配置;需要依赖人工监控并手动添加或移除节点,操作繁琐,容易出错;缓存清理需手动执行,不能自动化。JuiceFS 用 Cache Group Operator 改善了上面的问题:在同一集群中配置不同的节点类型和资源;支持平滑添加或移除节点,尽可能减小加减节点期间缓存命中率波动;缓存自动清理;Dashboard 中可以管理缓存组。大家容易忽视的:给 ApiServer 减负大家容易忽视的:JuiceFS 平滑升级,业务不中断JuiceFS 客户端二进制 平滑升级大家容易忽视的:JuiceFS 平滑升级,业务不中断JuiceFS MountPod 平滑升级谢谢大家

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(02-大模型训练:JuiceFS 在 Kubernetes 环境中数千节点数据集的应用实践 -Rui Su.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠