《02-大模型训练:JuiceFS 在 Kubernetes 环境中数千节点数据集的应用实践 -Rui Su.pdf》由会员分享,可在线阅读,更多相关《02-大模型训练:JuiceFS 在 Kubernetes 环境中数千节点数据集的应用实践 -Rui Su.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、JuiceFS 在 Kubernetes 环境中数千节点数据集的应用实践苏锐-Juicedata 合伙人分享大纲-JuiceFS 是什么-JuiceFS 在 Kubernetes 上的几种使用姿势-数据 在 AI+Kubernetes 中遇到的挑战-提升 JuiceFS 在大型 Kubernetes 集群中的体验苏锐-2017 年作为联创开始 JuiceFS 的创业之旅-18 年 IT 工作,做过 Tech Lead、PM、CEO-西电 三系 校友JuiceFS 是什么?2017 年发布云服务;支持(几乎)所有全球公有云;生产最大规模单卷近千亿文件,百 PB 容量,聚合吞吐数百 GBps;10
2、0%POSIX 兼容。JuiceFS 是什么?2021 年发布;GitHub 11.3K;胖客户端模式,简单上手,简单运维;Golang 开发+CSI 完善,得到云原生开发者支持;使用最多:AI 平台Kubernetes PV大数据存算分离JuiceFS 在 Kubernetes 上的几种使用姿势hostPathCSI-MountPodCSI-SidecarhostPath将 JuiceFS 挂载到所有宿主机的同一个目录,比如/mnt/data;挂载参数在宿主机管理;Pod 声明 hostPath,指定挂载路径/mnt/data;灵活性不足;挂载点故障后无法无感恢复。apiVersion:v1
3、kind:Podmetadata:name:hostpath-podspec:containers:-name:test-containerimage:busyboxvolumeMounts:-mountPath:/dataname:hostpath-volumevolumes:-name:hostpath-volumehostPath:path:/mnt/datatype:DirectoryCSI-MountPod-Static ProvisionCSI-MountPod-Dynamic ProvisionCSI-Sidecar数据在 AI+Kubernetes 中的挑战Structured
4、 dataSemi-structured dataUnstructured dataParquet,Avro,ORC,Lance Log,CSV,JSON Image,Video,Audio,PCD,PDF,Fastq,XYZ,Bag,FFRecord ingestionclean,convertexperiment,feature engineeringpre-trainingpost-traininginferenceMegatron-LMMegatron-LMJuiceFS Unified Storage100PB100B10PB110B100TB1PB100M1B110TB10M100
5、M10100TB10K10M大家都关心的:性能大家都关心的:性能大家容易忽视的:图形化可观测-CSI Dashboard$helm install juicefs-csi-driver juicefs/juicefs-csi-driverhttp:/localhost:8088大家容易忽视的:缓存组配置简单灵活了之前,我们要通过 StatefulSet 或 DaemonSet 的方式创建缓存组,但存在以下问题:无法在同一集群内针对不同节点类型或资源(如挂载参数、缓存组权重等)进行单独配置;需要依赖人工监控并手动添加或移除节点,操作繁琐,容易出错;缓存清理需手动执行,不能自动化。JuiceFS 用 Cache Group Operator 改善了上面的问题:在同一集群中配置不同的节点类型和资源;支持平滑添加或移除节点,尽可能减小加减节点期间缓存命中率波动;缓存自动清理;Dashboard 中可以管理缓存组。大家容易忽视的:给 ApiServer 减负大家容易忽视的:JuiceFS 平滑升级,业务不中断JuiceFS 客户端二进制 平滑升级大家容易忽视的:JuiceFS 平滑升级,业务不中断JuiceFS MountPod 平滑升级谢谢大家