当前位置:首页 > 报告详情

张连壮-Luban 青云智算平台HAMi实践.pdf

上传人: 小小 编号:612361 2025-02-12 32页 2.37MB

1、云原生+AI Meetup12/28 广东省广州市海珠区鼎新路 88 号 广州阿里中心13:30-17:30广州站主办方合作伙伴云原生+AI Meetup 广州站Luban 青云智算平台HAMi实践张连壮青云科技 高级研发工程师云原生+AI Meetup 广州站HAMi 介绍HAMi 是一个面向 Kubernetes 的异构设备管理中间件。它可以管理不同类型的异构设备(如 GPU、NPU、MLU、DCU 等),实现异构设备在 Pod 之间的共享,并基于设备拓扑和调度策略做出更优的调度决策。云原生+AI Meetup 广州站HAMi 示例云原生+AI Meetup 广州站HAMi 用户平安证券平

2、安银行新网银行中国移动H3C华为东南大学/东华大学/中国矿业大学科大讯飞云原生+AI Meetup 广州站HAMi 核心解读云原生+AI Meetup 广州站HAMi 架构云原生+AI Meetup 广州站HAMi 架构cuda driver api 的劫持nvidia open kernel云原生+AI Meetup 广州站cuda劫持的核心原理CUresult cuDeviceGet(CUdevice*device,int ordinal)LOG_DEBUG(into cuDeviceGet ordinal=%dn,ordinal);CUresult res=CUDA_OVERRIDE_C

3、ALL(cuda_library_entry,cuDeviceGet,device,ordinal);return res;ld_preload云原生+AI Meetup 广州站运行架构应用层:使用gpu资源的应用,机器学习,深度学习,各种框架,训练,推理等K8S处理层:该层复制处理k8s的内部资源调度K8S资源层:资源层负责GPU的申请,POD的创建云原生+AI Meetup 广州站GPU 虚拟化技术-昇腾云原生+AI Meetup 广州站GPU 虚拟化技术-海光mask 配置文件cu_mask:xxx计算单元mem:yyy 显存云原生+AI Meetup 广州站调度器云原生+AI Meet

4、up 广州站HAMi exportershared mem 的方式提供数据云原生+AI Meetup 广州站远程调用rcuda:是“西班牙瓦伦西亚理工大学”提供的一个项目,该项目提供二进制免费使用,但是不开源。Bitfusion:vmware 的产品,该产品有详细的文档描述,基本上呢就是 远程调用+显存切分。趋动科技:国内最早期提供远程调用的厂商。云原生+AI Meetup 广州站HAMi 开发部署的实践云原生+AI Meetup 广州站HAMi 安装1.kubectl label nodes nodeid gpu=on2.helm repo add hami-charts https:/pr

5、oject-hami.github.io/HAMi/3.helm install hami hami-charts/hami -n kube-system 云原生+AI Meetup 广州站HAMi pod 使用resources:limits: 1 个虚拟 GPU GPU 包含 3000M 显存云原生+AI Meetup 广州站HAMi pod调度策略nodeSchedulerPolicy:binpack尽量往一个node上调度。gpuSchedulerPolicy:spread 尽量往同一个node不同的卡上调度。云原生+AI Meetup 广州站HAMi 显存如何计算int add_ch

6、unk(CUdeviceptr*address,size_t size)add_gpu_device_memory_usage(getpid(),dev,allocsize,2);return 0;云原生+AI Meetup 广州站HAMi 提高显存计算的准确度pod:宿主机:云原生+AI Meetup 广州站HAMi 显存不准确的规避方法devicePlugin.deviceMemoryScaling=0.8预留部分显存修改libvgpu代码,将计算模式更改成获取模式。云原生+AI Meetup 广州站HAMi

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了广州举办的云原生+AI Meetup活动,活动时间是12月28日,地点在广东省广州市海珠区鼎新路88号的广州阿里中心。活动由广州站主办方和合作伙伴Luban青云智算平台共同举办。 关键点如下: 1. 活动时间:12月28日 2. 活动地点:广东省广州市海珠区鼎新路88号的广州阿里中心 3. 主办方:广州站主办方 合作伙伴:Luban青云智算平台 4. 活动时间:13:30-17:30 5. 演讲嘉宾:张连壮,青云科技高级研发工程师,将介绍HAMi,一个面向Kubernetes的异构设备管理中间件。 6. HAMi能管理不同类型的异构设备,如GPU、NPU、MLU、DCU等,实现设备共享和优化调度决策。 7. HAMi已有多个知名用户,如平安证券、平安银行、新网银行等。 8. HAMi的架构和核心原理,如CUresult cuDeviceGet等。 9. HAMi的安装和使用方法,如kubectl label nodes和helm install等。 10. HAMi的调度策略,如nodeSchedulerPolicy和gpuSchedulerPolicy。 11. HAMi的监控数据,如HostCoreUtilization和GPUDeviceCoreLimit等。 12. HAMi的环境变量设置,如CUDA_DEVICE_MEMORY_LIMIT等。 13. HAMi的未来展望,如训练容器实例、推理服务交付的便捷和动态扩展等。
"HAMi如何管理异构设备?" "如何通过HAMi提高GPU资源利用率?" "智算平台未来的发展趋势是怎样的?"
客服
商务合作
小程序
服务号
折叠