1、Is sharing GPU to multiple containers feasible?李孟轩目录Background01Scheduling attempts03Device Layer attempts02ContentSummary04Background:Part 01Device cant be fully utilizedA typical GPU utilization in。
2、Keeping it Small:Agentic Workflows with SLMs on K8SFrank Fan-Senior Container Solution Architect,AWSAddress challenges of Agentic workload010302Key takeaways04Multi-agent workflowsImplementation on k。
3、Fine-tuning LLM with ArgoWorkflows:A Kubernetes-nativeApproachShuangkun TianArgo Maintainer、Alibaba Cloud Software EngineerThe Challenge of Fine-tuning01Building a TCM Assistant on DeepSeek03Why Argo。
4、释放 CEL 在高级多集群调度中的潜力Unlocking the Power of CEL for Advanced Multi-Cluster SchedulingQing Hao(郝青)Senior Software Engineer Red Hat|Maintainer Open Cluster Management CNCF Ambassador目录多集群调度遇到的挑战01CEL在多集群。
5、构建基于企业数据的高精度生成式人工智能应用郑予彬开发者布道师亚马逊云科技目录生成式AI在企业中的转化潜力01如何优化云上Gen AI 工作负载03RAG架构-连接企业数据与大语言模型02Content生成式AI在企业中的转化潜力Part 01Data流数据处理大数据分析数据库数据可视化数据湖仓多数据源融合数据治理Generative AI 应用GenAI 应用植根于数据平台数据驱动型公司可实现每。
6、多集群环境中AI驱动的故障诊断AI-Driven Troubleshooting in Multi-Cluster Environments闫猛(Meng yan)Software Engineer Red Hat目录多集群管理OCM概述01多集群中Agent设计03Agent介绍02Content样例展示04多集群管理-OCM概述Part 01Open Cluster Management多集。
7、KubeEdge云边协同实践:大语言模型云边协同推理benchmark套件胡时京 复旦大学 KubeEdge范彧 北京航空航天大学 KubeEdge目录大模型云边协同背景01基于KubeEdge-Ianvs的大模云边协同实践03KubeEdge大模型云边协同推理新范式02Content开源成果分享04大模型云边协同背景Part 01为什么我们需要大模型云边协同?每年LLM API开销超过100亿。
8、高效AI基础设施:业务灵活弹性+云端GPU即时供应莫源/阿里云&姜伟/CloudPilot AI目录业界挑战01架构&实现03解决方案02Content总结04Q&A05业界挑战Part 01业界挑战成本高资源确定性差业务/节点弹性不足启动速度受限云上GPU费用较高,如,AWS us-east-1 T4的花费高达$383.98/月。传统集群伸缩关键时刻可能无法弹性足够的计。
9、如何开发云原生 AI 应用基于 Eino 框架的探索如何开发云原生 AI 应用?Part 01基于 Eino 框架的探索AI 应用:围绕大模型的信息流 大模型:无中生有 有向图,流式信息生成,可枚举的“信息处理”组件 输入=输出对“可枚举”组件的编排 RunnableI,O Python:LangChain,Go:Eino云原生 AI 应用:Function as a Service?云原生 A。
10、DRA异构资源精细化管理的生产实践吉元昊(shink),华为,Apache InLong PMC目录Kubernetes for LLMs01Device Plugin 2.0:Dynamic Resource Allocation03Device Plugin 1.002ContentKubernetes for LLMsDL训练/推理、HPC 等场景下,K8s 的异构架构迎来挑战:计算 高性。
11、云原生图数据库 NebulaGraph驱动的 GenAI 技术演进演讲人:尚卓燃(PsiACE)目录背景趋势01应用案例03技术路线02Content背景趋势Part 01当图数据库遇上 GenAI传统 RAG 方法的痛点传统RAG方式面临的挑战:细粒度知识检索能力不足全局上下文关联缺失向量相似性与相关性错配全局性问题及推理型问题回答能力不足GraphRAG 的优势基于图技术的 RAG技术的优势。
12、从开源到商业化云原生架构下大模型的大规模推理产品化YeTing-DaoCloud目录业务背景和挑战01开源技术的力量03云原生化的 SaaS 平台介绍02Content未来规划04业务背景和挑战Part 01产品销售形态MaaS 服务Pay for Tokens模型部署Pay for Instances模型训练/微调开发机大模型推理的“三高”问题-MaaS算力成本问题推理性能问题高并发需求Maa。
13、面向GenAI时代的LOKAI基础设施挑战与实践郑振宇 OpenAtom openEulerGenAI 时代云基础设施的机遇与挑战2024全年云基础设施花费达到$330 Billion,较2023年上涨22%,较2022年上涨44.7%ChatGPT于2022年底发布,与基础设施业务爆发式增长节奏相匹配调查表明,超过半数基础设施增长源于GenAI业务Source:Synergy data and。
14、基于控制面单元化的 Kubernetes 集群联邦任静思 字节跳动资深研发工程师目录背景01关键技术细节03基于控制面单元化的 Kubernetes 集群联邦02Content背景Part 01大规模集群联邦带来的性能与稳定性挑战大规模生产环境集群联邦 在字节跳动,我们采用 Kubernetes 集群联邦作为全局资源的统一入口1.资源体量1.联邦总节点数:21 W+2.在线微服务数:10 W+3。
15、从一个安全漏洞聊起深入探究Kubernetes的网络和应用安全张晋涛 Kong Inc个人介绍 张晋涛 Kong Inc.CNCF Ambassador,KCD Organizer Kubernetes ingress-nginx maintainer LFAPAC Open Source Evangelist 公众号:MoeLove GitHub:tao12345666333目录探究 CVE-。
16、Karpor开启 AI 时代下可靠、安全、智能的多集群洞察之旅余凡Karpor Maintainer蚂蚁集团KusionStack:平台工程技术栈Kusion:平台编排器Kuperator:Kubernetes Controller扩展 套件Karpor:多集群管理与数据可视化工具多集群管理与资源洞察所面临的困境多云场景下,集群管理困难,亟需高效的多云管理工具ChatGPT,Deepseek 等。
17、面向LLM的高效计算:基于昇腾硬件和Volcano的软硬协同优化Shuqiao Li(Huawei,Senior Engineer)Zicong Chen(Huawei Cloud,Member of Volcano,R&D Engineer)目录节点内拓扑感知调度01昇腾NPU生态支持03跨节点网络拓扑感知调度02Content生产环境中管理算力负载0400背景介绍小结05背景介绍Pa。
18、AI powered Rust programming and LLM AgentsMiley Fu-WasmEdgeCNCF AmbassadorKubeCon+Open Source Summit+AI_Dev China 24 Co-Chairhttps:/ on LlamaEdge03Multimodel agents to localize Rust Learning content0。
19、Topology-Aware Scheduling for Large-Scale AI Workloads in Diverse Networks Clusters Using VolcanoXiaodong Ye,Moore ThreadsYu Zhou,Moore ThreadsBackground01Demo03Technical Details02ContentFuture Work0。
20、机密计算在无服务器(Serverless)架构中的应用:机遇和挑战中国移动云能力中心 容器服务团队李磊刘艳松目录Serverless和机密计算01性能评估03Knative+Confidential Containers02Content结论和挑战04Serverless和机密计算Part 01Serverless架构 Serverless强调的是一种架构理念和服务模型,所谓的“无服务器”是对用。
21、Rokid:在 AI+AR 场景下 Serverless 容器化技术探索与实践李鹏(阿里云)朱炜栋(Rokid)目录Knative 介绍01基于 Knative 部署 DeepSeek-R103Rokid 基于 Knative 最佳实践02ContentKnative 介绍Part 01Kubernetes 正成为数字化、智能化应用的云原生基础设施Public CloudEdge Computi。
22、Flame:A distributed system for intelligent workloadKlaus Ma(k82cn,Nvidia)目录Why Flame?01Architecture03Use Cases02ContentRoadmap04Why Flame?Currently,more and more frameworks are introduced for specifi。
23、HP云的模型服务自动化实践惠普DevOps架构师 郑风ContentHP云介绍01基于 KServe/Istio/Envoy 的架构实现03模型推理平台的需求与设计0204问答环节-模型部署-模型访问权限控制-HPA 动态扩展-可观测性-LLM Token 限流和统计-金丝雀发布目录HP云介绍Part 01HP云介绍 惠普云主要架在Amazon上,提供惠普内部项目所有服务的部署、监控、运维及管理。
24、基于Kubernetes的电力行业虚拟化平台大规模应用与实践目录背景&需求01未来&展望03技术&实践02Content背景&需求Part 01数据中心基础设施建设的新要求为加速“三商”转型与数字电网建设,为新型电力系统建设提供强大算力支撑,同时积极推动电力行业算力与电力深度融合,助力数字经济与低碳经济发展,南方电网制定了“3+1+X”数据中心规划。其中“X”主要。
25、Exploring the Next Generation of Secure Containers:gVisor and Kata FusionXuewei Niu Software Engineer,Ant GroupHang Su Software Engineer,Ant GroupTiwei Bie*Staff Engineer,Ant GroupSecure Containers O。
26、KubeVrit 网络深度探索灵雀云 刘梦馨目录KubeVirt 网络概述01Network Binding Plugin机制03Bridge 和 Masquade 原理02ContentKube-OVN 和 Network Binding04KubeVirt 网络概述 KubeVirt 采用 Pod 运行 VM,复用 CNI 网络 网络分为两部分:Pod 网络(CNI 提供)与 VM 网络(D。
27、使用 eBPF 实现LLM 推理服务的全栈可观测性向阳 云杉网络目录自建 LLM 推理服务的挑战01基于 eBPF 的全栈可观测性03如何建设推理服务的可观测性02ContentDeepFlow 用户的实践04自建 LLM 推理服务的挑战Part 01DeepSeek让 LLM 推理服务私有化建设加速如何保障自建 LLM 推理服务的用户体验?硬件“水很深”?依靠“搬运工”?如何打开性能黑盒,选型。
28、GenAl时代的开源:多样性算力的机遇与挑战姜逸坤(Yikun),Huawei,Principal EngineerYikunHuawei,Principal Engineer-Leads an“upstream first”R&D team-vllm-project/vllm-ascend maintainer-PyTorch TAC Member-Apache Spark Commi。
29、JuiceFS 在 Kubernetes 环境中数千节点数据集的应用实践苏锐-Juicedata 合伙人分享大纲-JuiceFS 是什么-JuiceFS 在 Kubernetes 上的几种使用姿势-数据 在 AI+Kubernetes 中遇到的挑战-提升 JuiceFS 在大型 Kubernetes 集群中的体验苏锐-2017 年作为联创开始 JuiceFS 的创业之旅-18 年 IT 工作,做。