《在+Kubernetes+云平台上训练和部署生成式+AI+大模型.pdf》由会员分享,可在线阅读,更多相关《在+Kubernetes+云平台上训练和部署生成式+AI+大模型.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。在 Kubernetes Kubernetes 云平台上训练和部署生成式 AI AI 大模型王宇博开发者关系总监亚马逊云科技 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。生成式 AIAI 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。1.生成式 AI2.Kubernetes 上的机器学习3.用于生成式 AI 工作负载的 Amazon EKS
2、基础设施目录 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。什么是生成式 AIAI创造新内容和想法,包括对话、故事、图像、视频和音乐由大模型驱动,此类模型是在庞大的数据语料库中进行预训练,通常也称之为基础模型(FM)2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。生成式 AI AI 的发展一日千里 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。Claude 3 Claude 3 创造模型智能水平的新纪录Claude 3 Opus Claude 3 Opus 在大多数常见的 AI
3、 AI 系统评估基准测试中优于同类模型本科生水平专业知识 (MMLU)(MMLU)多语言多模态的推理能力知识问答和复杂编程(ARC(ARC-Challenge,Challenge,HumanEvalHumanEval)来源:https:/ (GPQA,Diamond)(GPQA,Diamond)数据问题,跨语言数学能力 (MATH,MGSM)(MATH,MGSM)2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。Anthropic Anthropic 使用 Amazon EKS Amazon EKS 和 KarpenterKarpenter构建和训练 LLM
4、LLM挑战 :Anthropic 需要高效可靠地构建、训练和部署其拥有数十亿参数的 LLM(Claude)解决方案 :Anthropic 使用带有 Karpenter 自动伸缩功能的 Amazon EKS 和用于模型检查点的 S3 构建了所有应用,包括使用 Spark 进行数据处理、模型训练和模型推理。结果 :训练作业可扩展至数万个 pod使用 Karpenter 和 Spot 实例,成本降低了 40%Amazon EKSAmazon S3 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。Kubernetes Kubernetes 上的机器学习 2024,
5、Amazon Web Services,Inc.或其附属公司。保留所有权利。机器学习的挑战依赖性管理上市速度/成本安全/合规计算调配/扩展集成 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。包训练代码依赖关系配置TensorFlow mklcuDNNcuBLASNCCLCUDA toolkitCPU:GPU:TensorFlow container imageKerasHorovodNumPySciPyothersothersscikit-learnpandasOpen MPIPython+Your training scriptsML 环境是轻便性可移
6、植可扩展一致性Container runtimeInfrastructureAcceleration driversHost OS为什么将容器用于机器学习 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。用于机器学习的 KubernetesKubernetesCLI期望状态 在2个 GPU 上训练模型 在10个 CPU 上托管模型.OrchestratorKubernetes容器映像注册表加速计算为机器学习提供有效的编排 简化训练环境部署的扩展 更好地利用集群上的 CPU 和 GPU 资源 通过 K8s 控制器的内置弹性降低故障率 2024,Amazon