《华为:2024华为云昇腾AI云服务实用指南(30页).pdf》由会员分享,可在线阅读,更多相关《华为:2024华为云昇腾AI云服务实用指南(30页).pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、华为云昇腾AI云服务6A FAMILY 云化算力底座目录大模型为 AI 产业带来拐点 03Sora 的出现再次印证 Scaling law,大模型创新需要澎湃算力支撑 04大模型引发全球算力需求的指数级增长 02大模型是人类迄今为止最复杂的软件、硬件系统 06昇腾 AI 云服务,大模型时代的最佳云化全栈算力服务 07满足多样化算力使用模式 08满足多样化算力管理模式 09满足多样化算力部署模式 10聚焦业务创新,企业需要全栈算力服务 05AI Gallery:一站式 AI 社区服务平台,构建百模千态的开放昇腾社区 23D-Plan:生态伙伴计划 24昇腾云服务开放兼容支持百模千态 22FAMI
2、LY昇腾云服务打造 6A 算力沃土 11昇腾 AI 云服务打造 6A 算力沃土,构建百模千态首选云底座 12故障恢复快 Fault recovery Acceleration 13资源获取快 Access Acceleration 14模型迁移快 Migration Acceleration 15云上推理投资优 Investment Advantage 17就近服务时延优 Latency Advantage 19云上性能优 Yield Advantage 21FAMILY昇腾 AI 云服务 全球行业先行者 26客户案例 2601华为云昇腾AI云服务大模型引发全球算力需求的指数级增长大模型引发全
3、球算力需求的指数级增长02华为云昇腾AI云服务大模型引发全球算力需求的指数级增长AI技术里程碑AI产业发展浪潮AI重点事件里程碑感知理解世界,专用领域替代低端重复性工作生成创造世界,通用领域替代较高端脑力劳动工作1956 年达特茅斯会议1997 年“深蓝”战胜人类2015 年视觉识别超过人类2020 年蛋白质结构预测2022 年ChatGPT专家系统视觉识别,翻译内容生成,预测ChatGPTGPT4Gemini控制论深度学习GANAI4SNLPCV大模型为 AI 产业带来拐点从“感知”走向“生成”,从专用走向通用人工智能产业发展经历三次浪潮。最近的一次是以 Transformer 架构为代表的
4、大模型,生成式 AI 的兴起,将我们带入新的 AI 产业浪潮之中。大模型是人工智能历史的分水岭,此前,人们更多关注和讨论的是机器如何感知世界,例如识别日常生活中的各种物体;而现在,人类则进入到通过大模型的生成能力创造数字世界,预测未来趋势。通过对海量数据的预训练,大模型可以在超高维度空间上对人类全部知识进行高度压缩,进行微调就可以完成多个应用场景任务的泛化,模型正在从专用走向通用。随着人工智能技术的日新月异,AI 将进一步驱动各行各业生产能力、生产效率从“量变到质变”,实现跨越式发展和新质生产力跃升,如何用好 AI 将成为国家、行业、企业的核心竞争力。03华为云昇腾AI云服务Sora 的出现再
5、次印证 Scaling law,大模型创新需要澎湃算力支撑大模型的爆发引发全球算力需求的指数级增长。2024 年基于扩散的视频生成模型 Sora 的出现,其革命性的视频生成能力,不仅展示了 AI 在视觉内容创造上的突破,更预示着全球算力需求的新一轮激增。数据显示,过去10 年 AI 算力需求翻了 30 万倍。而未来 10 年 AI 算力将再增长 500 倍。数据集规模将从目前的一两个 T 增长到100T。此外,大模型还需要理解更长的上下文,Token 长度将从千级发展到十万级。视频生成类模型的算力消耗相比 LLM 提升 20 倍,意味着训练集群规模要扩大一个数量级。万卡训练集群将成为训练下一代
6、生成式模型的必备条件。由于算力规模扩大,算力的调度和管理的难度将大幅提升,需要有一个算力平台可以整合管理,调度,自动故障隔离,checkpointing,自动任务恢复的任务。这些挑战相互影响、环环相扣。针对 AI 时代的这些挑战,华为云提出了软硬件结合的系统性创新,华为云昇腾 AI 云服务整合集群算力、计算引擎 CANN、AI 开发框架 MindSpore 和 ModelArts AI 开发生产线。为大模型的训练,推理,AI 应用的开发、运行提供稳定可靠的全栈算力保障。2012 年至 2023 年算力需求翻了数十万倍感知认知生成1e+41e+31e+21e+11e+01e-11e-21e-31
7、e-4201220132014201520162017201820192020202120222023GPT-4ChatGPTGPT-3AlphaZeroTI7 Dota 1v1XceptionDeepSpeech2AlphaGoZeroVGGNeural Machine TranslationVisualizing and Understanding ConvNetsGoogleNetAlexNetSeq2SeqResNets数十万倍需求增长百倍级AI 算力增长数千倍差距模型规模及发布时间Source:Factorial Funds AI inference compute comparis
8、onSORA 所消耗的算力相比LLM 类模型要大数个量级推理消耗算力对比 FLOPS1025102310211019101710150.81.00.60.40.20.0Sora(1 min video)GPT-4(1000 text tokens)LLama-2 70B(1000 text tokens)DiT-XL/2 Image Generation(512x512px images)大模型引发全球算力需求的指数级增长04华为云昇腾AI云服务聚焦业务创新,企业需要全栈算力服务聚焦业务创新,企业需要全栈算力服务05华为云昇腾AI云服务大模型是人类迄今为止最复杂的软件、硬件系统大模型是一个复杂
9、系统工程,大模型开发的每一步都存在着大量的工程化技术挑战。算力系统也并非算力的简单堆积,需要解决诸如低时延数据交换,节点之间均衡计算避免冷热不均,消弭算力堵点。避免出现单点硬件故障导致的全面训练中断、梯度爆炸、算法重训等一系列的问题,是一项复杂的系统工程,需要从算力效率、线性扩展、长效稳定等多个方面进行系统设计。而云化的全栈算力服务由于积累了足够多的模型训练,运维经验,以服务的方式让企业使用到最新的经验,技术成果,避免重复解决问题,让企业得以聚焦创新。大模型不仅需要算法,而且需要数据处理,软硬件优化、模型开发、应用创新、推理部署的系统工程能力业务规划应用发布压缩/转换优化/部署一.数据&模型准
10、备1.数据处理5.推理部署6.集成2.模型设计3.算力准备&系统调优4.大规模训练&微调二.算力准备&模型训练三.推理部署&集成公共开放数据处理行业特征工程模型架构设计超参定义和范围标定模型层/优化器设计模型微调设计行业私有数据处理指令微调数据处理计算平台系统设计AI 集群平台建设系统调试与上线转换剪枝蒸馏量化在线推理离线推理模型预训练代码调试模型训练下游任务微调防攻击/故障隔离API 开放代码调试模型微调 参数面无损网络 多级存储优化 计算集群密度设计 液冷设计 多样化算力调度 集群稳定性设计 开源数据集选择 预训练数据清洗 数据质量测试 稠密稀疏混合架构 RLHF 算法设计 RLHF 数据
11、集标注 多种并行策略设计 通信链路加速 多任务可视化 profiling 断点续训设计 算子融合调优 多样化算力调度 多任务权重融合 大模型分布式推理切分 在线推理框架 模型剪枝和蒸馏技术 模型 INT 量化 下游多任务效果测试 微调算法优化 推理性能调优 推理集群设计 推理集群调度系统 多应用 Load Balance API 接口设计 防攻击设计 故障恢复和隔离 聚焦业务创新,企业需要全栈算力服务06华为云昇腾AI云服务昇腾AI云服务,大模型时代的最佳云化全栈算力服务昇腾 AI 云服务:包括云化算力、AI 开发生产线 ModelArts 和 AI 开发者生态 AI Gallery。为支持大
12、模型的“百模千态”创新,昇腾 AI 云服务提供触手可及的澎湃 AI 算力服务,独有的多级恢复机制和完备的工具链可实现千卡训练连续 30 天不中断,任务恢复时长小于 30 分钟,为大模型和 AI 应用的开发、运行、运维提供最佳算力云底座。昇腾AI云服务官网解决方案案例应用示例数据模型AI Gallery百模千态社区应用场景LLMAIGC自动驾驶内容审核数字人模型托管模型统一注册管理模型统一训练微调模型统一应用服务公有云混合云专属云边缘云AI 计算硬件通用计算硬件AI 框架MindSpore、TensorFlow、PyTorch.异构计算架构芯片使能AI 平台ModelArtsStandardLi
13、teEdge澎湃算力即开即用无需自建或改造数据中心高效易用全栈平台能力无需投资通用 AI 技术集群训练故障自动恢复无需担心运维和安全打造百模千态的黑土地无需担心模型开发应用难云网边端芯算力协同无需担心端侧算力瓶颈聚焦业务创新,企业需要全栈算力服务07华为云昇腾AI云服务满足多样化算力使用模式offering 提供大规模算力集群 提供分布式加速库 提供大模型适配和优化 技术栈开放,高度自主可控拥有超级 APP自研大模型需要数千卡算力offering 提供主流三方大模型 提供完善的 SFT 训练框架 提供参考案例 提供易用的大模型应用开发工具链拥有较强行业背景和大量行业数据增量训练大模型需要数百卡
14、算力offering 提供开箱即用的开源大模型,支持微调,快速上手 提供端到端应用开发工具链、向量数据库等 提供丰富的预制应用模板拥有较深的行业理解智能应用开发需要数十卡算力聚焦业务创新,企业需要全栈算力服务08华为云昇腾AI云服务满足多样化算力管理模式AI 开发生产线 ModelArts,是面向 AI 开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。为满足客户多样化的算力管理模式,ModelArts 提供 Standard 和 Lite 两种模式。ModelArts
15、Standard 包含端到端的 AI 开发生产线+算力持续运维平台。ModelArts Lite 仅包含算力持续运维平台。ModelArts StandardModelArts Lite一站式 AI 开发平台数据管理模型开发训练任务推理服务IDE 插件CodelabSDK|CLI昇腾工具链TensorFlow/Pytroch等第三方框架 提供端到端的 AI 开发生产线+算力持续运维平台ModelArts Standard 服务的介绍端到端生产工具链,一致性开发体验 线上线下协同开发,开发训练一体化架构,支持大模型分布式部署及推理AI 工程化能力,支持 AI 全流程生命周期管理 支持 MLOps
16、 能力,提供数据诊断、模型监测等分析能力,训练智能日志分析与诊断容错能力强,故障恢复快 故障检测覆盖度 95%,故障 30 分钟内恢复,恢复成功率大于 95%,保障千卡作业稳定训练数周以上,训练有效卡时大于95%ModelArts Lite 服务的介绍零改造迁移 提供业界通用的 k8s 接口使用资源,业务跨云迁移无压力 SSH 直达节点和容器,一致体验多种资源形态 集群模式,开箱即提供好 Kubernetes 集群,直接使用,方便高效 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性极致性价比 提供高性价比国产算力 多年软硬件经验沉淀,AI 场景极致优化 加速套件,训练、
17、推理、数据访问多维度加速故障恢复 机柜、节点、加速卡、任务多场景故障感知 节点级、作业级、容器级,多级故障恢复 算力持续运维平台ModelArts Lite资源访问方式Kubernetes专属集群资源调度虚拟机/裸金属AI 加速集群管理推理加速Kubernetes/SSH/APIElastic Cluster(原生接口)Elastic Server(原生算力)训练加速数据加速门户管理故障管理告警管理权限管理运营管理AI 算力聚焦业务创新,企业需要全栈算力服务09华为云昇腾AI云服务聚焦业务创新,企业需要全栈算力服务满足多样化算力部署模式端云协同,以云助端的案例昇腾 AI 云服务通过云网边端芯算
18、力协同,为端侧提供更充沛算力,让终端应用更智能。受限于体积和成本等因素,手机硬件很难做到高清拍摄,也无法支撑超分修图的算力要求。通过以云助端,调用云端强大的算力,利用枢纽节点大规模算力来进行超分修图,突破手机硬件的限制,为用户的手机拍照体验带来了全新的突破,使得用户能够在手机上轻松获得专业级的照片效果。AI Server 集群业务算法设备映射至PodNPUNPUNPU故障管理.核心枢纽华为云高速骨干网传输边缘节点端侧压缩80M18M云上 ms 级传输AI 推理:55s 3.3S网络传输 10S 2S端云边CloudPondModelArts Edge提供通用算力+AI算力服务混合云(客户机房)
19、公有云(华为机房)提供AI算力服务10华为云昇腾AI云服务昇腾云服务打造 6A 算力沃土FAMILY昇腾云服务打造 6A 算力沃土FAMILY11华为云昇腾AI云服务昇腾 AI 云服务打造 6A 算力沃土,构建百模千态首选云底座FAMILY昇腾云服务打造 6A 算力沃土FAMILY大模型时代的 AI 算力对数据中心的基础设施要求极高。以散热为例,AI 服务器的功率密度远超通用服务器,单机柜的功耗是过去的 6-8 倍,并需要专用的液冷系统进行散热。大模型训练动辄需要百卡、千卡甚至万卡,自建AI 数据中心面临 AI 研发人员稀缺,硬件建设周期长、集群运维团队经验少、推理服务时延高等诸多挑战。6A
20、FAMILY3 个加速(Acceleration)模型迁移快Migration资源获取快Access故障恢复快Fault recovery就近服务时延优Latency云上推理投资优Investment云上性能优Yield3 个优质(Advantage)CloudOcean华为云全球中心CloudSea华为云区域枢纽CloudLake智能边缘云CloudPond智能边缘小站盘古矿山大模型盘古政务大模型盘古气象大模型盘古汽车大模型盘古大模型LLAMA2GLMV2Stable DiffusionGLMV1开源大模型自研大模型星火大模型百川大模型紫东太初大模型12华为云昇腾AI云服务故障恢复快 Fau
21、lt recovery Acceleration在云上,可以获得更快速的运维保障,集群故障可以做到 1 分钟发现,5 分钟诊断,10 分钟恢复。昇腾云服务打造 6A 算力沃土FAMILY昇腾 AI 云服务精确隔离,恢复快作业级恢复隔离节点恢复节点级恢复业界全部重启,恢复慢故障 2故障 1故障 3业界实践:业界大模型训练平均 2.8 天出现一次中断 业界故障处理时间约 130 天,严重拉低大模型训练效率在 1000 个 80G A100 上 训 练 3000 亿个单词,需要 33 天。实际训练了 90天,期间出现 112 次故障。训练时间变长大模型训练期间碰到的主要问题是硬件故障、导致任务手动重
22、启 35 次,自动重启约 70 多次,严重影响模型的训练进程。硬件故障占比高(图示为训练过程中的意外中断情况,横坐标为训练时间,纵坐标为困惑度 PPL)Sat 13Sat 11Sat 27Mon 15Mon 13Mon 29 DecemberWed 17Wed 15Fri 19Fri 03Dec 05Nov 21Tue 23Tue 07Thu 25Thu 091312111098传统方式是被动响应集群故障,重启范围广,作业恢复慢华为实践:盘古-200B 在非故障停机前连续稳定训练 30 天 全链路故障感知,覆盖不同层次的故障感知;故障诊断引擎:训练任务分层分级诊断能力;丰富的诊断类型:支持 3
23、00+通用种故障类型诊断,覆盖度 95%+。1 分钟故障检测,5 分钟诊断 通过三级故障恢复,减少 50%故障恢复耗时;硬件故障不影响业务,10 分钟故障恢复;CKPT、图编译、建链、调度协同优化,缩短恢复时间。10 分钟故障恢复Ioss01000002000003000004000005000006000007.55.02.5PanGu-昇腾 AI 云服务主动诊断故障,避免训练中断,确保集群长稳运行13华为云昇腾AI云服务资源获取快 Access Acceleration在云上,模型训练可一键接入贵安、乌兰察布、芜湖,香港 AI 算力中心,支撑万亿参数大模型、百 P 数据训练。贵安AI 算力
24、中心乌兰察布AI 算力中心芜湖AI 算力中心香港AI 算力中心绿色:全液冷,PUE 低至 1.1澎湃算力:超大集群,30 天训练不中断支持 6+主流 AI 框架,90%+算子.昇腾云服务打造 6A 算力沃土FAMILY14华为云昇腾AI云服务模型迁移快 Migration Acceleration昇腾云服务支持业界各类框架、加速库及三方社区生态,可快速、无损实现模型和应用的迁移适配。第三方推理服务支持“0 代码”快速对接业界推理部署平台支持并行推理、动态调度等关键特性NV Triton业界推理模型标准100+基础模型,定制模型零成本迁移第三方 AI 框架支持并兼容各版本高阶特性全面兼容1.8、
25、1.11、1.13、2.0 主流版本图模式、分布训练、量化等高阶特性已适配 70+模型正与百度深度合作,共同推进模型适配全面支持1.5、2.X 主流版本,300+模型第三方模型已支持三方社区数百个模型机器视觉领域主流方向支持 OpenMMLab 社区算子库、套件等MMcvCV算子库MMdetection图像检测套件MMSegmentation语义分割套件MMClassification图像分类套件自然语言处理类模型套件各类 Transformer 模型.HuggingFace Transformers第三方算子支持算子 Kernel 级源码迁移算子迁移开发周期2人月2人周转换工具编译器毕昇编译
26、器二进制格式二进制格式GPU源码Ascend C源码第三方加速库跟随版本支持最新特性分布式并行训练加速库支持混合精度、MoE、通信优化等特性Transformer 加速库支持多维混合并行、跨节点预训练等特性NV MegatronLM昇腾云服务打造 6A 算力沃土FAMILY15华为云昇腾AI云服务大模型开发工具华为云昇腾 AI 云服务提供从云化算力、模型开发、模型托管到生态的全栈服务,企业无需再次投资 AI 相关的通用技术,可以一键链接云上的开发平台,获取开发所需要的工具的套件。三大全流程工具链,一站式加速大模型敏捷开发大模型开发工具链加速大模型开发和应用3X 效率提升自动化数据清洗半自动标注
27、平台一键启动三大工作流行业大模型一站式开发5min 快速构建一切皆可编排一切皆可调用数据接入模型选择模型开发模型微调评测prompt通用 AI 开发工具提升 AI 开发效率2X开发效率70%标注效率60%维护成本全链路监控系统模型训练数据处理Notebook(SDK|CLI|IDE插件)模型推理数据预标注1400+算子沉淀全支持主流 AI 框架一键迁移多场景代码网络开发功能调试性能调试精度调试性能测试算子开发迁移分析算力调优工具链挖掘算力极致性能提供端到端昇腾迁移工具链,自动化迁移工作可从 4 周缩减至 2 周。大模型迁移工具提供工具化端到端迁移调优服务,包括 30+可视化调优部署工具、自动化
28、迁移工具,典型场景迁移至生产环境 分钟级 完成分析评估一键转换,2 行代码实现脚本适配精度调试训练整网精度问题定位时间数周-一周内性能调优训练整网性能瓶颈定位时间数周-一周内部署上线模型 20 倍级压缩,精度损失 0.5%(业界压缩比 10 倍,精度损失 1%)框架层调优硬件调优CANN软件栈调优自定义算子扫描三方库扫描API扫描数据Dump溢出检测精度比对业务部署迁移流程迁移转换工具精度分析工具可视化调优工具压缩部署工具工具关键功能端上学习增量/迁移学习;联邦学习;数据处理;自定义Fine-Tune层轻量化推理工具模型格式转换;量化;异构调度;内存复用;算子融合;子图在线拆分;算子选择超轻量
29、化推理图算子代码生成数据解析Ascend NPUOS训练脚本数据采集Data优化建议数据采集瓶颈解析数据可视化溢出检测精度比对Dump数据精度调试GPU vs NPU 比对CPU vs NPU 比对NPU vs NPU 比对支持度扫描分析报告开发套件昇腾云服务打造 6A 算力沃土FAMILY16华为云昇腾AI云服务云上推理投资优 Investment Advantage在云上,云计算弹性扩缩容支持业务快速增长的同时避免业务波谷时资源闲置。新应用一旦顺利渡过孵化期拐点,用户规模爆发式增长Time to 100 Million Users100MUsers单位:月01020304050ChatGP
30、T2TikTok13Facebook42WhatsApp49Instagram26Snapchat39ToC 业务的推理,存在明显的波峰波谷现像07/31 00:0008/01 00:0008/02 00:0008/03 00:0008/04 00:006005004003002001000700单位:天资源按需付费,让不确定的推理资产投资变得可控,成本控制更优。业务曲线与资源曲线有 GAP起步投资大,容易产生资源短缺与浪费云资源可以根据业务情况灵活增减起步投资小,更快进行开发和部署,提升利用率创新的障碍分配的IT容量分配的IT容量预期负载预期负载短缺的IT容量固定的TT能力成本在负载减少的情
31、况下可能减少的IT容量实际负载实际负载浪费的容量减少过配没有短缺减少初始投资弹性按需自建IDC云计算时间IT能力时间IT能力昇腾云服务打造 6A 算力沃土FAMILY17华为云昇腾AI云服务云上,资源按需付费,让不确定的推理资产投资变得可控,成本控制更优。Z 客户:华为云 20 分钟开通1000 卡(自 建 需 3 个 月),可随时弹性扩容,TCO 节省30%以上1公有云模式 分钟级开通M 客户:购买贵安机房内1000 卡,符合金融监管要求,华为云服务、DC 运营运维服务2专属云模式 1 个月内开通G 银行:线下自建昇腾云周期太长,考虑转向专属云模式3自采自建云 3-6 个月开通自建数据中心招
32、标完到验收 3 个月以上1.5 月左右1.5 月 2 月1 月左右0.25 月0.5 月交付流程招标到货硬件安装、软件调测验收业务割接昇腾云服务分钟级资源开通上线1.5 月左右0.25 月0.5 月分钟级零昇腾云服务打造 6A 算力沃土FAMILY18华为云昇腾AI云服务就近服务时延优 Latency Advantage在云上,推理服务可以就近接入,实现超低时延优质服务体验。推理时延档位:200ms:非实时类业务200ms(时延不敏感:医疗、编程、学习辅导等)100-200ms(语音对话:数字人、机器人)推理时延(与应用场景强相关)特点:达到场景诉求后无需持续提升并发数(同等资源,并发越高,性
33、价比越高)特点:存在持续提拉的需求推荐业务主要诉求是低时延&高精度端到端应用时延:以 500 公里范围为例推荐业务系统(推理+业务:近 140ms)5ms5ms用户首页登录男/25 岁/近期点击过水杯100 水杯按推荐度排序从数万商品召回 100 水杯商品推荐排序召回网络传输网络传输基于用户特征推理*首页商品广告推荐Case:用户登录*APP昇腾云服务打造 6A 算力沃土FAMILY19华为云昇腾AI云服务 7万+服务器,400万+核资源北京:规模最大 A类机房,金融等保4级,70+柜金融基础设施,最大金融专区上海:金融高地 广州&深圳双POP&AZ就近接入 跨境电商基地,出海时延低至5ms广
34、州:出海桥头堡 4AZ部署,50ms覆盖亚太区域 跨境出海首选香港:覆盖亚太流量高地(支撑 X 十万级规模)70 万核,全球最大渲染超算基地 大规模集群支持千亿、万亿参数大模型训练与推理乌兰察布:算力&AI 中心 华东枢纽节点,规划百万级服务器 UB 网络、Grid 架构、IPv6、管理区云原生化芜湖:全新技术加持 东数西算中心,国家 8 大枢纽节点之一 PUE1.12,国家节能示范基地贵安:东数西算枢纽,PUE 最低资源中心(支撑 X 百万级规模)围绕三大数据中心构建核心的训练推理大集群 10ms 可达乌鲁木齐哈尔滨长春沈阳大连青岛济南天津北京太原银川兰州西宁成都重庆昆明南宁贵阳澳门海口香港
35、深圳福州厦门南昌长沙武汉南京郑州西安上海杭州宁波苏州合肥广州18.天山北坡12.哈长16.兰西17.关中平原6.成渝9.滇中14.北部湾2.粤港澳8.海峡西岸1.长三角5.山东半岛3.京津冀15.晋中7.中原4.长江中游11.黔中19.宁夏沿黄13.呼包鄂榆10.辽中南沈阳西安昆明青岛福州郑州武汉成都长沙南宁深圳哈尔滨乌兰10ms10ms10ms贵安芜湖香港上海北京广州3 大资源中心N 大流量高地(围绕 19 个城市群规划)在云上,推理服务可以就近接入,实现超低时延优质服务体验。昇腾云服务打造 6A 算力沃土FAMILY20华为云昇腾AI云服务云上性能优 Yield Advantage在云上,
36、通过持续的算子优化,显存优化,通讯优化可以显著提升集群性能,线性度 90%。Model Flops Utilization 用来衡量 AI 集群的算力利用率算子优化+显存优化 MFU=(1-AllReduce 占比-All2AIl 占比-Bubble 占比-无法掩盖的内存转移占比)Mac 利用率通讯优化通信零冲突、零拥塞动态路由算法智能编排通信路径通讯优化Spine 1ToR 1ToR 2ToR 3ToR M.节点112348765节点612348765节点12348765节点12348765Spine 2Spine 3Spine 12机柜小算子融合成大算子减少 launch 时间和内存访问算
37、子优化大算子AttentionLnQKVMatmulBiasAddLayernormMatmulBiasGeLUMatmulBiasAddOnline Softmax+BMM算子1算子2算子3算子4算子5算子6算子7算子8算子9算子10算子11算子12算子13算子14算子15算子16ZeRO-Offload在显存中直接进行通信和同步,不再需要通过网络或主机内存显存优化CPUNPUNPU MemoryHundreds of GBTens of GBCPU Memory昇腾云服务打造 6A 算力沃土FAMILY21华为云昇腾AI云服务昇腾云服务开放兼容支持百模千态昇腾云服务开放兼容支持百模千态22
38、华为云昇腾AI云服务AI Gallery:一站式 AI 社区服务平台,构建百模千态的开放昇腾社区昇腾云服务开放兼容支持百模千态StableDiffusionMOSSQwenMiniGPT4讯飞星火紫东太初智谱百川DollyBloomVideoComposerVisualGLMGen-LVideoSegmentAnythingLlama昇腾云服务支持百模千态AI 说开发者交流乐园干货分享观点碰撞数据之美提供数据集支持一键订阅千态广场发挥您的创意,分享您的 AI 应用活动AI 活动&赛事开发者的实践平台案例场景化的 AI 案例,助力 AI 赋能千行万业百模中心汇聚最新 AI 模型资源,快速应用模型
39、能力百模千态社区AI Gallery 百模千态社区,基于昇腾云服务算力底座,致力于构建一站式 AI 社区服务平台,包含丰富 AI 资产、服务、解决方案。适配业界主流开源大模型,易用开发工具和超强算力,助力企业和开发者快速创建模型应用,在大模型时代快人一步。23华为云昇腾AI云服务算法伙伴ModelArts 算法团队行业 Know-how 伙伴行业 AI 解决方案行业拓展/实践复制实践抽象以行业实际场景需求出发践行普惠 AI与行业 Know-how 一起构建 行业竞争力联接供需两端共建百模千态社区D-Plan AI 生态伙伴计划是围绕华为云 AI 开发生产线 ModelArts 推出的一项合作伙
40、伴计划,旨在与合作伙伴一起构建合作共赢的 AI 生态体系,加速 AI 应用落地,华为云向伙伴提供培训、技术、营销和销售的全面支持。D-Plan:生态伙伴计划昇腾云服务开放兼容支持百模千态24华为云昇腾AI云服务昇腾云服务开放兼容支持百模千态简单易上手的开发流程,帮助企业和开发者快速创建模型应用34进行推理部署将模型部署为在线服务验证模型效果调用模型服务验证效果12启动微调训练选择预置数据训练模型选择模型选择经昇腾适配优化后的模型AI Gallery官网二维码25华为云昇腾AI云服务客户案例昇腾 AI 云服务 全球行业先行者华为小艺大模型给小艺带来体验的全面提升,大模型加持下的小艺日人均使用时长
41、相比之前提升了 15 倍,人均对话次数提升了 1.8 倍。小艺大模型能力的升级根植于华为云昇腾 AI 云服务算力黑土地,通过华为云 ModelArts 管理大规模算力集群,提升可靠性与性能,降低成本,打造训推一体资源底座,支撑小艺的日常预训练在线推理,支撑千万用户在线使用。科大讯飞科大讯飞是全球知名的智能语音和人工智能头部企业,通过华为提供昇腾集群进行讯飞星火大模型训练,训练性能整体提升 17%。昇腾 AI 云服务不仅可以快速提供数百卡的推理资源,也可以根据业务上线情况随时调整资源使用量,不会导致投资浪费。华为云全球算力布局也支持了科大讯飞业务出海,共同服务全球企业智能化。华为云数字人华为云
42、MetaStudio 数字人,依托昇腾 AI 云服务的澎湃算力,提供数字人快速生成及定制服务,具备数字人视频制作、视频直播、智能交互、企业代言等多种服务能力,可大幅提升视频制作、直播效率,重塑数字内容生产。网易伏曦网易伏羲与华为云进行技术联合创新,依托云原生技术构建了 AI 多云平台,并进一步适配华为云昇腾 AI 云服务,在算子层和框架层进行大量性能优化,满足交互场景的秒级时延要求,保障玩家流畅丝滑的互动体验。此外,云原生技术可实现游戏服分钟级部署,4000 容器分钟级扩容,轻松应对玩家流量洪峰,让智能 NPC“忙时不慌,闲时不废”。26华为云昇腾AI云服务客户案例美图美图自研 AI 视觉大模
43、型 MiracleVision(奇想智能),广泛应用于电商、广告、游戏、动漫、影视五大行业,帮助细分领域设计场景提升效率。在华为云昇腾 AI 云服务的助力下,将文生图、图生图等场景使用到的模型迁移到了昇腾 AI 云服务上,双方共同进行了 30 多个算子的优化以及流程的并行加速,迁移后,美图 AI 绘画等业务推理提升 30%,帮助企业更好地实现降本增效。HKGAIHKGAI 于 2023 年 10 月成立,是创新香港研发平台下唯一专注于生成式人工智能的研究及开发的中心,开发了香港本地首个自主训练的基础大模型。华为云为 HKGAI 提供云原生服务,保障线上应用的平稳运行,并将支持多元化、高效、稳定
44、的算力选择,实现可持续的高效创新。面向未来 HKGAI 也在昇腾云等领域和华为云探讨合作,携手为香港人工智能产业创新注入新动能。合合科技华为云与软件伙伴合合信息构建联合解决方案,基于昇腾云服务在香港提供的 AI 算力及跨境可信网络与合规框架,承载智能文档解晰、商业大数据及合规审计、风控管理等多个子功能,可为企业提供资质的验真、分类、识别等AI 辅助能力,加快基金申请审批速度,优化端到端流程服务,大幅降低相关人力投入。27华为云昇腾AI云服务华为技术有限公司深圳龙岗区坂田华为基地电话:+86 755 28780808邮编:商标声明 ,是华为技术有限公司商标或者注册商标,在本手册中以及本手册描述的产品中,出现的其它商标,产品名称,服务名称以及公司名称,由其各自的所有人拥有。免责声明本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺,华为不对您在本文档基础上做出的任何行为承担责任。华为可能不经通知修改上述信息,恕不另行通知。版权所有 华为技术有限公司 2024。保留一切权利。非经华为技术有限公司书面同意,任何单位和个人不得擅自摘抄、复制本手册内容的部分或全部,并不得以任何形式传播。与我们联系