《华为:2024年AIReady的数据基础设施参考架构白皮书(28页).pdf》由会员分享,可在线阅读,更多相关《华为:2024年AIReady的数据基础设施参考架构白皮书(28页).pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、华为技术有限公司深圳龙岗区坂田华为基地HUAWEI电话:+8675528780808邮编:Al-Ready的数据基础设施参考架构白皮书存以智用,加速数据觉醒OnlyforprelOnlyfor preview商标声明WEI,是华为技术有限公司商标或者注册商标,在本手册中以及本手册描述nlyforpreviev免责声明本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺,华为不对您在本文板权所有华为技术有限公司2024。保留一切权利。非经华为技术有限公司书面同意,任何单位和个人
2、不得擅自摘抄、复制本手册内容的部分或全部,并不得以任何形式传播。编写委员会目录顾问陈国良、周跃峰指导委员会庞鑫、常、胜、杨柏梁、樊杰01序言一03A/-Ready的数据基础设施的特征与参考架构张祎严浩03序言二25AI-Ready的数据基础设施定义与特征主编28A/-Ready的数据基础设施三大应用场景及参考架构龚涛韩茂、孙睿AI大模型加速行业智能化28智算中心场景01编委转型33云和互联网场景36边缘训推场景07AI大模型最新发展概况夏庆文、王振、周毅、刘乙成08AI大模型应用在行业逐步普及梁佳妮、乐遥、孙逊、秦烜、11Al大模型需要A/-Ready的基础设施forpreviey04Al-R
3、eady的数据基础设施实践案例索海东、段芳成、曹长斌、陈晓丽梁莹、张、勇、夏志辉、王耀辉、41科大讯飞x华为OceanStor存储,加速A/全流程业务李泽宇、曾帆、任祥贵、徐晶、42D银行x华为OceanStor存储,用AI赋能智慧金融业务李国杰、温立、张震02AI大模型数据基础设施实践中的挑战与建议T云x华为OceanDisk存储,构筑领先智算中心云底座(以上排名不分先后)45紫东太初x华为FusionCube训推一体机,加速智能客服场景创新与实践主编单位15数据资产管理挑战华为技术有限公司16集群可用度挑战18数据一致性挑战05给CIO的行动建议20数据安全挑战52参考文献Only for
4、previeA/-Ready的数据基础设施参考架构白皮书02打造“Al-Ready”的数据基础设施,既是推四、可持续与绿色。随着数据量的爆发式增长,数据基础设施的能源消耗与环境影响不体创新能力、实现数字化转型的战略选择。容忽视。我们应倡导并践行绿色数据中心建设,通过技术创新与管理优化,提高能源使用Al-Ready的数据基础设施应具备以下特效率,减少碳排放,实现数据基础设施的可持征:续发展。一、开放与互联。在数据资源日益丰富多CA/-Ready的数据基础设施是产业界研究元的今天,数据基础设施需打破信息孤岛,实的热点,也是各国投入的重点方向,这本白皮现跨部门、跨领域、跨地域的数据互联互通,书是一次
5、非常有意义的探索,对于相关决策部形成开放共享的数据生态。这需要我们构建高G门、企业界、学术界具有很好的启示和参考意效的数据交换平台,制定统一的数据标准与接义,在新的趋势和发展机遇下,期待产业各方CHAIN口规范,推动数据资源的有序流动与价值共深化合作和持续创新,推动数据基础设施快速创。pre发展,在促进数字经济发展上发挥更大的作用,扬帆远航!二、智能与敏捷。AI时代的数据基础设施应具备智能化处理能力,通过自动化工具和算法模型对海量数据进行高效清洗、整合、挖Only掘,为AI应用提供精准、实时的数据支持。陈国良同时,基础设施应具有高度的灵活性与可扩展中国科学院院士序言一性,能够快速响应业务需求变
6、化,实现数据服务的按需供给与动态调整。大模型赋予数据以新的生命力,AI时代存力,运力共同支撑高质量的数据挖掘和存储三、安全与合规。在保障数据价值释放的大数据蕴含的价值将进一步涌现。数据因AI能力。数据基础设施正在成为大模型发展的基同时,必须高度重视数据安全与隐私保护。数而变得越来越重要,数据要素是新型生产力的石,首先,数据基础设施是大模型的“粮仓”,forprev据基础设施应内置严格的数据访问控制机制,代表,数据基础设施的能力成为AI时代的国为大模型提供数据养料,没有充足、优质的数采用先进的加密、脱敏等技术手段,防止数据家重要竞争力。据,大模型的学习能力将大打折扣;其次,数泄露、篡改或滥用。此
7、外,应遵循国内外相关据基础设施的完善程度直接影响大模型的训练法律法规,建立健全数据生命周期管理机制,AI的发展与数据基础设施密不可分,AI大速度和可用度,进而影响大模型在各个领域的确保数据处理活动合法合规。模型基础设施的竞争正在进入新的阶段,从单发展速度;最后,数据基础设施是抵御数据风一的比拼算力,到比拼算存运的协同,由算力,险的最重要防线,是数据要素的保险库。因此,I序言二今天,人工智能(AI)发展如火如茶。随数据的载体,如果无法提供高性能、强一致、orpreviev数据中心、多分支的数据高效归集到AI智算华为公司在数据基础设施产业深耕超过二着基于Transformer的深度学习算法日趋完安
8、全可靠的数据访问服务,那再高质量的数据中心;再结合算存网协同配合,让归集后的数十年,深刻理解数据是行业发展的基石。通过善并逐渐收敛,业界普遍通过堆叠算力以获得也无法有效服务于AI计算。借用一句名言“茶据可以被高效访问和处理,让数据做到真正可与业界专家、客户和伙伴进行深入沟通和相互更好的大模型训练结果。与此同时,人们日益壶里煮饺子,倒不出来就不算饺子”。所以,用。其次,它应该是针对AI场景具有高性能学习,我们编写了本白皮书,旨在为AI大模关注到数据基础设施作为承载数据的平台,对面向AI构建具有先进存力的数据基础设施,和强一致的,以在数据加载阶段提供海量小文型时代提供AI-Ready的数据基础设施
9、提供训练效率与结果的影响亦不容小靓。甚至可以已经成为AI大模型时代的关键。件的超高性能随机访问,以及训练过程中提供一些参考意见,希望可以对在建或规划中智算说,其在某种程度上对训练结果的影响已超越对Checkpoint的超大带宽和强一致访问,减中心先进存力的设计与建设有所神益。在认识到数据和数据基础设施对于AI的算法与算力本身,成为影响AI发展的重要因重要性的同时,我们还需要回答一个问题:究群可用度。再次,数据基础设施应该具备较高工欲善其事,必先利其器。华为愿与产业素之一竟什么样的数据基础设施才是AI大模型计算各方协作,携手共同努力完善A/-Ready数的性能密度和充分的线性横向扩展能力,以应尽
10、管业内对于人工智能领域的诸多问题仍的最佳数据基础设施?我想应该至少满足以下orpr据基础设施的定义和参考架构,共创AI新时对训练数据量的激增以及数据类型的多样化,在探索之中,但行业对大模型发展方向正在逐四个条件。首先,数据作为企业的核心资产,代。做到可随时按需匹配算力集群扩展。最后,数渐清晰,其中一点就是数据量及其质量将在人已经成为最重要的生产要素之一,需要做到可据作为企业的核心资产,需要被充分保护,防工智能发展的新阶段深度影响智能的涌现。在视可管可用,即数据在平时就被妥善保存并通止自然灾害或者人因导致的数据丢失、泄露世界人工智能大会(WAIC)上,有分析报告过一张数据资产地图进行可视化管理;
11、并在大等。我们将满足上述基本要求的基础设施称为周跃峰博士指出“未来一个模型的好坏,20%由算法决模型训练数据归集阶段,可以通过基于策略的Al-Ready的数据基础设施。华为公司副总裁定,80%由数据质量决定”。数据基础设施是方式来管理关键数据的流动,支持将散布在多数据存储产品线总裁01AI大模型加速行业智能化转型OnlAI大模型最新发展概况OnlAI大模型应用在行业逐步普及Al大模型需要A/-Ready的基础设施Al-Ready的数据基础设施参考架构白皮书082024年2月16日,OpenAl再度引领图灵奖得主YannLeCun提出的“世界风潮,发布了首款文生视频大模型Sora,其模型”概念,
12、如今正通过诸如Sora这样的实践得以逐步实现。相较于传统的NLP语言大频,具有多角度视频一致性及视觉风格、对物模型,视频大模型呈现出两大显著特点。首先,理世界理解等特性。根据OpenAl官网披露视频大模型所需的训练数据量极为庞大,原始的信息,Sora不仅能够准确解读用户数据体量相较于NLP达到几百甚至上干PBPrompt的需求,更会尝试理解Prompt中事级以上,这对数据基础设施的存储和处理能力物在物理世界中的存在方式和运行规律,使得提出了极高的挑战。其次,视频大模型采用基生成的视频逼真度非常高。随着人工智能在理于模型的再标注(re-captioning)技术来训解物理世界规律方面的显著进步,
13、AI大模型练标注模型,这一技术使得计算量呈指数级增正由单模态的NLP领域向文生视频等多模态长。据估算,生成一个仅60顿的视频(约AI大模型加速行业智能化转型方向迅速演进,也标志着AI技术正迈向一个6-8秒)所需的计算量相当于生成120万个Tokens,这要求Al基础设施具备强大且稳定的算力资源。自人工智能科学诞生至今60多年的发展历史过程中,人工智能经历了三次发展高潮,分别是1956到1970年代,1980到1990年代和2000年代至今。1959年ArthurSamuel提出了机器学习,推动人工智能进入第一个发展高潮期。此后70年代未期出现了专家系统,标志着人工智IIAI大模型应用在行业逐步
14、普及能从理论研究走向实际应用。80年代到90年代随着美国和日本立项支持人工智能研究,人工智能进入第二个发展高潮期,一个里程碑事件是IBM深蓝在1997年战胜了国际象棋世界冠军AI大模型的应用场景日渐丰富,正在加速的开发方式,客户无需针对单个场景再开发单GarryKasparoV。当前人工智能处于第三个发展阶段,2006年加拿大Hinton教授提出了深度向各个行业渗透。一方面,大模型实现了多场独的AI模型,而是由AI大模型厂商开发基础学习的概念,近年来Transformer大模型的问世推动深度学习模型参数量从几万跃升至数干亿甚景覆盖、精度限制突破、泛化能力增强和研发的LO层模型,由行业IT供应商
15、开发L1层的能力自动化,成为了AI走向产业化应用的重至更大,模型层数从开始的个位数逐步发展到成百上干。大模型实现了更好的泛化能力和更高的行业模型,应用场景IT供应商提供L2层的细分场景模型,如图1-1所示。性能,正在成为AI发展的新范式。基础模型LO行业模型L1细分场景模型L2AI大模型最新发展概况科研机构科研机构+行业伙伴科研机构+行业场景化专家灵活适配违约风险3C质检流行元素随着NLP、GPT、强化学习等AI关键技不仅将深刻影响互联网、工业制造、政企、媒+行业知识细分场景屏能动机汽车超造辅助设计术的重大突破,一场全新的AI大模型科技革资等诸多领域,更是将AI从原先局限于“感经验反馈经验结构
16、财务异常纺织质检半足制命已经拉开序幕。2022年11月30日,知世界、理解世界”的专用领域应用,推向了智慧医疗自动驾驶金融风控表示沉淀反馈沉淀行业Know-howOpenAl推出了革命性的ChatGPT,其在对更为广阔的通用领域,开启了以“生成创造世图1-1数据-模型-选代全生命周期话流畅度、知识反馈精准度等方面均展现出了界”为核心的AGI时代。超越普通人类的卓越性能。ChatGPT的出现1009A/-Ready的数据基础设施参考架构白皮书Al-Ready的数据基础设施参考架构白皮书随着大模型技术的不断发展,各个行业都正在积极探索其具体的应用场景,如图1-2所示。在使能新业态方面,AI结合lo
17、T、区块链基于客观数据信用体系的风险管理模式。从而等新技术,将直接服务对象由“人”延伸到“智使得基于动产可信的质押模式成为银行的新业金融智能客服投资顾问个性化推荐风险评估编程助手合规管理态。银行大模型应用场景,如图1-3所示。医疗自助问诊电子病历药效评估医疗助手基因测序疫情预警政府与公共服务业务前端业务中端业务后端李生城市重大事件预警智能报告生成智能会议助手政务办事助手政务智能热线应用类型客户服务投顾核保理赔 营销风控数据分析研发内控合规互联网创意协作个性化推荐在线翻译营销文案教育培训编程助手百大数据对投从依赖人工基于数据自应用敏捷开发供应链管理普遍运用制造工业质检生产资源规划工业机器人预测性
18、维护知识图谱产以及非结力营销程建构化数据洞见赋能,并但满足研发敏和产品研发,信息的抽取电力故障诊断线路巡检配网运行优化调度演算用电预测统计报表动推荐投资利用知识图规则引擎别、贷前辅可视化、拖与分类归产品与组合谱等技术,助审核等,拉搏的方式档,但与文油气断层识别储层预测油藏甜点搜寻智慧工地化工炼化智能审核全流程智能进行数据分性化需求的探件理解相关规则索仍处于初期 的任务需寻教育智能客服电信反诈费用稽查网规网优数字人秘书XR通话结合多轮对基于财富管通过海董投提升信息抽营销物料快生成奥博报大模型将业大模型协助制 大模型形成交通交通规划事故预防拥堵治理货运监管枢纽管理违停处理话与KYC探理专业知识资标
19、的信息取、聚类与速生成,支告供风控人务问题转化 定符合行业标 对文件的整能力,有进行预训练员参考为数据分析准的软件研发体认知与理运营商电信反诈效提升用户智能客服费用稽查网规网优数字人秘书XR通话活体验:测试等年对人早伦理、各规但需完备的析以及时间低人力投入性:自动生成图1-2大模型在各领域的业务场景示意AI助理分析多样化产品定 险警示以及策略用数价与组合策略解决方案forpre智慧金融PB级非结构化数据将被激活AI在银行业的应用场景非常广泛,在提面向中小微实体经济的资金要素供给,逐步成升金融产品营销能力、提升风险处置能力、提为区域经济发展的新动力,切实提高金融服务图1-3银行大模型应用场景升运
20、营与开发效率、使能新业态四个方面已经实体经济效率和支持经济转型发展的能力。显现出不同的价值。智慧医疗在提升运营与开发效率方面,通过人机交在提升金融产品营销能力方面,AI技术互打通智能客服,智能网点等服务界面的业务医疗行业是提高人民健康水平、保障和改检测等医疗健康管理环节,也可以应用于医疗可以帮助银行实现客户画像的精准构建和个性阻隔与流程断点,实现“端到端”业务流程触善民生的战略性行业,行业长期存在医疗专家环境监测、患者预约就诊、智能分诊等场景改化推荐和定制化服务。基于对客户画像的深入发、路径选择、任务派发与质量监测,提高业orprel资源稀缺与医疗诊断能力不足的公众医疗问善患者院前就医体验。诊
21、中,AI可以实现影理解,AI系统可以自动推荐符合客户需求的务处理标准化、智能化水平,大幅提升银行客题。伴随人工智能技术的快速发展,A/+医疗像辅助诊疗、辅助病理诊断、精准医疗等,减金融产品和服务,营销时客户圈选就能够更加户体验。如中国工商银行在中国有四万多个网场景应用可以有效缓解上述问题,并推动医疗少医生工作量,提升诊断效率和诊断质量。诊有针对性,提高营销精确性。点,20万多个网点员工,通过与华为盘古大行业从最初的电子化、单系统应用,逐步向数后,AI通过健康管理、知识问答等功能,协模型合作,让每个银行柜员拥有自己的智慧助字化、智能化不断演进。助患者进行健康管理,从被动治疗转向主动预在提升风险处
22、置能力方面,通过“信用评手。根据客户问题生成操作指引,将以前5次防。大模型支撑的医疗业务场景,如图1-4估”、“欺诈检测”等风控领域AI应用可以提操作缩短为1次,单次办结时间缩短5分钟。AI大模型可赋能院内外医疗各个环节。诊所示。升银行的风险防范与处置能力,使其能够加大前,人工智能技术可以应用于药物研发、基因1211A/-Ready的数据基础设施参考架构白皮书Al-Ready的数据基础设施参考架构白皮书感知设备,实现万物智联;通过模型开放,匹可信:在系统安全性、韧性、隐私性、人自助问诊病历生成随访管理配干行万业的应用场景,实现行业智能。身和环境安全性、可靠性、可用性等方面全面精准预约辅助诊断健
23、康宣教构筑可信赖的能力,并从文化、流程、技术三智能分诊病历质控复诊敏捷:企业在智能化的过程中,可按照业个层面确保在各场景中落地;企业智能化应用诊前诊中诊后务需要灵活匹配合适的ICT资源,并通过丰的运行过程必须是可信的,可追溯、防篡改、患者挂号/分诊 诊患者主诉接受检查随访反馈富、成熟的开发工具和框架构筑智能化业务,防勒索,避免受到外部的恶意破坏。forprev自助间诊超音识则自动生成病历切哦让业务人员直接参与智能化业务的开发,快速上线智慧应用。问诊AP阀用病历生成用问诊导诊的API知识库、API千行万业施访管理科研类金融电力公共事业政务制造交通ISP医生语音识别模型AI大模型医疗大模型基于文献
24、问答和检索,用于医学科研的医疗大模型智能平台软件开发模型开发数据治理数字内容开发图1-4大模型支撑的医疗业务场景Al-Ready的基础设施规模计算|高效存储|无损网络Al大模型需要AI-Ready的基础设施协同开放敏捷:可信OpenEulerDBMSData storageAlframework通用计算Al计算当前AI大模型在行业的发展面临着一些的基础设施、智能平台、A/大模型、千行万lOT智能联接ADNNLM挑战。首先,企业自身数据集的类型、规模和业等六层。这六层之间相互协,能感知、会思F5G Advanced Wi-Fi7 HCE IPv6+智能感知质量起到了至关重要的作用,企业还未形成统
25、考、可进化、有温度,共同服务于干行万业的筹管理其数据资产的能力;其次,各行业对智能化发展。它有四个特点协同、开放、敏捷、鸿蒙感知|雷达|机器视觉|传感器计量表|无人机|机器人|协作终端丨AI 技能的掌握程度参差不齐,对AI 解决方案可信。图1-5行业智能化参考架构的要求不一样;再次是计算资源的限制,训练协同:企业在智能化过程中通过云、管、在行业智能化参考架构中,Al-Ready的因此,企业需要构建一套高效的大规模的模型需要消耗巨大的计算能力和存储边、端的协同,业务信息实时同步,提升业务基础设施作为核心支撑,涵盖规模计算、高效Al-Ready数据基础设施,从数据的角度对Al空间;最后是模型的可解
26、释性问题,随着模型的处理效率;并通过应用、数据、AI的协同,存储、无损网络。然而,在大模型训练过程中,全流程进行优化。例如,通过多协议互通,避规模的增大,其内部的工作机制变得越来越复forpreview打通组织鸿沟,使能业务场景全面智能化。数据在计算、存储、网络频繁移动,增加了系免不同系统间来回拷贝数据,实现一套存储满杂,难以理解和解释,甚至出现模型幻觉。统开销,降低了AI集群系统的整体效率。比如足不同应用程序的高效访问;通过数控分离架开放:行业智能化发展是一个庞大的工基于在城市、金融、交通、制造等20多一个训练批次前后的数据加载和Checkpoint构、高性能文件系统的存储,实现存储节点干程
27、,需要众多的企业共同参与,以开放的架构个行业智能化实践过程中的总结,华为提出具保存阶段,如果存储的读写性能不足,会导致万级每秒读写次数(IOPS,Input/OutputPer助力行业智能化发展:通过算力开放,以丰富备分层开放、体系协同、敏捷高效、安全可信昂贵的计算资源处于等待状态而闲置。大模型Second)和数百GB/s带宽,提升训练效率;的框架能力支持各类大模型的开发,形成百模等特征的行业智能化参考架构,如图1-5所的参数和数据规模都呈指数级增长,对存储的通过容灾、备份、防勒索等数据保护能力,为千态;通过感知开放,接入并打通品类丰富的示。它包含智能感知、智能联接、Al-Ready扩展性、稳
28、定性、性能、时延等都提出更高要求。安全可靠的大模型服务保驾护航。02AI大模型数据基础设施实践中的挑战与建议Only数据资产管理挑战集群可用度挑战Only数据一致性挑战数据安全挑战A/-Ready的数据基础设施参考架构白皮书16物理位置,使得大模型训练不再受到单体智算建议1:构建地域无关、多协议互通、按NLP中心存储容量的限制,从而实现与AI应用、需访问、统一数据视图与调度的“AI数据湖数据引力结合的“数随算动”能力。解决方案”,实现高质量数据全域共享ore数据治理缺失,数据标准缺乏根据调研,用于AI训练的数据包括数据使用者等不同的角度,用数据目录的方式AI大模型数据基础设施实践中库等结构化数
29、据(占比35%),而以流式实共享数据资产,用户可以快速、精确地查时数据、日志文件和电子邮件为主的半结构化找到自己关心的数据资产。的挑战与建议数据类型和非结构化数据(65%)正在迅速成为生成式AI应用的主流数据源。如此众多。可管:将数据按照企业的业务视角进行标的数据类型,数据标准化是一个非常大挑战。签化,便于用户从业务视角管理数据资数据资产管理挑战优化数据资产管理需要强大的技术支撑,包括产。数据处理、存储、分析等方面的技术。然而,“无数据不AI”已经成为业界共识,数据有序有效管理超越数据安全与计算性能,成为可用:通过预处理工具提升数据语料质许多企业的技术能力有限,难以满足数据资产的质量决定了AI
30、的高度。根据2023TOP1的挑战。企业需要采取一系列措施来更forpre量,提升数据访问效率,同时保障数据合管理的需求。GlobalTrends inAlReport调研统计,构好地管理数据资产,以应对如下的挑战:规可信,降低因为数据不可用而导致的沟建AI基础设施的TOP3挑战中,数据资产的通成本和管理成本。那么,AI时代的数据管理平台需要具备哪些关键能力呢?主要包含以下三点:建议2:建立统一的数据管理平台,实现数据质量不高、数据孤岛严重数据的全局可视可管可用,将多域的数据合规可视:通过对数据资产的全面盘点,形成数据资产地图。从数据生产者、管理者、地进行整合和共享。数据质量是数据资产管理的核
31、心问题之据孤岛,导致已有的优质数据难以共享和整一,在整个AI的作业流程中,准备好高质量合。的数据所耗费的时间占比整个AI作业的集群可用度挑战80%。多数企业面临数据来源众多,数据质所以,如何盘活数据资产?建议构建跨地域多数据中心之间的全局“AI数据湖”,实现Torprev量参差不齐,导致很难快速准备好训练AI模随着AI大模型技术的发展,大模型的参故障对集群可用度的影响”等影响算力中心建全局资源抽象,形成逻辑上统一的命名空间,型所需的大量数据。首先是理不清数据,数据数量日益增长,AI集群的规模及算力也在设规划的因素,而是包含了计算芯片的算子效一方面使得数据在不同数据中心之间的复制和资源分布在多个
32、业务系统,数据的管理人员和Scaling Law作用下也随之激增。但与此对应率等非算力中心建设规划需要考虑的因素,所同步更加透明。另一方面,可以通过负载均衡使用人员无法准确快速地找到自己需要的数的是,算力规模的增长并未带来AI集群效率以我们提出“AI集群可用度”指标,是指集策略,使得应用程序就近访问,降低访问延迟。据,更无法从宏观层面掌握自己拥有多少数据的提升,业界习惯使用ModelFLOPs群在一定时间内能够提供正常服务的时间占总如此,上层智算应用可以在不同数据中心之间资产,分布在哪里,是否发生了变化,等等。Utilization(MFU)来评估Al集群的算力利用时间的比例,而在A/场景下特
33、指A/基础设施无缝地访问和操作数据,无需在意数据存放的其次是不同部门之间的数据相互割裂,形成数率,但该指标并未包含“无效算力”和“设备能够正常提供AI算力服务的时间占比,主要17AI-Ready的数据基础设施参考架构白皮书Al-Ready的数据基础设施参考架构白皮书18包含CheckpointlO时间、故障及恢复时间、数据集加载时间等因素,具体可用公式表示为:作为当前A/大模型主要变现途径的情况下,建议4:AI集群是成本和能耗的吞金兽,平均无战障时高MTTE)CKPT保存时间-(CKPT间照+C+CKPT孩复时间+Python环境加载)商业化对集群性价比的要求更加苛刻。而过低高性能的专业存储可
34、化繁为简,降低集群复杂AI集群可用度=(1-平均无故障时间(MTBF)的集群可用度也直接导致AI推理成本高居不性,优化商业闭环。每Batch数据集计算时间、)(1-C2),C1为运行恢复时间,Cz为参数面损失比例。下,进而阻碍整个行业的商业化进程。如何提升AI集群可用度呢?主要需解决三大问题:算力浪费严重、建设和能耗成本高。数据一致性挑战yforpre算力浪费严重,集群可用度普遍不足50%数据强一致性在A/-Ready的数据基础可访问。而“任意时间能访问最近更新的数据”设施选型中却是最关键的因素之一,要求任何代表着时间上的一致性要求,即数据从任意位当前大规模训练集群的算力可用度普遍不在训练任务
35、中,算力等待时间是导致AI用户在任何节点、任意时间都能访问到最近更置写入后要立即可见,不能有数据更新的迟滞足50%。例如,Meta50000+卡训练任务、集群可用度降低的主要原因,例如,PB级训新的数据副本。其中,“任何节点可访问”代性。OpenAIGPT-425000卡训练任务的算力可练数据集的加载时间通常在小时级,表着空间上的一致性要求,不管从哪个接入节用度在30%-40%之间,英伟达Megatron-LMCheckpoint写入时间在半小时级,而无效训点写入,写入后立即对所有节点所有用户可见数据强一致的挑战体现在AI训练流程的和微软MT-NLG10000+卡训练任务的算力练的浪费时间可达
36、2小时。另一方面,断点各个环节,有如下三类典型场景。可用度在40%-50%之间,即使是当前最新故障恢复所需的时间也会显著影响可用度,特的字节万卡集群MegaScale也仅达到55.2%。别是对于一些对 IO性能要求较高的场景,集Megatron-LM还显示在算力规模增加的同数据一致性影响Checkpoint保存与恢复效率群的可用度会迅速降低。时,集群可用度下降明显,算力可用度提升困随着大模型从千亿NLP往万亿多模态演也必须同时读取成功,一个分片读取缓慢,会建议3:走出盲目堆砌GPU算力的误难导致可利用算力难以随着集群部署规模线性进,集群规模的急剧扩大导致失效率显著上拖慢整个集群。如果数据系统不
37、按照强一致性区,提升CKPT效率,优化集群可用度,扼增长,造成了算力资源的巨大浪费。AI训练升,如何确保超万卡集群的稳定运行成为大模进行设计,例如只在每个训练节点本地保存数制算力浪费。集群的可用算力无法线性增长成为最大挑战。型训练的首要挑战。在大集群规模下,各类故据,再异步写到容量层的方式,都会带来时间障几乎每小时都在发生,故障的恢复依赖上的不一致。当发生节点级故障或缓存层故障Checkpoint文件的快速持久化和加载。且由时,受影响的节点由于本地存储无法访问(节建设和能耗成本巨大,阻碍商业化进程于大模型训练过程中采取了数据并行、张量并点被整体隔离或本地存储自身故障),只能降行、流水线并行等多
38、种并行策略,Checkpoint级到性能较慢的容量型存储读取某个文件分算力的提升通常伴随着成本的增加和能源GPT3的1000倍。正如马斯克所言,“今天文件被拆分成N个分片,并在N个GPU或片,此时,本地存储无法提供同步的、一致的消耗的上升,这给AI的可持续发展带来了巨缺硅,明天缺电”将逐步成为现实。NPU上进行并行持久化和加载,因此产生了全量分片文件并行访问,只能由容量层存储配大压力。AI集群可用度低造成了算力建设成另一方面,随着大规模系统复杂度的上Checkpoint文件的一致性要求。N个合提供时间滞后的文件访问能力。一个文件分本高,电力空耗等问题,推高了建设和运营成Checkpoint文件
39、分片作为一个整体,在并行片的访问受阻导致整个集群延迟等待,显著增升、设备故障的随机性增大、AI基础设施运本。如GPT3单次训练的电力消耗相当于持久化时必须同时成功,一个分片写入受阻会维难、以及多种因素共同作用之下,集群可用加了故障恢复的时长(MTTR),严重影响了500吨CO2排放当量,相当于300个家庭导致整个集群等待。在并行加载时,N个分片度的问题定位和调优提升也越发困难。在推理大规模集群的高可用长稳运行。一年的用电量。而Sora的单次训练消耗是19A/-Ready的数据基础设施参考架构白皮书A/-Ready的数据基础设施参考架构白皮书20节点隔离故障这些数据由时间戳和具体监测信息组成。通
40、地保存数据,则难以满足上述实时运维分析和节点节点节点#0节点#1#2#N常,负责实时运维分析的应用会统一部署在一集群健康度预测的场景需求,会严重制约AI并行保存并行读取集群的规模扩大和持续运营能力。时间点对齐的方式实时拉取整个集群的性能监建议7:基于强一致高性能的集群文件存控数据,要求每个节点写入的运维数据和其他CKPT并行处理一致性:同时读写成功,或集体失败退回状态数据能够立即全局可见。如果存储系统不储,构建运维数据面的实时共享数据平台,提按照强一致性进行设计,只在每个训练节点本升AI大规模集群的运维管理效率。存储系统数据安全挑战建议5:面向大规模训练集群,构建强一致高性能的集群存储系统,提
41、供万卡Checkpoint同步保存与快速加载能力,提升故障处理与数据恢复效率。勒索软件依赖AI进化,加速勒素变种的选代2023勒索攻击者加强了AI功能的应用,年每天会新生超过1000个勒索软件变种,同数据一致性制约开发测试、调度优化等AI全流程效率例如通过人工智能开发的恶意软件代码、机器比增长73%。这些新型勒索软体,能在不到在AI训练的日常作业中,常常会遇到集节点节点节点学习算法、自动化流程,提升了新型恶意软件24小时内再次变种,让传统的方法变得更难#0#1#N群扩缩容、算法优化等情况,这时候会人工发forpre和勒索工具的开发效率,催生了更多的勒索变检测和防范。起训练任务的重调度。如下图所
42、示,节点#1种。以全球部署最多的勒索变体LockBit联盟建议8:“AI武装化”已成为数据安全攻的任务随机调度至节点#N,并同步加载原有为例,其推出了Raas(Ransomware as a本地盘防战的胜负手,AI加持下的勒索利刃已来袭,节点#1的训练数据和CKPT数据,此时就需Service)勒索即服务的平台,供勒索黑客培要写入的数据要能被其他任意节点立即访问,育亚出售新的勒索软件变种,将勒索行为产业用AI技术铸造企业数据基础设施新护盾已经OBS容量存储迫在眉睫。即为强一致性。如果采用节点本地存储的方化,降低了生产勒索软件的门槛。预计2024Debug日志,性能统计,式,发生任务重调度时,节
43、点#N无法访问节CKPT文件等信息点#1刚持久化的数据,只能从远端的容量存实时运维分析预测和优化(通用计算集群)AI应用衍生了新的安全漏洞,大模型被攻击后损失将达上干万美金储中加载,数据访问必然迟滞,任务重调度的建议6:基于统一命名空间的集群文件存时间会因此拉长数倍,拖慢了集群开发测试和生成式AI已经集成到各行各业的多种应Al模型,如ChatGPT和Gemini的安全措调度优化的速度。储,提供“写入即全局可见”的全共享能力,forprev用之中,但由于AI系统安全机制还未成熟,施。加速开发测试和运营管理等AI全流程效率。我们在享受着生成式AI带来的便利的同时,据智能时间2030分析,智算中心是
44、也在承担随之而来的AI系统漏洞的增多。例数据中心的进化方向,2025年可达7000亿如,2024年3月首个生成式AI蠕虫诞生,数据一致性是实时运维分析与智能预测的关键基础美金规模,AI基础设施将成为未来数据中心名为“MorrisII”,它能够自动在Al系统之间最大开销。以大模型训练为例,大型数据中心运维日志、性能统计、集群状态等信息的训练集群健康运营的关键手段。集群中每一个传播。该蠕虫的能力可渗透生成式AI 邮件助AI训练成本超20万美金/天,针对AI应用实时监控和亚健康分析预测是保障大规模AI节点都在不断产生性能监控数据和运维数据,手、提取数据和分垃圾邮件,从而攻陷著名的21A/-Ready
45、的数据基础设施参考架构白皮书的攻击会造成模型训练中断、训练失败、训练建议9:应对AI发展的成长期,加强AI结果丢失等重大影响,预计未来全球数据中心系统韧性,提升CKPT恢复效率,保障业务AI训练相关损失可达上干万美金/天。高可用。preview数据资产化引发勒索手法更多样化,从勒素加密走向数据窃取for数据已成为企业核心资产,部分高价值数出信息,推测构造出与目标模型等效的替代模据甚至可以直接交易。这促使勒索形式从单一型,甚至直接盗取AI模型成果。对受害者而加密勒索,转向多重勒索获利。2023年多数言,数据泄露也许比数据被加密带来的损失更勒索机构采用了“双重勒索”,首先加密受害大。例如,2023
46、年3月,Meta语言大模型者数据,索要巨额赎金,然后窃取这些数据,遭泄露,随后被迫宣布开源。将被盗数据放到暗网售卖,再次获利。建议10:守护高价值数据资产,数据“快在针对AI高价值数据的攻击中,攻击者速恢复+防窃取”是企业必不可少的双保险会锚定AI模型数据,通过查询、分析输入输preview数据投毒隐蔽性强,小毒性即可造成大灾难Ilyfor高质量的数据语料是AI的食粮,但频发疾病诊断错误,严重危及患者性命。的数据投毒正在摧毁AI模型:攻击者将中毒样本添加到模型的训练数据集中,扰乱数据分那么,数据投毒成功需要多大的投入呢?析模型正常运行,从而破坏模型的可用性。通墨尔本大学和脸书AI实验室发表的一
47、篇论文中提到:只需要占比0.006%的恶意样本,常AI训练中毒效发作慢,中毒后的企业往往就可以有50%的概率完成数据投毒攻击。后知后觉,带来巨大的经济损失和社会影响。例如,在自动驾驶领域,可能导致车辆产生错建议11:数据投毒代价小却影响大,严误的安全驾驶决策,如无法识别障碍物或红绿格做好数据语料的“消毒”,护航健康完整的fO灯,从而酿成严重的交通事故;在智慧医疗诊AI系统。断领域,可能会造成医疗图像分析失误,或者Only03Al-Ready的数据基础设施的特征与参考架构OnlyreviewOnl10Al-Ready的数据基础设施定义与特征Al-Ready的数据基础设施三大应用场U景及参考架构智
48、算中心场景Only云和互联网场景边缘训推场景26Al-Ready的数据基础设施参考架构白皮书Al-Ready数据基础设施,需要构建数据拥有同位置的数据进行归集,实现数据可视可者对大规模数据进行归集和预处理的能力:管可用,让AI算力高效访问数据。多源分散数据汇集:基于统一命名空间数据预处理:提供一个数据预处理框架,orev对数据资产进行可视化管理,并能够采用简化用户对数据进行清洗、转换和标准化基于策略的方式对不同来源或者分散在不的过程,为训练提供高质量数据集。高性能和强一致在大模型训练阶段,有两个过程与数据基遭遇各种故障后,需要读取最近的础设施紧密关联:训练数据集加载和CheckpointN以恢
49、复训练,但部分方案(如Checkpoint 读写。这两个过程已经成为影响分布式缓存)无法做到Checkpoint数据的强算力可用度的关键。今天,万卡集群正在向十一致,导致算力集群不得不往前回溯至最新完万卡集群推进,针对上述两个过程,性能需求整可用的CheckpointN-x以恢复训练(xA-Ready的数据基础设施的特征持续增加:大于等于 1)。这直接导致 CheckpointN-x与参考架构之后的训练全部作废,造成巨大浪费。训练数据集加载过程,以海量小文件访问为主,性能密度需要达到百万级OPS/让算力等待数据的加载或者恢复,降低了PB存储容量,以最小化加载时长。AI集群可用度,这是对资源的极
50、大浪费。有IAl-Ready的数据基础设施定义与特征研究分析表明,合理提升存储性能(而不仅仅。Checkpoint读写过程,是带宽型场景,在大模型时代,算力通过堆叠的方式快速对容量进行匹配),可大幅缩减训练数据集加Al-Ready的数据基础设施是指专为人工性能密度需要达到TB级带宽/PB存储载过程和Checkpoint读写导致的算力等待智能应用和服务设计的数据存储软件和硬件系扩展,计算的规模并发度持续增长,这进一步容量,将算力集群故障恢复耗时缩至最统,它能够支持大规模数据归集和预处理、高让集群可用度增加约10个百分点,提升幅度要求越来越多的数据需要被及时输入算力集短近20%。性能和强一致性、超
51、强韧性、内生数据安全等群,以加速深度学习过程、提升大模型能力。特征,从而可以有效支撑AI算力集群对数据总体而言,数据基础设施要做到Al-Ready,性能密度不能仅仅在小容量场景下达成,采用合理配置的高性能和强一致数据基础进行分析和学习。需要在如下多个维度做好准备。也应该在容量较大时达成(例如数十甚至上百设施,实际可用算力的FLOPS绝对值得以提forprevPB),以匹配越来越大的算力集群的性能需升。为了获得相同的实际可用算力FLOPS绝大规模数据归集和预处理求。这要求数据基础设施具备较强的横向扩展对值提升,也可以采用继续堆叠算力的方式来能力,一方面做到在线不中断业务扩展,另一获得。对比这两种
52、方式,前者的投资不到后者较多企业的数据分散在多个不同的数据中少数据,但一般不关心是什么数据。于是企业方面做到性能与容量近似于线性增长。的1/2,更加经济高效绿色。心,或者同一个数据中心的不同存储上。业务通常缺少统一视图对分散的数据进行管理,更除性能外,算力集群写入存储的运维人员知道自己有什么数据,但并不关心数不用提高效地将这些数据归集起来、并进行有Checkpoint强一致同样十分关键。算力集群据在哪里;IT运维人员知道什么地方保存了多效预处理,以供AI算力训练使用。2827A/-Ready的数据基础设施参考架构白皮书Al-Ready的数据基础设施参考架构白皮书超强韧性IAl-Ready的数据
53、基础设施三大应用场景及参考架构数据基础设施承载了智算中心最重要的训是经过数月训练所得,如果出现丢失或者损中心AI集群规模已迈入万卡、十万卡时A/-Ready的数据基础设施参考架构以及解决练数据,且算力集群每隔一段时间写入一次坏,其损失不言而喻。代,同时边缘AI大模型也加速向行业渗透,方案,帮助企业客户构建安全、可靠、开放的Checkpoint数据。两次相邻Checkpoint之为使能行业智能化升级与创新,华为提出AI数据基础设施。高成本的训练数据、历史训练的间的间隔正在逐渐缩短,正由小时级向分钟级Checkpoint、高价值的Al大模型结果,均是演进。数据基础设施的稳定可靠,直接决定了forp
54、re中心训练场景边缘训推场景智算用户关键且宝贵的数据资产,必须被有效智算中心的高可用。国内某智算中心做过计保护。因此,智算中心数据基础设施至少应该算,如果业务停工一天,直接损失接近200A数据湖解决方案高性能开放式存储硬件底座边缘训推一体化解决方案提供不低于6个9的高可用性,确保算力集万元。AI开发平台AI开发平台AI开发、大模型群服务持续在线。另外,数据基础设施也需要算力、网络等设施算力、网络等设施除原始训练数据和训练过程中产生的提供多种跨数据中心的高可用方案,进一步提算力自研/开源并行文件系统管理Checkpoint数据外,算力集群输出的训练模升高可用性至7个9甚至更高,供有需要的AI数据
55、湖网络用户进行选择。高性能开放式存储硬件底座型被保存到位于数据基础设施上的模型仓库中存储用于模型微调。最终得到的AI大模型结果,EB级按需扩展,加速AI全流程无缝对接文件系统,TCO省30%一站式交付,开箱即用内生数据安全forprey图3-1AI-Ready的数据基础设施三大应用场景及参考架构数据基础设施的超强韧性,保障数据持续本只读留存。一旦发现当前数据存在逻辑在线可用,且不因物理故障导致丢失或者损错误,可立即恢复到最近的可用副本,确智算中心场景坏。除了设备层级的韧性,内生数据安全对于保业务连续。数据基础设施同样重要,从逻辑安全的角度对AI的发展推动了数据觉醒,越来越多的IOPS。数据进行
56、保护,应对“身体健康、精神紊乱”数据备份,确保数据具有可供恢复的独立企业正在利用AI技术挖掘海量数据的价值。物理副本,同样在时间维度保存多份。的异常场景:面向中心训练的智算中心场景,该场景多是由挑战2:不同业务系统“烟式”建设形政府、运营商、大企业等建设的采用干卡万成一个个数据孤岛,AI调度平台复杂度呈指勒索检测,对数据异常进行实时检测,确存储软件安全,遵从相关法规条例要求保异常发生后第一时间可以触发应对措卡的大规模AI算力基础设施,多用于基础和数增长,万卡集群同步一致访问和AI训练开构建安全研发能力,不依赖于开源软件构forpre发并发调试困难。此时就需要统一命名空间、施,避免损失或者将损失
57、最小化。行业大模型训推。智算中心不光算力集群规模筑存储基础能力和关键能力;对全量软件为万卡集群数据强一致同步访问。较大,对存储基础设施的容量和性能要求也更进行可信的生命周期维护,确保数据基础加密储存和安全销毁,最小化关键敏感苛刻:设施供应商对每一行代码负责。挑战3:Sora出现,标志着Al大模型从数据泄露带来的不可估量的损失。NLP走向多模态,数据快速膨胀,面向多模挑战1:为应对AI训练集群从万卡到十万持续数据保护,借助I/O级日志或者高密态,万亿参数大模型,AI存储的数据量从PB卡,可用算力无法线性增长的挑战,智算中心快照的形式,对数据在时间维度进行多副级到EB级,实现1000倍增长。大规模
58、算力集群需要10TB级聚合带宽,亿级29A/-Ready的数据基础设施参考架构白皮书Al-Ready的数据基础设施参考架构白皮书30成统一命名空间,实现近乎无限的扩展与智能的本质是从海量数据中提炼智慧。因此,文件、对象等多种协议。通过对不同价值数据AI数据湖解决方案海量的数据规模管理,这些集群可以都在AI数据湖的存储底座需要具备从PB级到EB的自动搬迁,将冷热数据存放到合适的存储空万卡GPU/NPU大集群本地,或分布在不同地域的数据中心。级的扩展能力,并提供更经济的数据分级存储间中,很好的解决了上述问题。因此,热温冷方案,包括性能层和容量层。数据智能分级是AI数据湖存储必备的能力。多协议融合互
59、通:支持NFS,SMB,S3和HDFS多协议互通访问数据,在底层EB级弹性横向扩展能力:AI数据湖存储(3)关键特征3:数控分离架构全局统一命名空间将元数据和数据实体抽象为元素,根据用forpre底座采用全对称分布式架构,支持通过横向扩展硬件节点来线性增加整系统容量与性能,无研究表明,GPU/NPU计算之前的数据户发起的协议要求,将数据元素组合起来性能层性能屋智能分级提供服务,通过统一的存储架构,使文件、需进行复杂的资源需求规划;系统可轻松扩展处理阶段消耗了70%的大模型训推时间。因三此,为了充分利用集群算力,需要更加强大的EB级容量扩展对象等多种协议存储可以更加紧密地协同至数干节点及EB级容
60、量,满足多模态大模型工作,实现数据的共享和传输。随着智算网络和存储系统。存储集群性能是提升集群可训推业务规模增长需求。存储系统内置自动负中心、超算中心等场景对于存储的容量高用度的关键。图3-2A/智算中心参考架构载均衡策略,数据与元数据均匀分布于各节效率利用和访问灵活性的需求,协议融合为了进一步提升存储性能,从数控融合架因此,我们建议采用统一的AI数据湖解存储已成为发展趋势。场景下的系统性能,满足大模型PB到EB级构转向数控分离架构,可以显著降低数据访问决方案,为智算中心提供EB级数据高效管理容量扩展。时延。传统的数控融合架构依赖高性能能力。该方案基于统一命名空间、智能分级、跨域数据共享与流动
61、:跨地域多数据中心orpreCPU,数据流和控制流严重耦合,数据的读数控分离和内生安全等关键技术,提供强一致之间的全局统一存储,可以实现全局存储智能分级:对于复杂的大模型业务来说,取和写入都需要经过CPU,使CPU成为系性访问,大幅提升AI集群可用度,加速AI全资源抽象,形成数据统一视图,一方面使海量的业务训推数据并不都具备相同的使用价统性能的关键瓶,难以满足大规模AI集群的流程。该方案应该具备如下特征:数据在不同数据中心之间的流动和同步更值,随着时间的推移,热数据被频繁访问,而性能需求。同时算力和特性扩展不够灵活。而加透明,确保了数据的一致性和高可用温冷数据如早期保存的Checkpoint和
62、历史模(1)关键特征1:统一命名空间性。另一方面,可以通过负载均衡策略,型参数则很少被访问。经过科学的统计和分创新的数控分离架构使CPU仅需处理控制使得应用程序可以就近访问数据中心,降析,发现数据信息的使用价值是有其生命周期流,避免成为关键瓶颈,并能借助DPU实现统一命名空间是指一个可大规模共享访规律可循的。新生成的信息通常会经常被访专用的数据处理流程,相比传统的数控融合架低访问延迟。上层智算应用可以在不同数问,弹性扩展的高性能文件系统可以为用户提据中心之间无缝地访问和操作数据,而无问,使用价值高。但随着时间的推移,这些新构,数据流能够ByPass掉CPU和内存,构供统一的元数据管理,可以实现
63、全局存储资源生信息的使用频率不断下降,直到多年不被访建极简的快速数据访问路径,实现元数据和数需担心数据存放的物理位置,为实现跨域抽象,多个应用或用户共享和访问同一份数据的分布式并行训练奠定数据基础,也使得据直通,数据读写直通到盘。数据访问时延从问。其使用价值也将逐年较低。大量低使用价的能力。统一命名空间有以下技术特征:forpre100微秒缩短到10微秒,系统性能提高了10大模型训练不再受到单个智算中心存储容值数据既占用了高性能、高可靠的宝贵系统资倍。此外,还支持算力的Scale-up弹性扩展量和算力的限制,实现跨地域多中心并行统一元数据管理:数据规模从PB级到源、严重影响性能,同时也占用了大
64、量存储空能力,实现了加卡即加算力和加功能。EB级,海量数据的管理是高性能存储的训练。间。难题,对象、文件等非结构化数据存储要(4)关键特征4:一站式知识生成(2)关键特征2:EB级扩展以及智能分级数据自动分级存储技术具备这些技术特素采用统一元数据管理,对外则提供标准征:允许在一个存储池内使用不同类型的存储的访问接口实现非结构化数据的访问。在大模型训练依赖于海量的高质量数据,通从sunoai、Sora等爆炸式发展的多模态介质划分不同的硬盘池,可以灵活的兼容块、单一集群或多个集群的统一元数据管理组常来自CommonCrawl数据集、WebText2应用来看,大模型依赖的数据量越来越多,其31Al-
65、Ready的数据基础设施参考架构白皮书A/-Ready的数据基础设施参考架构白皮书32Books1、Books2以及英文版Wikipedia等。高质量的问答对对于提升模型效果至关重要。础设施的纳管、部署、配置、监控、预测、优AI服务运营管理:智算中心一般基于多租这些数据主要包括网页、书籍、对话文本等类然而,人工生成问答对的效率很低,而基于大化能力。户模式构建,应提供统一认证、组织和用户管型,但是数据中存在大量虚假,暴力以及机器型模型的自动生成问答对语料存在输出质量不理、资源和网络隔离、配额控制、租户自服务、生成的垃圾数据。这就要求在做大模型训练前稳定的问题。为了解决这些挑战,我们需要考AI数据
66、管理:数据准备是AI模型训练中计量计费、运营报表等能力。最为繁琐的步骤,AI管理运维平台应具备数据整理成高质量的数据,这常常需要花费几个月虑采用类似 Self-QA和Self-Instruct的技归集、元数据增强、敏感数据识别、快速检索(6)关键特征6:存储内生安全的时间,费时费力。典型的数据处理过程包含术方案进行强化。Self-QA的关键在于设计forprev合适的提示(prompts),引导模型提出问题和统计、数据流转、和数据安全保护能力。各种格式数据加载,数据清洗,数据合规处理,数据存储以数据为中心,从数据内生安全知识生成等步骤。这些处理步骤必不可少,我并给出答案。Self-Instru
67、ct 技术方案的核心AI训练作业管理:在AI模型训练过程出发,构筑数据全生命周期的安全能力。整个们推荐使用一站式数据处理工具来完成,该工在于利用预训练语言模型的自举能力,通过迭中,平台应具备作业调度、作业监控、故障定存储系统的安全分为存储系统安全、数据安全具需要具备以下关键能力和技术:代过程,从一个小型的人工编写的种子指令集界、故障恢复能力。和安全管理三个部分。其中尤其需要企业关注开始,引导模型生成新的指令和相应的输入输并加强建设的是数据安全中的防勒索设计,数据加载:原始数据以txt,pdf,Word,出样本。通过这两种技术方法,可以在保持生AI推理应用管理:完成AI模型训练后,WARC/WE
68、T等格式存放,数据处理工具需般需要通过四层防护体系构建数据安全最后一成效率的同时,进一步提升问答对的质量,为道防线。要支持从不同格式文件中加载文件,并且准确模型精调提供高质量的数据支持。应提供模型管理、应用市场、应用部署、推理有效的读取文档中的数据,包括PDF文件中调度能力。的扫描件。知识生成:在RAG应用的落地中,知识库作为关键一个关键的数据基础非常重要,知数据清洗:对数据进行重新审查和校验的识生成方面有数据切片、知识向量化、表格支生产区隔离区过程,通过异常清洗、文本过滤、文本去重等持等多种需求,在技术上也需要文本检测、表数据管理引擎动作,大幅提升数据质量。常见的数据清洗动格识别等技术。通过
69、这些技术,可以将非结作如下:移除不可见字符、规范化空格、去除异常事件上报响应策略下达构化的数据转换为结构化的格式,进而进行知三数据安全一体机乱码、繁体转简体、去除网页标识符、去除表识向量化,将文本数据表示为数值向量,以便情符、检查文档的词重复率等于在RAG系统中进行高效的信息检索和生Storage resourcesX成。检测&分析|防算改|加密|.生产存储数据合规处理:面向大模型的爆发,各国0234纷纷推出法规规范大模型行为,如欧盟推出全(5)关键特征5:AI全栈管理X球首部全面监管AI欧盟版人工智能法案forprey生产存储生产存储备份存储备份存储中国信安标委发布生成式人工智能服务管理智算
70、中心的管理运维平台,应围绕AI工存储安全防护暂行办法,明确提出大模型训练的数据在隐作流的整个生命周期,构建从环境建设和运存储检测安全快照备份保护隔离区保护私,安全,可追溯性等维度的要求。为了满足维、数据准备、模型训练、应用部署的全流程法规要求,需要剔除不满足的数据,在技术上管理能力,主要包含如下几方面:图3-3存储4层防勒索架构设计一般需要数据分类、数据过滤等技术。AI基础设施管理:对于智算中心的环境建高质量语料生成:在模型精调的过程中,设和运维,AI管理运维平台应具备AI全栈基33Al-Ready的数据基础设施参考架构白皮书A/-Ready的数据基础设施参考架构白皮书34第一层,通过基于1/
71、O行为异常分析、文据改不掉。第三层,本地备份提供“干净”有构的云存储单节点仅能提供2GBpS到从小规模起步到超大规模实施的完整能力。件值变化趋势等多种侦测分析技术全生命周效的副本用于快速恢复,守护数据不丢失。第10GBps 的读写性能,为了达成万卡集群的性期检测并且拦截勒索病毒,让病毒进不来。第四层,AirGap隔离区数据离线保护,使病毒综上,作为面向云与互联网行业的二层,生产存储通过安全快照秒级恢复保护数多达128机柜设备。庞大的建设规模带来采A/-Ready的数据基础设施,基于开源并行文看不见,攻击不到。件系统的高性能存储底座解决方案能够很好的购成本、空间、耗电等的巨大压力。面向云与互联网
72、行业的Al-Ready的数据基础设施,解决上述挑战,已经成为业界常用的实施方云和互联网场景应当在有限的空间内提供超高的单节点带宽,案,将帮助整个系统达到更高的可用度指标、提供更快的TTM与更优的TCO。云与互联网公司是当今世界AI前沿探索的增幅高速增长。支持集群以BuildingBlock方式扩展以获得的主导力量,自研/开源并行文件系统+高性这个复杂系统中的任意部件失效,不仅会能存储硬件底座是其主要架构,也是AI基础影响自己的工作,还会拖慢数万个GPU的整PyTorchTensorFlowNVIDIAMindSpore架构的主要投资方与建设者。利用数万个GPU构建大型人工智能集群以训练LLM已
73、体作业效率,影响算法收敛速度,进而影响产AI训练集群经成为行业入门标准。但当GPU集群达到万品的上市时间。因此,当前业界研究的一个热卡规模,将给数据基础设施带来前所未有的挑点方向就是解决模型的识别与延迟问题,其中如何避免部件失效,缩短故障恢复时间显得至参数面网络存储面网络战。关重要。业界实践表明,在大模型训练中,最挑战1:如何支撑AI集群提升大规模至容易损坏的部件包括内存、网络端口和硬盘。超大规模下的训练效率。一个适合于云与互联网企业的Al-Ready的数据基础设施,需要提供海量硬盘的状态检大语言模型训练需要将模型数据集尽量均测、支持多盘同时损坏的高度几余保护、硬盘自研/开源并行文件系统Lus
74、tre GPFSYRCloudFile JuiceFS分在多个GPU上,在训练过程中,GPU之失效预警与数据预拷贝,提升数据的可用性从 间通过超大带宽通信推动进展。如下图所示:而帮助集群实现稳定训练。Al-Ready的数据基础设施应具备全局负挑战3:以相对低成本实现业务的快速扩载均衡、端到端NVMe连接、动态数据自适展。Al-ready存储集群应布局等关键技术能力以实现超高吞吐量,帮助客户快速进行加载/检查点等数据操作。云与互联网企业的解决方案不仅需要以低图3-4云和互联网场景A/集群参考架构forprey成本、高扩展性实现方案的快速复制,并且普挑战2:如何在超大规模上实现训练的高遍希望复用现
75、有的架构与人员。因此,需要关键特征一:高带宽性能,单设备可提供数十存储系统应保障每个主机读写请求均衡的稳定性。到百GB读写带宽,提升510%集群可用在各个控制器间被分散处理,并均匀的落在系Al-Ready的数据基础设施能够支持开源生度。统内的硬盘单元上。通过主机多路径软件与控态。云与互联网企业的AI集群动拥有数以制器配合,协商相同的HASH计算方法和参干计的AI服务器,数以万计的GPU卡、内关键技术1:全局负载均衡。一个万卡集群的聚合读吞吐量达到数,可实现读写请求的均衡分发,充分发挥多存条、网卡、网络端口和硬盘,并以每年数倍1.4TBps,写吞吐量达到1TBps,而传统架控制器系统算力。363
76、5A/-Ready的数据基础设施参考架构白皮书A/-Ready的数据基础设施参考架构白皮书关键技术2:端到端NVMe连接及时上报健康状态,并进行对应的处理。量硬盘,更薄的厚度,使得有限空间内可以容纳下更多盘位。单U容量可达到500T以上,可在有限的空间内提供超大容量。AI的网速是所有局域网中最高的,当前已关键技术4:高度穴余保护经达到200G/400G单端口能力,业界领先厂在主机访问阵列的整个路径,存储系统可边缘训推场景商正在向800G/1.6T迈进。从主机到存储协议层采用NVMe直通,可以充分发挥网络带提供多重几余保护能力。即在控制板、存储介企业应用AI改造概述关知识,生成有参考信息的回答,
77、从而提高推质、I/O经过的接口模块或链路出现单点故障,forprev宽,缩短时延。理结果的可信度。都能通过几余部件和和容错措施保证业务不中大模型从图片生成、视频生成、短文创作NVMe协议相比SCSI协议可以减少断,主要的余保护包含接口模块链路几余等消费社交领域发育成熟,同时大模型在理解O检素增强生成(RAG,Retrieval-Augmented Generation)40%的主机网络协议栈开销,节约主机CPU保护、控制器几余保护、存储介质穴余保护。和生成语言方面表现出惊人的能力,比如大型文档消耗,同等性能情况下支持更多的主机应用。语言模型(LLMs)打破了人类与机器的交互关键技术5:硬盘预失
78、效通过NVMe协议,CPU和SSD盘可直接通瓶颈。以银行、制造、医疗等为代表的行业企生成知识库信,缩短传输路径,协议的并发数提升到业,拥有海量高价值数据资源和丰富的应用场通过采集硬盘的Smart信息、硬盘的/O64K;协议交互次数从4次减少为2次,读写景,具备大模型深度技术应用的条件;企业期链路信息、硬盘可靠性指标,输入到数百个硬翰入向量检素请求处理效率提升1倍以上。望能够将现有生产系统、营销系统、研发系统盘失效预测模型里进行预测,当系统检测到硬LLM盘即将失效时,自动执行告警,通知客户更换及财经系统等企业应用进行AI改造,带来革微调数据集关键特征二:提供99.99%的单机可靠性、forpre
79、硬盘,并将即将失效的硬盘中的数据拷贝到其命性的效率和创新能力的提升。以银行为例,输入99.999%的集群可靠性,消除硬盘带来的训知识管理、智能营销、应用开发等应用AI改大模型微调(Fine-Tuning)生成他健康的硬盘中,避免硬盘失效造成数据不可练中断/暂停风险。造已经进入试点阶段;同时,由于模型的输出用。图3-5检索增强生成RAG技术架构结果仍然存在不稳定性,投研分析、策略制定、关键技术3:海量硬盘状态检测关键特征三:生态友好,极低TCO,风险防控等关键业务领域,仍然需要人工参与场景关键需求亚健康,也称FailsloW,是指对应硬内容审核。关键技术6:开放架构件可以正常运行但性能低于预期的
80、一种状态。企业应用AI改造过程包括开发环境准企业应用AI改造存在多种方案,一般导致亚健康的原因非常多,包含但不限于备、模型部署、数据开发、模型微调、A应可无缝对接CUDA、MindSpore等多种FirmwareBug、硬件自身设计缺陷、温度、包括上下文优化、增强型检索(RAG用开发、应用部署等流程,涉及到IT运维人员、主流Al运算平台,同时可支持Lustre、Retrieval-AugmentedGeneration)模型环境(如震动)、配置错误等。一旦某硬件进环境准备人员、数据工程师、算法科学家、应GPFS、BeeGFS等并行文件系统。forprev微调、模型增量预训练、模型重训练等几种方
81、入到亚健康状态,如果存储系统未采取有效监用开发工程师等角色。当前各关键角色需求包式。从建设成本和应用效果考虑,企业应用控和容错,则极有可能会导致存储系统响应主关键技术7:高密设计括:AI改造方案逐渐收敛到RAG,结合部分场景机的时延增大、IOPSIBPS降低,甚至导致通过领先的整机散热能力,支撑空间密度模型微调,解决结果时效性低、推理精度不可。IT运维人员:为数据处理、微调、应用开无法响应主机,进而导致主机业务中断。最高的设计,通过创新的水平背板正交连接结控、交互模式单一等局限性。增强型检索发等多个过程提供计算和存储资源,运维海量硬盘状态检测可持续对整个环境中存构,硬盘连接器和控制器连接器正交
82、连接,无(RAG)是一种用来降低大模型幻觉的技术,管理简单易用。储设备上的多达数十万片硬盘进行状态监控干涉,提升硬盘连接器密度,再配合高密大容通过大模型在生成结果时从数据库中检索出相数据工程师:可编排的数据处理工具链,3837A/-Ready的数据基础设施参考架构白皮书Al-Ready的数据基础设施参考架构白皮书使用数据归集、清洗、增强、知识生成等参考和关键特征关键技术替换,从框架防止架构腐化,便于扩展算子高效的数据处理面向企业应用AI改造的边缘训推场景方多语言实现:跨语言跨端服务化标准,同。应用开发工程师:灵活、易用的应用开发案,应提供包含安装部署、数据处理、模型微一种服务多种语言实现,多端
83、部署,协同边缘训推场景涉及到多种数据处理、模型平台,快速开发和调试高准确度的RAG调、AI应用开发和运维优化能力,扫清大模共同提供服务型在企业落地最后一公里障碍。微调、应用开发和应用部署负载,由于任务存应用在GPU/NPU独占算力释放不及时、算力资流性编排:以可视化的方式编排调度服源无法细粒度隔离算力浪费、缺少抢占机制推务,自动生成业务流,利于公共组件服安装部署数据处理模型微调AI应用开发运维优化理算力不够用等问题。通过算力池化,实现务共享和重用GPU/NPU资源的分时复用和优先级抢占等,组合式全栈模型推理为主-一体化全栈结合知识库,RAG消除幻觉3.高精度模块化RAG提升算力利用率。算力高效
84、池化相关的关键技大模型开源软件商用大模型开源大模型术为:多种工具,分散管理一RAG通过知识增强大模型生成提升推理一站式开发框架,灵活使用开放算子2AI开发平台(资源控制颗粒度:按照1%算力和1MB结果精度,在实际应用过程发现,RAG应用多管理平台计算算力固定分配,数据本地存储-编排过程体软件架构高度耦合、编排过程复调度的细粒度对GPU资源进行切分。算力和存储共享,高效复用任务调度资源管理杂,难以灵活应对业务场景的自定义优化需网络资源池多管理运维平台-:远程访问GPU:通过gRPC、bRPC等求,同时推理结果精度受限于知识检索进度、容器虚机XPU资源池forprey容器存储远程访问方式,实现跨节
85、点算力访问。优化难度大。通过模块化RAG,可以通过调多产品组合,上线后调优-用功能模块、应用算子方式开发RAG应用,开箱即用,存算网协同优化计算网络存储机柜/UPS/电源本地访问GPU:基于共享内存机制,避免机柜/UPS/电源提供更多多样性和灵活性,并可通过上下文替数据在CPU和GPU之间的传输开销。换和模块重组等方式优化推理精度。模块化RAG关键技术包括:图3-6边缘训推场景AI方案参考架构2.开放式编排框架请求优化:请求重写扩充、关键词提取在数据处理、应用开发过程中,涉及到海边缘训推方案架构包含如下特征:化、共享存储等方式进行共享,为各类负量数据处理算子和应用算子,由于开发语言多等方式实现
86、查询请求与知识库语义的对齐载提供统一的资源池,提升利用率和可靠。模型融合:改变以模型推理为主的方式,样、算子处理能力不同、接口方式不同导致开性检索精度优化:通过混合搜索、递归式搜使用RAG方式,结合知识库增强模型结发过程复杂。通过开放式编排框架,能够通过forprey索、LLM增强的表征与排序技术,提升果准确性、消除幻觉管理融合:软硬件统一管理、统一运维,声明式和编排式构建、灵活的服务调度编排,检索精度;支持全栈优化帮助用户打造业务逻辑可编排、实现可动态替开发融合:使用一站式开发框架,结合开换的乐高式演进系统。开放式编排框架具备以检索后优化:通过检索结果重排序、上下放算子进行数据处理、应用开发
87、,避免多。存算网协同:支持开箱即用能力,存算网下关键能力:文压缩等方式,突出关键语义,减少上下种工具、分散管理的开发模式针对训推进行协同预优化,软硬件预安装文长度,提高RAG性能插件式开发能力:以插件作为最小原子单资源融合:算力、存储通过调度、算力池元,功能解耦,独立开发、发布、多态可04MOIAOAl-Ready的数据基础设施实践案例2210.95960Only149.1623.26科大讯飞x华为OceanStor存储,加preview18.921.41%速A/全流程业务D银行x华为OceanStor存储,用Al赋能智慧金融业务T云x华为OceanDisk存储,构筑领先智算中心云底座Only
88、紫东太初x华为FusionCube训推一体机,加速智能客服场景创新与实践42Al-Ready的数据基础设施参考架构白皮书为1亿千亿,科大讯飞开始使用外置存储。断点续训恢复速度提升15倍:集群提供现网外置存储可靠性不足、故障域小,故障影TB级大带宽,缩短Checkpoint读写耗响损失160万元/天,客户只能将50PB存储时,断点续训恢复时长从15min缩短到切分为20多个2PB集群,形成数据烟窗。1min,速度提升15倍,集群可用度提升AI训练过程中需要从多个存储集群拷贝数据,20%。Al-Ready的数据基础设施实践案例数据效率低。同时多个集群并未提供更优的聚orpre:存储集群安全可靠:华
89、为OceanStorAl合性能,导致模型加载和断点续训存储单集群管理面合一,数据面分离,通Checkpoint读写耗时久,千卡以上集群平均I科大讯飞x华为OceanStor存储,加速Al全流程业务过数据面隔离避免AI集群故障扩散;同每天故障1次,断点恢复时间高达15分钟时通过亚健康管理、大比例EC等进一步+,每次损失几十万,集群可用度不足50%。科大讯飞是一家专注于智能语音、计算机提升存储可靠性,单集群可靠性达同的AI大模型解决方案,共同建设国内首个第三阶段:科大讯飞最终选择了华为AI视觉、自然语言处理、认知智能等领域的AI99.999%。支持万亿参数大模型训练的算力平台“飞星一数据湖底座作为
90、最优选择,针对通用AI大模企业,拥有语音及语言国家工程实验室和认知号”。数据治理成本低,全生命周期管理TCO,型训练,科大讯飞采用算、存分离架构,计算智能全国重点实验室。面对业界百模大战,谁科大讯飞AI训练推理平台经过多轮技术降低30%:GFS全局文件系统支持统一侧追求更加极致的算力释放,存储侧部署多套可以快速部署高性能大模型训练平台,快速训选代演进,外置AI数据湖存储底座为其最优数据湖管理,数据全局可视、可管,高效练上线,谁就能先一步抢占市场有利位置。为华为OceanStorAl存储,提供可靠高效的几选择流动,跨域调度效率提升3倍。无损多协此科大讯飞与华为联合打造存、算、网全栈协forpre
91、十PB可得容量,最终实现如下效果:议互通免除数据孤岛,数据零拷贝,端到端加速AI模型开发。阶段一:服务器本地盘+开源分布阶段二:外置存储阶段三:AI数据湖式存储软件+对象存储)(2018-2019)(2019-2022)(2023-)IID银行华为OceanStor存储,用Al赋能智慧金融业务预处理服务器训练服务器推理服务部预处理服务器推理服务器预处理服务器推理服务器都不再能满足大数据分析和AI模型的运行要高性能层存储容量型存储(对象存储)求,以下问题驱需解决:原始数据目D银行是亚洲领先的银行之一,专注于利图片见频(拷贝八拷贝八拷贝)(原对数氧屋存微据)用数字技术重塑银行业,为客户提供全面的个
92、:性能瓶颈:高IOPS峰值时段多次触发存语音/OCR等中小模型,型,参数量:几千单模态大模型,参数量:1亿-千亿人银行、财富管理及机构银行服务。储故障,严重影响了业务的正常运行。图4-1科大讯飞A/基础设施演进过程挑战可靠性低:原有存储系统基于开源开发,单站点故障,业务中断,且不具备多站点第一阶段:数据规模较小,主要涉及语音的困扰。同时,RAID机制支持盘级几余,但D银行提出用Al-Powered 的战略方针,多活的能力。IOCR等中小模型,参数量为几干1亿。每不能跨节点余,存储可靠性面临严重挑战。旨在基于现有大数据平台的基础上,增加AI次训练先把数据从对象存储拉到本地盘,TB模型部署,随着数
93、据量和AI场景化模型的激方案:高性能、高可靠的专业存储,构建第二阶段:发展到单模态大模型,参数量级数据准备需要小时级,面临数据准备时间长增,原有的对象存储底座无论可靠性还是性能D银行的AI应用基石43Al-Ready的数据基础设施参考架构白皮书Al-Ready的数据基础设施参考架构白皮书44AI驱动的实时数字欺诈预防,10毫秒内即可标记潜在的欺诈性交易。,贷款流程大幅缩短,已实现到一分钟申请,一秒钟批准客户体验智能客服反洗钱风险管理智慧理财大数据计算集群AI集群IT云x华为OceanDisk存储,构筑领先智算中心云底座数据获取数据访问数据发现数据分析模型开发模型部署forprevi计算实例大数
94、据容器计算实例深度学习Spark?NVIDIAGPU+IB训练TensorFlow客户介绍分钟,GPU等待导致算力利用率低,函需提Xc实例chopeunHEHSEINTELCPU+IB训练CUDA升存储带宽能力。T是中国领先的运营商云,聚焦大模型训非结构化训推数据练场景打造智算平台,为ChatGPT类大模型2.盘故障导致业务不稳定(T1)Data Cleaning训练提供高性能计算、存储、网络等云服务。(T2)DataModels(T3)DataMarts(T4)AIData lake本地盘故障无法预测:开源文件系统盘管AI存储File|S3|HDFS挑战理能力弱,频繁的突发盘故障导致上层业务
95、经常中断。客户基于开源Lustre自研并行文件系统,华为高性能分布式存储OceanStorPacific可以量体裁衣地匹配自身需求,但也对性能与故障后数据重构时间长:本地盘故障后,图4-2基于华为OceanStor存储的A/系统架构运维提出了新的挑战:数据重构时间长达数小时,消耗CPU资源,导致上层业务性能不稳定。1.存储带宽不足导致训练效率低D银行的AI集群基于Nvidia GPU技术99.9999%高可靠性;方案:华为OceanDisk智能盘框协同栈,软件栈为CUDA芯片,结合TensorFlow现有存储带宽仅10GB/S,导致大模型训:多协议(NAS/S3/HDFS)All-in-One
96、,自研文件系统,打造可靠、高效的大模型训练学习框架,支持模型的训练和部署。客户选择练过程中,单次Checkpoint读取时间需10大数据处理和AI训推各个阶段之间无需架构华为分布式存储OceanPacific系列来替换数据拷贝。原有对象存储系统,提高性能和可用性。A/智算中心网络运营创新业务客户价值话务机器人 费用稽查网络优化元宇宙 数字人 AI训练 智慧语音 影视潼染OceanFS提供混合IO的高OPS和高带宽能力,千亿对象的检索时延从之前的数据模型模型部数据华为高性能、高可靠存储助力D银行通预处理训练署推理归档十多秒级别降低至50毫秒级;过800个Al模型赋能350个案例,包括客户forp
97、rey计算平台AscendNVIDIA体验、智能客服、反洗钱、风险管理、智慧理集群内高性能节点和高密大容量节点之间RoCE/IB财等多方面业务模块。例如,HPFS文件系统通过自动分级策略优化投资,整体TCO索引服务器数据服务器数据服务器降低20%;,呼叫中心使用GenAl进行呼叫转录、摘Scale-out支持最大12站点部署容忍两个站点故要、服务、请求生成和知识库查找,使平均呼叫处理时间减少20%。障,为大数据和AI平台提供了OceanDisk1500/1600OceanDisk1500/1600OceanDisk1500/1600图4-3客户自研文件系统+华为OceanDisk智能盘框方案4
98、645A/-Ready的数据基础设施参考架构白皮书Al-Ready的数据基础设施参考架构白皮书高性能:全闪存智能盘框,2U空间提供价值高达60GB/s的超高带宽,领先业界。存储带宽性能翻6倍,GPU训练效率提FusionCube Chatbot高可靠:硬件A-A架构,全面硬盘亚健升10%存储智能小海康管理,全局数据重构,实现专业级存储FusionCubeA3000文件存储性能从50OMBps/TiB提升到训/推超融合一体机99.999%高可靠,保障业务永在线。300MBps/TiB,单次Checkpoint时长forpreyew产线预装现场部署快速定制高效训练安全训推全栈运维生态兼容:Ocea
99、nDisk替代现网服务器从分钟级缩短到秒级,提升集群可用度紫东工具链内置大模型一键式微调多机多卡软件加解密任务级监控集群,无缝对接自研的并行文件系统,可太初软件预装低参数调优分布式训练系统级监控训练稳定性提升10倍:同时支持NVIDIA和异腾两大主流计算平工工键初始化180万高台。企业专属IOPS:华容硬件辅助硬件级监控通过硬盘亚健康管理,硬盘故障提前14预调测知识库工具化加解密资源池监控高带宽天预测;通过全局数据重构技术,1TB数据重构时长由小时级缩短到分钟级图4-4基于华为FusionCubeA3000的一站式A/解决方案紫东太初x华为FusionCube训推一体机,加速智能客服场景华为数
100、据存储携手紫东太初大模型,通过价值创新与实践forprevieFusionCubeA3000训/推超融合一体机将行答复效率干倍提升:以“智能”取代“人业专有知识库与大模型能力充分融合,通过产工”,“0”学习成本,具有智能问答、向量客户介绍。咨询数量增长快:从存储知识到配置建议线预装、现场部署、快速定制、高效训练、安检索、智能识图等功能,实现7x24小时方案定制,包含3大类20小类问题,“存全训推、全栈运维。推出具备“智能客服”能华为OceanStor存储在全球拥有12个值班秒级答复,用户满意度提升95%。储小海”团队年处理问题数4万+,团队力的数字员工“存储智能小海”。研发中心、8000+研发
101、人员,为更好地支持年处理问题数上升超25%答复准确度更高:通过知识库存储,实现用户及时掌握最新华为存储产品资讯,华为在知识库实时更新,数据入库即可查询,推早期推出了“数据存储小海”这一数字化平台,。问题答复慢,用户体验差:一般问题答复理更准确。并配置超百人的团队在线答疑。时间15分钟内,复杂问题答复时间2小时内挑战华为存储产品及解决方案种类多、包含18大类产品与解决方案,580+子产品特性,技术更选日新月异。随着用户的增多,对“存储小海”的业务咨询的压力也与日俱增:05给CIO的行动建议OnlyfororeviewOnlyOnlA/-Ready的数据基础设施参考架构白皮书50智能化,满足数据自
102、动标签、聚合、检索、呈现,做到真正可用。只有解决跨组织、跨地域、跨推进数据按内容、合规、热度等维度的全自动应用的数据统一调度问题,为大模型注入源源化分类分级;最后再结合算存网协同配合,让不断的数据“燃料”,才能让企业的大模型更归集后的数据可以被高效访问和处理,让数据好地服务自身业务。建议2:大模型日新月异的发展对算力需求永无止境,企业应该参考业界最佳实践,从“堆大模型的ScalingLaw法则持续有效,时对性能、可靠性的要求。面向云/互联网场其技术复杂度正变得越来越高,模型参数量从景,NVIDIA与开源或企业自研的并行文件系千亿级到万亿级,集群规模从千卡级到万卡统共同推进Diskless架构,
103、提供可靠存储底级,训练数据集从TB级到EB级。这意味着座,优化工作负载,提升30%+训练速度。更多的数据要处理、更大参数的大模型、更频Meta公司的AI万卡集群存储方案也选择自给CIO的行动建议繁的再训练和调优。不符合要求的 AI 基础设研分布式文件系统Tectonic+自研外置高性施将会无形中为企业的智能化升级之路带来额能文件存储构建高性能数据基础设施底座。面forpre外成本。向企业训推场景,NVIDIA联合伙伴推出生成式AI作为人工智能领域的重大突破,为金融、政府、运营商、教育、医疗等诸多行业带ProjectHelix超融合架构,为企业提供全栈来前所未有的创新契机。面对这一技术变革,企业
104、都应迅速采取行动,以充分把握生成式AI所带企业应该参考业界最佳实践,基于自身业方案,简化AI应用部署。来的发展机遇,从而在激烈的市场竞争中脱颖而出:务诉求,统筹考虑选择最优数据基础设施方案。面向超智算中心场景,NVIDIA与专业存华为提出Al-Ready的数据基础设施参建议1:数据决定AI智能的高度,企业应该建立统一的数据湖,实现数据资产可视、可管、储厂商合作,基于标准文件系统+Share考架构,覆盖企业大模型三种典型的应用场可用,使能数据真正成为生产要素,加速大模型服务落地。Everything存储架构,共同打造高性能Al训景,助力企业科学规划智算底座,从“堆算力”到“挖潜力”,合理配置存储
105、集群性能,选择AI大模型以超出人们想象的速度加速带企业有大量的数据分散在分支机构、生产中心技术建议书中提出,只有Al-Optimized高性能、高可靠的外置存储,可提升集群可用领我们迈向智能世界,算力、算法、数据构成现场,这些数据种类繁多且可能来自不同地域Storage才能满足大模型在处理EB级数据量度10%以上。了A/的三要素。算力、算法是AI大模型时代的业务系统、不同合作单位或生态伙伴、甚至的工具,数据的规模和质量才真正决定了AI是不同厂商的公有云或私有云,这就需要构建支持全局文件系统GFS的数据湖底座,实现建议3:大模型时代数据资产更为关键,模型文件、训练数据等核心数据被篡改、窃取、勒索
106、智能的高度。更多的训练数据是AI模型选代会造成巨大的资源浪费和经济损失,企业构建全方位的数据保护能力刻不容缓。升级的前提,更好的数据质量也决定着大模型数据资产的可视、可管、可用。具体而言,训练的效果。因此,企业需要思考怎样才能用GFS需要实现如下三个能力:首先是数据资大模型诞生于海量数据,这些数据囊括用据安全风险也开始浮现。样本数据投毒攻击可好数据,尤其是用好企业专属的私域高价值数产一张图,实现跨域、跨站点、跨厂家等复杂户的个人信息、企业的私域生产数据等敏感信能使得模型产生误导性结果,严重影响决策的据。数据的全局可视、实时更新;其次是数据目录息。伴随着大模型技术的迅猛发展,一系列数准确性。模型
107、文件被窃取将导致数亿元投资的51A/-Ready的数据基础设施参考架构白皮书Al-Ready的数据基础设施参考架构白皮书52成果化为泡影。训练数据被勒索病毒加密则可解决方案。其中,作为数据的最终载体,存储文献能导致大模型被迫中断训练,影响企业生产安可提供包括存储软硬件系统安全、数据容灾与全。备份、防勒索保护以及安全管理在内的一整套内生安全解决方案,为数据构筑最后一道安全1.Bishop,C.M.(2006).模式识别与机器学习,Springer.ISBN企业需要重视大模型的数据资产安全,从防线。978-0-387-31073-2.管理、应用、网络到存储,构建全方位的安全forprev2.迈向智
108、能世界产业自皮书2023https:/ Arora:How are Artificial intelligence and Big Data connected?企业需要考虑采用一站式的训/推超融合一体机快速推出产品,实现大模型的商业兑现。https:/ Drives,Worldwide,2021-2027,2Q23Update业乃至家庭等边缘场景的应用至关重要,这些的广泛应用与发展。https:/ consumption and emission mitigation prediction based on生成式AI实现商业正循环的必由之路。一体data center traffic and
109、 PUE for global data centers理运维软件高度集成并一站式交付,免去大量forpre化方案不仅能够充分利用私域数据进行高效训https:/ of data/information created,captured,copied,and consumedworldwidefrom2010to2025https:/ IdentifyAnd Break Down Tech Silos In IThttps:/ Metas GenAl Infrastructure团队建设等,全面评估生成式AI应用的能力AI大模型的人才培养体系。ai-infrastructurel预备水平。例如,在顶层设计上,企业是否建orprey立了评估和跟踪开源A/大模型、数据和培训10.加速行业智能化白皮书模型使用的指导方法,是否研究了业界AI基础设施最佳实践案例。在组织架构上,是否设transformation立了相关的数据安全、隐私及伦理的专属团队11.人工智能十大发展趋势等。在人才和团队建设上,企业应该培养更多http:/