1、阿里云存储面向AI 的能力升级白皮书(2024版)随着 AI 算力的指数级增长,云计算进入第三次浪潮,预计未来几年中国的智能算力规模将大幅增加。未来,每一家公司都是 Data+AI 的公司。AI的发展不仅依赖于大量的数据,而且在AI应用中需要快速处理和分析庞大的数据集,这要求存储系统必须具备高效的数据读写能力和低延迟访问。为了应对 AI 发展对数据存储带来的挑战,阿里云提出了“4 Any”概念,提供了高性能、高可用、深度集成、弹性降本的解决方案来适应AI时代对存储系统的多样化需求。与此同时,AI 的演进反向赋能存储能力,阿里云提出了“3 AI”概念,指的是在存储服务中融入AI技术(AI in
2、Storage),以提升存储系统的智能化水平,具体包括以下三个方面:综上所述,云存储需要向“Storage for AI”演进以支持AI业务的数据处理和存储需求,同时需要“AI in Storage”来提升存储系统的智能化水平,实现更高效、更安全、更低成本的数据管理。这两个方向的演进是相辅相成的,共同推动云存储在AI时代的创新发展。Data+AI 时代,云存储如何进化任意性能(Any Performance):这指的是存储系统能够根据各类场景的性能需求,动态调整存储资源,提供低延迟和高吞吐量的不同性能级别。任意接口(Any Interface):意味着存储系统支持各类数据访问接口,包括文件、块
3、、对象等,以适应不同类型的AI应用和数据处理流程。任意位置(Anywhere):强调存储系统的数据可以在不同地理位置的数据中心之间灵活迁移,以满足数据本地化和灾难恢复的需求。任意数据(Any Data):表示存储系统能够处理各种类型的数据,无论是结构化数据、半结构化数据还是非结构化数据,都能得到有效的存储和管理。智能修复(AI-Healing):利用AI技术对存储系统中的潜在问题进行预测和自动修复,减少人工干预,提高系统的稳定性和可靠性。智能管理(AI-Management):通过AI算法优化存储资源的分配和调度,实现存储系统的自动化管理,帮助企业管理好存储性能预期、数字资产,提高存储效率和降
4、低成本。智能生成(AI-Generation):指的是存储系统能够利用AI技术生成智能报告和洞察,帮助用户更好地理解和优化他们的数据存储策略。目录CONTENTSStorage for AI高性能弹性高可用深度集成低成本安全性01AI in StorageAI 智能应用02关于阿里云存储03资源池 Qos实现多业务共池性能隔离多个Bucket 统一资源池,共享吞吐&QPS支持灵活调配,降低不同业务之间影响PreviewConnector for Al/ML全新发布支持Map-style&Iterable-style datasets面向训练集数据高吞吐拉取GA更多地域默认性能提升加速器更高性能
5、,更低门槛杭州、新加坡支持单个账号默认 100Gbps加速器性能密度提升50%,容量门槛降低99%GAPreviewOSSFS 1.91.3全新发布面向 Stable Diffusion 推理模型快速加载直读模式,CKPT 模型加载性能提升3.6倍GA高性能在AI时代,云存储需要高性能升级以满足大批量数据的快速处理需求、支持大规模AI模型训练和推理、实现低延迟的数据访问,以及适应不断增长的数据存储需求。此外,高性能存储有助于提升数据处理效率,优化AI应用响应时间,保障数据安全和隐私,以及支持存储系统的可扩展性。这些升级对于实现AI技术在各行业的广泛应用和推动数字化转型至关重要。基于此,阿里云对
6、OSS、CPFS、NAS 三个产品进行了性能方面的升级。对象存储 OSS面向多种计算引擎和 AI 框架,OSS 实现了端到端性能的提升OSS 加速器:进一步提升热数据性能,起步容量降低到50GB,性能密度提升至 300MB/s/TB;客户端和工具优化:OSSFS 模型加载和文件list性能进一步提升,满足交互式开发或容器环境下对读写 OSS 数据需求;Connector for AI/ML:面向训练场景,新推出的Connector for AI/ML在 Pytorch 高吞吐拉取训练集方面较传统 FUSE 客户端可大幅度提升性能;Storage for AIStorage for AI弹性云存