1、如何选择 AI 存储MLPerf Storage 评测工具解读演讲人:张文涛焱融科技/CTO&联合创始人01010202030304040505目录MLPerf Storage BenchmarkMLPerf Storage 测试结果解读AI 业务特点和对存储的挑战如何避免存储成为瓶颈?如何选择 AI 存储?MLPerf Storage BenchmarkMLCommons 是什么组织?MLCommons 的基础源于 2018 年的 MLPerf 基准测试,该基准测试迅速扩展为AI行业指标用来衡量机器学习的性能并提高机器学习技术的透明度。该套件公平地评估系统性能以满足五个高级目标:MLPerf
2、 是由图灵奖得主大卫帕特森(David Patterson)联合谷歌、斯坦福大学、哈佛大学等顶尖学术机构共同发起的国际权威 AI 性能基准测试,被誉为全球 AI 领域的“奥运会”。1.支持公平比较,鼓励 AI 创新2.通过公平和有实际意义的衡量标准加速 AI 进步3.强调可重复性原则,确保研究结果的可靠性4.服务商业和研究社区,促进知识共享和技术交流5.降低基准测试的门槛,确保所有人都能参与MLPerf Storage 的核心目标和关键成果存储测试基准路标MLPerf Storage是第一个测量机器学习(ML)工作负载存储性能的基准测试套件!存储和处理训练数据是机器学习(ML)管道的关键部分,
3、数据提取、存储和提供到 ML 框架中的方式会显著影响训练和推理的性能。MLPerf Storage 工作组的主要目标是创建一个测试基准,用来评估 AI工作负载存储的性能,包括数据摄取、训练和推理。最终目标是为完整的AI数据管道创建一个存储基准,并且基准测试不需要依赖任何特定的硬件。创建此基准的目标是建立评测AI存储性能的最佳实践,有助于设计下一代AI系统,并帮助系统工程师选择跟AI系统相匹配的存储系统。训练阶段(短期目标)数据摄取阶段(中期目标)推理阶段(长期目标)完整的 ML 管道(长期目标)MLPerf Storage Benchmark 工作原理除了加速器是模拟的,数据处理流程都是真实的
4、!训练神经网络既是计算密集型工作负载,也是数据密集型工作负载,因此需要高性能存储来维持良好的整体系统性能和可用性。对于许多开发下一代AI模型的客户来说,在存储和计算资源之间找到平衡点,确保两者同时得到有效利用是一个巨大的挑战。MLPerf Storage 通过对多种AI工作负载在各种加速器上的I/O 进行精确建模,可以灵活地将不同的存储系统与不同的加速器类型进行混合匹配。MLPerf Storage 可以在 PyTorch 和 Tensorflow 上评测MLPerf训练和 HPC 工作负载的存储系统性能,并且无需使用昂贵的加速器。相反,它它采用一种新颖而优雅的仿真机制采用一种新颖而优雅的仿真
5、机制,该机制该机制捕获了神经网络训练的完整真实行为捕获了神经网络训练的完整真实行为。MLPerf Storage Benchmark v1.0在请求下一个批次之前,休眠一段时间以处理当前批次。休眠时间是可配置的,以模拟多种类型的加速器。Simulated training“think time”MLPerf Storage Benchmark v1.0 模型TaskDatasetReference NetworkSample sizeFrameworkReference QualityImage segmentation(medical)Synthetic-from KiTS193D-Unet
6、146 MBPyTorchmaximize MB/s,and#of acceleratorswith 90%accelerator utilizationImage classificationSynthetic from ImageNetResNet50150 KBTensorflowmaximize MB/s,and#of acceleratorswith 90%accelerator utilizationScientific(cosmology)Synthetic from Cosmoflow N-body simulationParameter prediction2 MBTenso