《Data+AI一体架构的产品创新DataFunTalk-v0.4-20240705.pdf》由会员分享,可在线阅读,更多相关《Data+AI一体架构的产品创新DataFunTalk-v0.4-20240705.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunCon#2024Data+AI一体架构的产品创新汤祯捷-阿里云-高级产品专家Contents目录Data+AI一体趋势MaxComputeData for AI能力MaxCompute AI for DW探索MaxCompute大模型应用最佳实践01 Data+AI一体趋势DataData +AIAI 市场主要趋势市场主要趋势DataData ForFor AIAIAIAI ForFor DataWarehouseDataWarehouse关注点关注点依靠大数据平台大量、丰富的数据,提供用户更多、更简单的数据探索、业务场景以及快速模型构建的可能性,真正做到数据普惠通过AI对数据仓
2、库进行AI调优:资源分配优化执行计划优化自动索引推荐LLM+向量数据库智能数据治理、智能成本优化、NL2SQL等核心产品能力核心产品能力MaxComputeMaxCompute:交互式开发平台Notebook分布式计算框架MaxFrame开发镜像管理/自定义镜像管理与应用MaxCompute+PAI一体化数据处理&模型训练推理MaxComputeMaxCompute:分层存储推荐、自动物化视图、智能成本优化等智能数仓:索引推荐、资源分配优化HBO、执行计划优化HBS、查询计划自动选择 Lero等DataWorks:CopilotDataData +AIAI 开发全生命周期开发全生命周期Data
3、+AI开发是一个复杂的流程,涉及到数据分析、数据预处理、模型创建、模型训练、模型评估、模型预测、部署发布等多个流程,也涉及到业务人员、数据工程师、数据分析师以及数据科学家等不同角色:Data+AI数据预处理数据预处理对数据进行清洗加工,数据清洗、数据转换、特征选择、特征提取等数据分析数据分析对数据进行初步分析,了解数据分布及字段指标情况模型评估模型评估将模型预测结果与实际结果进行对比,从而得到模型的准确率模型部署模型部署对模型进行部署发布,从而实现模型流程化使用模型训练模型训练为达成高识别率的目标,使用大数据,找出最优配置参数的过程模型开发模型开发选择多种数据挖掘技术(SQL、Python等)
4、和工具进行模型创建,用到分类、回归等相关模型效率运维成本Data+AI 开发痛点 数据类型多,数据管理能力差,通常一个复杂的模型会涉及到结构化及非结构化数据,散落在不同的存储介质中,形成数据孤岛,开发人员需要到不同的存储介质中查找数据。数据开发与模型开发脱节,企业传统架构一般是数据工程师、数据分析师通过大数据平台进行数据处理、加工,然后由数据科学家在AI平台中进行模型建模、训练,整个流程割裂,一方面产生了大量数据迁移的成本,另一方面也会导致整个开发过程中,对各个角色的沟通成本很高,影响整个开发流程进度甚至最终的模型准确率;性能扩展能力差,训练效率低,目前很多开源计算框架大多是本地Local模式
5、且未经过性能优化,在实际的生产领域尤其在大规模数据的情况下难以满足企业对模型训练性能的要求;工程化实现,缺少统一运维管理,很多企业采用自建、开源架构,通过工程化方式进行数据开发、建模,导致人员花费大量的时间在搭建环境以及日常运维,同时还可能不满足企业安全要求,造成安全风险;在开发体验上,开发过程脆弱,不具备鲁棒性;性能、开发效率、训练效率安全性、鲁棒性、易用性、管理学习成本、沟通成本、运维成本02 MaxCompute Data for AI能力MaxComputeMaxCompute DataData +AIAI 分层架构分层架构数据元数据管理分布式存储盘古对象存储OSS半结构JSON计算数
6、据处理模型开发模型训练模型管理分布式计算框架MaxFrame自定义镜像开发交互式开发 MaxCompute Notebook离线开发调度 DataWorks可视化建模 PAI Designer第三方包管理模型镜像管理统一Python编程接口内建LLM数据处理算子分布式计算能力MaxComputeMaxCompute Data+AI Data+AI 核心功能核心功能统一数据管理Open Lake分布式计算框架 MaxCompute MaxFrame交互式开发环境MaxCompute Notebook镜像管理MaxCompute Image各类数据统一管理,计算引擎统一对接统一Python编程接口