《曲宁-从Data 到DataNAI_对外_云器科技_202407.pdf》由会员分享,可在线阅读,更多相关《曲宁-从Data 到DataNAI_对外_云器科技_202407.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、从Data到Data+AI数据基础设施第三次演进的观察与思考演讲人:曲宁 云器科技产品总监2024.7.5Agenda010203当前数据平台发展现状综述面向未来的几个发展趋势和未解难题新一代数据平台架构演进思路与验证云器科技版权所有2023,迎来数据平台技术第三次革命1.1970年代,数据库时代1.关系型(relational model)数据库和SQL(Structured Query Language)奠定了理论基础2.诞生了包括Oracle、SqlServer在内的优秀数据库产品3.大多数数据应用创新(例如BI),来自数据库时代2.2000年代,大数据时代 Google 搜索业务需求奠
2、基大数据领域(规模驱动创新),GFS、BigTable、MapReduce三篇奠基论文1.海量数据与低成本,分布式架构,通用处理能力(Not only SQL)2.Hadoop、Snowflake、BigQuery3.2022年,大模型时代1.传统算法类AI一直伴随数据时代,但一直不是主流2.2010年代深度学习奠基,2016AlphaGo3.2017 Transformer(Seq2Seq,Attention)、2020 GPT-3、2023 ChatGPT(规模驱动创新)4.三要素:模型、算力、数据云器科技版权所有2023,迎来数据平台技术第三次革命第一次革命:数据库(Oracle,500
3、亿营收,5%增长率)第二次革命:BigData(Snowflake,20亿营收,50%增长率)第三次革命:AGI云器科技版权所有2023,数据平台技术架构的“变”与“不变”云器科技版权所有当下的主流数据平台架构是怎样的?上述内容来源于络公开信息DataLake存储系统Data WarehouseBatchProcessingStreaming ProcessingReal-TimeAnalytics结构化数据 处理/分析存储存储存储存储数据源数据应用AI Processing/ServingTraining PlatformOLTP DatabaseVia CDCOperational log
4、(App、Web)IoT Data(Sensor、Agent)Files(Unstructured)ReportingAd hoc AnalyticsApp(Operational Analytics)AI处理/训练/服务Agenda010203当前数据平台发展现状综述面向未来的几个发展趋势和未解难题新一代数据平台架构演进思路与验证云器科技版权所有结构化数据分析架构,开始定型“不变”,主要挑战?典型的结构化数据分析架构图Data Lake存储系统Data WarehouseBatch ProcessingStreaming ProcessingReal-TimeAnalytics结构化数据 处
5、理/分析存储存储存储存储1.存储层,数据湖和数据仓库尚未真正统一2.组装式数据架构仍然复杂,异构存储,多套元数据,带来大量的计算和存储冗余和管理成本。极高的数据管理成本和开发成本3.组装式数据架构缺乏满足业务变化的灵活性。云器科技版权所有结构化数据分析演进之一 湖仓一体(图:数据湖与数仓技术优势对比)1.2023年,湖仓一体成为“事实标准”(2019年提出)2.Iceberg 成为数据湖表格式标准的赢家(Snowflake/Databricks 2023年先后宣布支持)3.湖仓一体架构仍然多样,几个普遍认可的设计:1.*一套*数据,具备*一致*性(其他层次上的数据用Cache抽象)2.开放性,
6、数据都可以被*所有*应用访问3.统一的元数据中心云器科技版权所有结构化数据分析演进之二 “云原生”变成架构概念1.“云原生”从云的概念变成一个架构概念。私有化部署也遵循“云原生”架构。例如:1.存储/资源/网络的统一化/池化2.存算分离3.计算资源共享(混部)4.应用的微服务化和无服务化2.IaaS层接口标准化,架构层次上的解偶/分层进一步发生进一步发生,存储、资源、网络等架构模块进一步解偶开,并在能力/效率/成本上进化1.例如:AWS S3 Express OneZone(10 x,40%)3.AGI对上述架构提出更高的要求,架构升级按经典螺旋方式发展1.面向LLM/LMM训练的高性能存储体