《关涛-数据平台的第三次革命.pdf》由会员分享,可在线阅读,更多相关《关涛-数据平台的第三次革命.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、演讲嘉宾:关涛 云器科技联合创始人CTO自我介绍 20062006年,微软亚洲研究院年,微软亚洲研究院,构建微软第一代分布式KV系统SearchRepository(7000台物理服务器规模)和 Bing搜索的分布式存储后台Kirin Store(4万台规模)。之后加入微软美国云计算和企业事业部,主持和参与开发了包括 Cosmos/Scope(20万台规模),iScope,Azure Datalake 20162016年回国加入阿里云年回国加入阿里云,前阿里云 计算平台事业部 研究员,阿里巴巴通用计算平台负责人,负责阿里巴巴主线大数据平台(飞天MaxCompute,Dataworks,10万+
2、规模)。前阿里和蚂蚁集团技术委员会计算平台领域组长、阿里云架构组大数据组组长。2021年,代表阿里云主持Forrester 云数仓评测,并首次入选全球榜单“卓越表现者象限”。20212021年,创立云器科技年,创立云器科技(多云及一体化数据基础设施提供商,yunqi.tech),担任CTO 17年分布式系统和大数据平台开发经验,并著有多篇国内外会议论文和专利。2018浙江省科技进步一等奖,2021 USENIX ATC best paper award特别的:数据平台领域仍然处于发展期,部分技术收敛,但新方向和新技术层出不穷。本文内容和个人经历相关,洞察来自个人视角,难免有缺失或者偏颇,同时限
3、于篇幅,也很难面面俱到。仅作抛砖引玉,希望和同业共同探讨。1数据平台的三次革命,以及背后的驱动力2当前数据平台发展现状、挑战与改进3面向Data+AI,新一代数据平台架构演进思路数据平台的三次革命,以及背后的驱动力数据平台的三次革命,以及背后的驱动力1.1.19701970年代,数据库时代年代,数据库时代1.技术创新:关系型(关系型(relationalrelational modelmodel)数据库和SQL(Structured Query Language)奠定了理论基础2.数据种类:关键账本数据3.处理能力:结构化数据(事务处理、数据分析)4.典型企业/产品:诞生了包括Oracle、S
4、qlServer在内的优秀数据库产品5.大多数数据应用创新(例如BI),来自数据库时代2.2.20002000年代,大数据时代年代,大数据时代 Google 搜索业务需求奠基大数据领域(规模驱动创新规模驱动创新),GFS、BigTable、MapReduce三篇奠基论文1.技术创新:大规模分布式架构,通用处理能力大规模分布式架构,通用处理能力(Not only SQL)2.数据种类:海量的人的行为3.处理能力:结构化数据(海量数据与低成本)4.典型企业/产品:Hadoop、Snowflake、BigQuery3.3.20222022年,机器数据年,机器数据+大模型时代大模型时代1.技术创新:深
5、度学习带来大模型技术深度学习带来大模型技术1.传统算法类AI一直伴随数据时代,但一直不是主流。2010年代深度学习奠基,2016AlphaGo,2017 Transformer(Seq2Seq,Attention)、2020 GPT-3、2023 ChatGPT(规模驱动创新规模驱动创新)2.三要素:模型、算力、数据。数据是企业的差异化竞争力核心2.数据种类:IoT数据(车联网是目前最大的应用场景)3.处理能力:结构化数据+非结构化数据(LLM、多模态大模型)1数据平台的三次革命,以及背后的驱动力2当前数据平台发展现状、挑战与改进3面向Data+AI,新一代数据平台架构演进思路当下的主流数据平
6、台架构是怎样的?当下的主流数据平台架构是怎样的?上述内容来源于网络公开信息DataLake存储系统Data WarehouseBatchProcessingStreaming ProcessingReal-TimeAnalytics结构化数据 处理/分析存储存储存储存储数据源数据应用AI Processing/ServingTraining PlatformOLTP DatabaseVia CDCOperational log(App、Web)IoT Data(Sensor、Agent)Files(Unstructured)ReportingAd hoc AnalyticsApp(Operat