1、演讲人:关涛-云器科技联合创始人CTO2025.3.28 AI时代,数据湖的“拐点”与展望DataFunSummit 2025自我介绍2006年,微软亚洲研究院,构建微软第一代分布式KV系统SearchRepository(7000台物理服务器规模)和 Bing搜索的分布式存储后台Kirin Store(4万台规模)。之后加入微软美国云计算和企业事业部,主持和参与开发了包括 Cosmos/Scope(20万台规模),iScope,Azure Datalake2016年回国加入阿里云,前阿里云 计算平台事业部 研究员,阿里巴巴通用计算平台负责人,负责阿里巴巴主线大数据平台(飞天MaxComput
2、e,Dataworks,10万+规模)。前阿里和蚂蚁集团技术委员会计算平台领域组长、阿里云架构组大数据组组长。2021年,代表阿里云主持Forrester 云数仓评测,并首次入选全球榜单“卓越表现者象限”。2021年,创立云器科技(“基于增量的云湖仓”数据基础设施提供商,yunqi.tech),担任CTO17年分布式系统和大数据平台开发经验,并著有多篇国内外会议论文和专利。2018浙江省科技进步一等奖,2021 USENIX ATC best paper award特别的:数据平台领域仍然处于发展期,部分技术收敛,但新方向和新技术层出不穷。本文内容和个人经历相关,洞察来自个人视角,难免有缺失或
3、者偏颇,同时限于篇幅,也很难面面俱到。仅作抛砖引玉,希望和同业共同探讨。云器科技版权所有Yunqi.tech目 录CONTENTSDataFunSummit 20251AI时代,我们再谈论数据湖,到底在谈论什么?时代,我们再谈论数据湖,到底在谈论什么?2数据湖技术演进和当前竞争格局概述3AI/大模型对数据湖架构的颠覆性影响云器科技版权所有Yunqi.tech什么是数据湖?From Wikipedia:A data lake is a system or repository of data stored in its natural/raw format,1 usually object bl
4、obs or files.A data lake is usually a single store of data including raw copies of source system data,sensor data,social data etc.,2 and transformed data used for tasks such as reporting,visualization,advanced analytics,and machine learning.A data lake can include structured data from relational dat
5、abases(rows and columns),semi-structured data(CSV,logs,XML,JSON),unstructured data(emails,documents,PDFs),and binary data(images,audio,video).3 A data lake can be established on premises(within an organizations data centers)or in the cloud(using cloud services).统一-是一个存储系统,统一且可扩展全频谱-结构化数据,半结构化数据,非结构化
6、数据全周期-从原始数据,中间层数据,到应用-ready数据开放-一组数据表达的标准(图:什么是数据湖,by databricks)云器科技版权所有Yunqi.tech数据平台的三次革命,以及背后的数据湖技术1.1970年代,数据库时代1.技术创新:关系型(relational model)数据库和SQL语言奠定了理论基础2.数据种类:关键账本数据(小数据)3.处理能力:结构化数据(事务处理、数据分析)4.典型企业/产品:诞生了包括Oracle、SqlServer在内的优秀数据库产品5.大多数数据应用创新(例如BI),来自数据库时代2.2000年代,大数据时代Google 搜索业务需求奠基大数据