《Data Warebase:实时湖仓 · 多模检索.pdf》由会员分享,可在线阅读,更多相关《Data Warebase:实时湖仓 · 多模检索.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、Data Warebase:实时湖仓:实时湖仓 多模多模检索检索刘一鸣 ProtonBase 产品&解决方案负责人目录目录目录目录1.1.湖仓技术演进与挑战湖仓技术演进与挑战2.2.实时湖仓升级数仓开发方法论实时湖仓升级数仓开发方法论3.3.多模检索加速多模检索加速AIAI应用创新应用创新4.4.ProtonBaseProtonBase实践场景与案例分析实践场景与案例分析湖仓技术演进与湖仓技术演进与挑战挑战结构化为主,BI报表、离线分析存储计算耦合,扩展性有限Oracle,Teradada数据仓库数据仓库20002000年代年代初期初期结构化依旧是主角共享存储多引擎实时处理能力不足,一致性和事
2、物性有限Hadoop,Hive,Spark,Flink大数据大数据20102010年代年代初期初期 对象存储兴起,存储成本和扩展性进一步优化 彻底解耦计算和存储,资源按需使用 EMR数据湖数据湖20102010年代年代末期末期20202020年代年代初期初期数据湖与数据仓库融合,一方面湖上升仓,一方面仓管理湖支持部分事务管理和实时性Databricks,Snowflake湖仓融合湖仓融合近期近期 实时场景友好,端实时场景友好,端到端实时到端实时 增量计算整合批流链路 多模态数据,多模态检索、AI一体化 ProtonBase实时湖仓实时湖仓湖仓技术发展的几个关键阶段湖仓技术发展的几个关键阶段关键
3、词搜索语义搜索简单查询向量数据库语义搜索语义搜索简单查询简单查询简单查询简单查询应用应用应用服务应用服务CDCCDC增量同步关键词搜索关键词搜索对象存储快照快照全量同步全量同步离线分析离线分析全量同步增量同步增量同步AIAIBIBI日志日志分析分析APPAPP向量向量检索检索全文检索全文检索实时实时分析分析数据加工汇总分析湖仓应用现实的路径依赖:架构湖仓应用现实的路径依赖:架构搭积木,挑战复杂度搭积木,挑战复杂度在线应用在线应用增量同步数据孤岛,多份存储成本(离线、实时、中间件)多份开发成本(批、流、在线)数据口径不一致同步本身不创造价值,同步成本增加多于业务价值增值数据延迟、损失新鲜度业务迭
4、代周期长、上线慢人才招聘门槛人才依赖门槛业务创新节奏门槛运维专业度、效率湖仓平台核心挑战:孤岛、效率、人才湖仓平台核心挑战:孤岛、效率、人才冗余冗余同步同步复杂架构复杂架构大数据已死,大数据永生大数据已死,大数据永生离散结构网络结构层级结构关系型数据库成熟于80年代文件型数据管理NoSQL&NewSQL2010+明天理想中的下一代实时湖仓平台理想中的下一代实时湖仓平台统一的 API结构化/半结构化丰富的语义表达统一存储无数据孤岛无额外数据同步多模态检索向量/搜索/统计High QPS,Low Latency存算分离水平扩展负载隔离实时读写实时加工实时分析Device(IoT)IDCEvent
5、DataCloud Storage(S3)NoSQL(MongoDB)Log DataCloudServicesDataIntegrationManagementObservabilitySecurityBillingCentralized StorageCloudCloudAlibabaTencentHuaweiAWSVolcanoMulti-ClusterComputeWarebaseWarebaseWarebaseAI/MLReal-Time DecisionSearchBI/AnalyticsBusiness AppMySQL/PostgreSQLLake StorageProtonB
6、aseProtonBase:支持实时湖仓、多模检索的云:支持实时湖仓、多模检索的云原生数仓原生数仓Proton 质子:是最稳定的重子,构建万物的积木,永远正向所有数据所有数据结构化数据半结构化数据非结构化数据所有场景所有场景关键词搜索语义搜索汇总分析简单查询极简体验极简体验统一的数据存储兼容开源生态负载隔离标准SQL自适应优化挑战极限挑战极限性能正确实时DataData Warebase Warebase DataData WareWarehouse house+Data Databasebase所有数据所有数据 所有场景所有场景 挑战极限挑战极限 极简体验极简体验 Data Warebase