《刘一鸣_Data Warebase:实时湖仓·多模检索.pdf》由会员分享,可在线阅读,更多相关《刘一鸣_Data Warebase:实时湖仓·多模检索.pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、刘一鸣 ProtonBase 产品&解决方案负责人Data WarebaseData Warebase:实时湖仓:实时湖仓多模检索多模检索刘一鸣,小质科技产品与解决方案负责人曾任阿里云自研大数据(MaxCompute&Hologres)产品组负责人,花名合一,推动湖仓一体、离线实时一体、大数据 AI 一体等多个产品创新方案落地,推动实时数仓行业标准成熟。在大数据、数据仓库、开源软件行业有15年以上工作经验。同时也是开源大数据 OLAP 引擎 Apache Kylin 的 PMC Member&Committer。目录目录目录目录1.1.湖仓技术演进与挑战湖仓技术演进与挑战2.2.实时湖仓升级数
2、仓开发方法论实时湖仓升级数仓开发方法论3.3.多模检索加速应用创新多模检索加速应用创新4.4.ProtonBaseProtonBase实践场景与案例分析实践场景与案例分析5.5.Data+AIData+AI展望展望湖仓技术演进与湖仓技术演进与挑战挑战结构化为主,BI报表、离线分析存储计算耦合,扩展性有限ETL为主,延迟高实时性差、成本高、难以应对大规模数据Oracle,Teradada数据仓库数据仓库20002000年代年代初期初期结构化依旧是主角,80%离线,20%实时共享存储多引擎架构实时处理能力不足,一致性和事物性有限Hadoop,Hive,Spark,Flink大数据大数据201020
3、10年代年代初期初期 对象存储兴起,存储成本和扩展性进一步优化 彻底解耦计算和存储,资源按需使用 数据治理、和质量较弱,有“数据沼泽”EMR数据湖数据湖20102010年代年代末期末期20202020年代年代初期初期数据湖与数据仓库融合,一方面湖上升仓,一方面仓管理湖支持事务管理、ACID实时性、一致性需要优化复杂查询性能待提升Databricks,Snowflake湖仓融合湖仓融合近期近期 实时场景友好,端到实时场景友好,端到端实时端实时 云原生架构成主流,秒级弹性、无损扩缩容 多模态数据,多模态检索 实时化、一体化、智实时化、一体化、智能化能化 Doris,ProtonBase实时湖仓实时
4、湖仓湖仓技术发展的几个关键阶段湖仓技术发展的几个关键阶段结构化结构化-半结构化、非结构化半结构化、非结构化湖仓融合、湖仓融合、AIAI创新、开放生态创新、开放生态报表展示报表展示-数据产品数据产品从内部到外部,从从内部到外部,从BIBI到到Data APIData APISQL-NoSQL-NewSQLSQL-NoSQL-NewSQL低门槛、维护性、人才培养低门槛、维护性、人才培养数据洞察数据洞察-数据行动数据行动从成本中心到效益中心从成本中心到效益中心单机架构单机架构-分布式分布式扩展性、弹性、成本优化扩展性、弹性、成本优化湖仓平台演进的五个趋势湖仓平台演进的五个趋势关键词搜索语义搜索简单查
5、询向量数据库语义搜索语义搜索简单查询简单查询简单查询简单查询应用应用应用服务应用服务CDCCDC增量同步关键词搜索关键词搜索对象存储快照快照全量同步全量同步离线分析离线分析全量同步增量同步增量同步AIBI日志分析APP向量向量检索检索全文检索全文检索实时实时分析分析数据加工汇总分析湖仓应用现实的路径依赖:架构湖仓应用现实的路径依赖:架构搭积木,挑战复杂度搭积木,挑战复杂度在线应用在线应用增量同步数据孤岛,多份存储成本(离线、实时、中间件)多份开发成本(批、流、在线)数据口径不一致更多的系统、更低的稳定性同步本身不创造价值数据延迟、损失新鲜度同步成本增加多于业务价值增值业务迭代周期长、上线慢陷入
6、数据质量的沼泽中人才招聘门槛人才依赖门槛人才培养门槛业务创新节奏门槛运维专业度、效率湖仓平台核心挑战:孤岛、效率、人才湖仓平台核心挑战:孤岛、效率、人才冗余冗余同步同步复杂架构复杂架构大数据已死,大数据永生大数据已死,大数据永生离散结构网络结构层级结构关系型数据库成熟于80年代文件型数据管理NoSQL&NewSQL2010+明天理想中的下一代实时湖仓平台理想中的下一代实时湖仓平台统一的 API结构化/半结构化丰富的语义表达统一存储无数据孤岛无额外数据同步多模态检索向量/搜索/统计负载隔离存算分离水平扩展秒级扩缩容实时读写实时加工实时分析Device(IoT)IDCEvent DataCloud