1、例:支撑海量数据的大数据平台与架构例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求:微软雅黑:最小字号 8号宋体:最小字号 10号等线:最小字号 12号分布式 Data Warebase 面向 AI 时代的数据架构杨克特ProtonBase 技术副总裁CONTENTS目录1.数据平台的架构演进2.AI 对数据平台的需求3.Data Warebase 核心技术解析4.客户实践DIKW 模型智慧知识信息数据可洞察事物本质而升华的知识经过归纳和总结的信息有上下文被赋予意义的数据没有上下文的数和文字智能数据的重要性智慧知识信息数据错误的行动错误的知识有误导性的信息不完整/不严谨/不正
2、确数据平台的架构演进民宿应用的数据架构演进 早期实时读写应用服务民宿应用的数据架构演进-单机容量瓶颈实时读写分库分表实时读写应用服务民宿应用的数据架构演进-关键词搜索实时读写分库分表实时读写对象存储快照快照CDCCDC全量同步增量同步关键词搜索应用服务民宿应用的数据架构演进-汇总分析实时读写分库分表实时读写对象存储快照快照CDCCDC全量同步增量同步关键词搜索BI 工具应用服务传统 AI 例子 离线洞察邮件营销民宿应用的数据架构演进 离线 AI实时读写分库分表实时读写对象存储快照快照CDCCDC全量同步增量同步关键词搜索BI 工具模型训练数据预处理应用服务传统 AI 例子 实时决策020040
3、0600800100012001400Jan-11Jul-11Jan-12Jul-12Jan-13Jul-13Jan-14Jul-14Jan-15Jul-15Jan-16Jul-16Jan-17Jul-17Jan-18Jul-18Jan-19Jul-19Jan-20Jul-20Jan-21Jul-21实时自动定价民宿应用的数据架构演进 实时 AI实时读写分库分表实时读写对象存储快照快照CDCCDC全量同步增量同步离线特征关键词搜索BI 工具模型训练数据预处理应用服务实时特征模型服务生成式 AI 例子 智能员工助手通用聊天助手Q:我们公司是否给员工提供了停车位?A:这要取决于公司的具体安排。很多
4、公司确实会提供员工停车位,特别是在员工人数较多、办公场所比较大的情况下。有些公司可能会根据职位或员工的工龄来分配停车位,或者提供有限数量的车位,先到先得。你可以咨询公司行政或人事部门,了解是否有相关的停车位安排和申请流程。智能聊天助手(RAG)Q:我们公司是否给员工提供了停车位?A:查询到您的办公园区是 XXX。根据当前规定,您可以从 XX 入口进入公司,并将车停在 B1 和 B2 的指定区域内。如不能顺利进入停车区域,请联系 XX,电话XXXXXXX生成式 AI RAG 流程3向量搜索4相关文档知识库5提示+上下文LLM276召回系统生成答案1问题嵌入服务向量民宿应用的数据架构演进 生成式
5、AI实时读写分库分表实时读写对象存储快照快照CDCCDC全量同步增量同步向量数据库特征发布关键词搜索语义搜索BI 工具模型训练数据预处理应用服务模型服务上述架构弊端数据不一致开发效率低成本不可控运维复杂系统稳定性差数据延迟开发门槛高开发视角运维视角业务视角核心技术拆解业务核心需求性 能正 确实 时关系型数据库水平扩展的挑战正确性能实时NoSQL?正确性能实时关系型数据库和NoSQL的融合引入Json类型实现分布式事务正确性能实时向量数据库民宿应用的数据架构演进对象存储全量同步增量同步关键词搜索语义搜索BI 工具模型训练数据预处理实时读写快照CDC+分布式事务类型扩展(JSON)应用服务关键词搜
6、索的实时性需求正确性能实时数据库管控台应未搜到家宿1某宿管理员3信息更新后上再次搜索3数据同步4同步延迟搜索引擎1搜索:烟 停位2通过管控台向数据库发出修改数据请求实时关键词搜索在原始数据上搜索核心技术需求倒排索引全局二级索引正确性能实时倒排索引民宿应用的数据架构演进向量数据库对象存储全量同步增量同步语义搜索BI 工具模型训练数据预处理实时读写快照CDC+分布式事务类型扩展(JSON)应用服务倒排索引全局二级索引关键词搜索当前实时数仓普遍问题依赖前置系统攒批数据不一致正确性能实时正确性能实时实时数仓核心技术向量化执