1、曲明星/智慧芽数据仓库架构师TiDB X FlinkTiDB X FlinkHTAP HTAP 为实时数据服务插上翅膀为实时数据服务插上翅膀关于关于PatsnapPatsnap#1关于Patsnap客户包括清华大学、北京大学、中科院、中国石化、海尔、美的、小米、宁德时代、小鹏汽车、大疆、药明康德、商汤科技、华大等;国际客户包括麻省理工学院、牛津大学、陶氏化学、戴森、Spotify等Patsnap是一家科技创新情报SaaS服务商。通过机器学习、计算机视觉、自然语言处理(NLP)等人工智能技术为全球领先的科技公司、高校和科研机构、金融机构等提供大数据情报服务服务全球50多个国家超1万家客户,涵盖了
2、高校和科研院所、生物医药、化学、汽车、新能源、通信、电子等50多个高科技行业数据优势64个国家的法律状态数据1.7亿化学结构式覆盖全球126个国家的1.6亿+专利量1.4亿篇科技文献信息8亿+基因序列数据产品构架产品构架#2产品架构技术构架技术构架#3原实时分析方案检索条件A搜索引擎B搜索引擎C搜索引擎分析API搜索引擎原实时分析方案问题点对检索性能产生影响问题问题一一复杂分析需要开发插件支持问题问题二二跨多个搜索引擎分析复杂度高问题问题三三不同维度的数据无法存储问题问题四四业务要求实时数仓特点秒级响应准实时数据更新能支持一定量的并发能力与搜索引擎数据保持一致支持复杂分析的能力支持统一使用方式
3、及主流特性支持与搜索引擎交互支持存储容量横向扩展的能力数据平台概览外部分析服务外部分析服务服务服务创建创建数据数据APIAPI服务授权服务授权调度管理调度管理元数据数据血缘数据安全贴源数据贴源数据在线数仓在线数仓离线数仓离线数仓应用数据应用数据数据标签数据标签外部数据外部数据数数 据据 管管 理理数据服务数据服务数据管理数据管理数据分类数据分类数据存储数据存储数据计算数据计算离线开发离线开发实时开发实时开发调度平台调度平台环境隔离环境隔离数据开发数据开发BIBI工具工具科创分析科创分析金融金融InsightsInsights数据业务数据业务内部分析业务内部分析业务离线取数离线取数数数 据据 运
4、运 营营数数 据据 应应 用用数数 据据 平平 台台数数 据据 底底 座座新实时分析方案检索条件数仓服务搜索引擎提取命中数据中间结果保存动态路由安全检查执行计划检查SQL语法解析SQL黑名单重构SQL语句参数注入集群负载检查驱动表管理缓存管理标准结果离线存储TIDB数据存储参数校验持久化元数据维护动态分配表执行器分析结果TIKVPD分析结果TiFlash复杂度分析为什么选择TiDB云原生并且社区活跃开源开源满足TP及AP业务场景HTAPHTAP丰富的生态工具及多平台运维方便运维方便兼容MySQL以及大数据能力使用简单使用简单为什么选择Flink云原生并且社区活跃开源开源满足对数据的及时性要求实
5、时实时exactly-once语义一致性一致性低延迟高吞吐量高性能高性能在线业务数据写入流程数据变更数据变更消息队列消息队列索引程序索引程序搜索引擎搜索引擎A A宽消息队列宽消息队列FlinkFlink流式处理流式处理ADSADS应用业务层应用业务层搜索引擎搜索引擎B B搜索引擎搜索引擎DiffDiff 操作操作目标消息队列目标消息队列离线分析技术体系AmazonAmazon EMREMRAmazonAmazon RedshiftRedshiftAmazonAmazon EC2EC2AmazonAmazon S3S3AmazonAmazon AthenaAthena离线业务数据写入流程订阅消息
6、变更流原始数据层持久化流至S3Spark增量数据合并全量数据存放S3AthenaSparkPresto原用户行为分析方案SegmentMetaBaseAmazonAmazonRedshiftRedshiftCSPM消息发送帐号同步BackOfficeIdentityPassportCore Product新用户行为分析方案用户行为数据Amazon KinesisFlink 实时计算平台Flink 实时计算平台Flink 实时计算平台EMR集群近实时指标窗口级别指标DWDDWS