1、姜国强-飞轮科技-产品副总裁演讲嘉宾:周飞1数据分析的痛点与机遇2SelectDB 产品简介3SelectDB 的设计探索与创新4SelectDB 应用场景与用户案例数据分析的痛点与机遇1第一部分数据分析的痛点实时性 Real Time 服务实时化 数据处理实时化 数据分析实时化成本 Cost 落后的技术栈 冗余的资源成本 大量的人力投入数据分析痛点数据分析的机遇云原生 Cloud Native统一化 Unified 湖仓一体 在离线一体 流批一体 结构化、半结构化统一 全新的软硬件技术栈 极简的使用和运维体验 多云中立:容灾、随时随地可用数据分析机遇SelectDB 产品简介2第二部分累计贡
2、献者月度活跃贡献者在全球大数据开源项目排行中活跃贡献者数连续 10 个月位列 Top1,已超越 Spark 最活跃时期。Top1Apache Doris:开源实时数据仓库2013项目建立2017项目开源12.5K+GitHub Star5000+使用企业2022商业化公司Apache Doris 是一个基于 MPP 架构的开源数据仓库,支持对大规模实时数据上的极速分析。当前全球最活跃的大数据项目之一Apache Doris累计贡献者超过 652+人,同比新增贡献者超过 70%,并仍处于持续上升的态势。652+获得全球超过 5000 家企业的信赖互联网互联网金融金融游戏游戏电信电信游戏游戏交通物
3、流交通物流零售快消零售快消能源制造能源制造互联网互联网SelectDB:基于Apache Doris的云原生实时数仓全托管在阿里云、华为云、腾讯云、AWS、GCP,并提供 SaaS、BYOC 产品形态SelectDB Cloud阿里云直接提供的 SelectDB 服务,类云厂商和 MongoDB、Elastic 的合作模式阿里云数据库 SelectDB私有化部署在物理机/虚拟机、K8S、公有云/私有云上SelectDB EnterpriseSelectDB 的设计探索与创新3第三部分SelectDB 四大核心设计理念数据实时写入与极速查询湖仓一体与多分析负载支持极致性价比与灵活弹性能力开放设计
4、简化周边生态集成Real-Time实 时 极 速实时分析即未来数据随着时间的推移而价值降低。大规模实时数据分析日益成为各个企业的核心竞争力。从跑批报表到实时仪表盘,从预置报表到交互式即席查询,从面向内部的分析到面向外部客户的分析,从面向人的分析到算法自动决策,企业正全面进入实时分析的时代。数据延迟和查询延迟是实时分析的核心指标实时的数据导入和数据存储,确保分析数据的新鲜性。极速、高并发的数据查询以便满足响应的及时性。实时数据:数据的实时导入与实时存储数据源:数据库、数据流、数仓、数据湖等实时 API:Stream Load、Routine Load、Insert Into数据生态:Flink/
5、Spark/Kafka Connector、DataX 等全面的秒级数据导入 API 和生态支持高效实时更新:主键模型(Unique)秒级加减列等表模式修改:Light Schema Change服务端攒批:Group Commit多种实时存储模型和轻量化表模式修改Stream loadBroker LoadRoutine loadInsert IntoS3 LoadMySQL LoadDTSFlink ConnectorSpark ConnectorKafka ConnectorDataX实时和离线导入方式及工具X2Doris对象存储HDFS离线数仓FlinkKafka流式数据Iceberg
6、Hudi数据湖MySQLPG关系型数据库本地文件SelectDB实时数据:Group CommitGroup Commit 模式异步模式:立即返回,WAL 保障数据持久化同步模式:SelectDB 合并提交后返回关闭模式:不开启数据 Flush时间间隔:可达秒级,默认 10 秒 数据量:默认 64 MB支持导入类型Insert Into Values Stream Load极致性能:多种查询负载上拥有极速性能万级 QPS、毫秒级延时的高并发点查能力优化器定向优化行列混合存储多级缓存丰富内置索引高并发点查询Clickbench 排名第一,比友商性能提升 30%-100%Pipeline 执行引擎