《24-06-字节跳动 veDB-MySQL的智能化与云原生实践_1.pdf》由会员分享,可在线阅读,更多相关《24-06-字节跳动 veDB-MySQL的智能化与云原生实践_1.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、字节跳动 veDB-MySQL 智能化和云原生实践曹立勋 字节云原生数据库veDB技术负责人1.veDB-MySQL 简介2.现状与挑战3.云原生与智能化实践4.未来规划5.Q&AContents1.veDB-MySQL 简介架构简介架构特点 log is database 计算存储分离 日志数据分离核心能力 100%兼容MySQL生态 毫秒级主备时延 计算存储独立&快速按需扩展 超大PB级存储容量 AZ内部署任意单节点故障RPO=0 跨AZ部署,AZ级故障RPO=0DB InstanceDistributed Storage PoolPMHDDSSDComputingLayerStorage
2、LayerProxyLayerproxyAZ1DB InstanceDB InstanceproxyAZ2DB InstanceDB InstanceproxyAZ3DB InstanceLog I/O&Page I/O发展历程2020.42021.6里程碑2019.7 编写第一行代码 基于Percona 8.0构建计算存储分离 1.0正式发布 上线预生产环境 上线部分正式业务 预生产环境完成对RDS MySQL全量替代 上线500+正式业务 支持Hotcache、秒杀、Quick Reshard等高阶特性2023.1 内场持续上量占比超过50%火山引擎veDB服务正式GA2025.1 支持5
3、.7版本 内场占比70%,数据量突破xxPB 火山业务完成核心友商迁移案例的沉淀,在汽车/AI/游戏等场景拿下关键客户时间线2.现状与挑战现状 规模大:国内生产环境70%业务库接入,总实例数超过xxW,逻辑数据量超过xxPB 场景多:覆盖所有业务门类(抖音/电商/财经/广告/番茄小说/懂车帝/豆包/飞书等)地域广:在全球有7个服务区域对业务提供服务xxx K+xx PB780 M+实例数数据量吞吐量QPS服务区域核心挑战存算分离-性能挑战规模大-稳定性/成本/运维挑战场景复杂-需求满足度的挑战3.云原生与智能化实践Quorum hot cache 秒杀异步提交log 并行quick resha
4、rd HTAP1.0压缩log only segment 表级转冷PITR flashback 回收站 依赖故障降级.高性能Write ThroughProblem 写操作只更新buffer pool页面,缺页时同步IO导致性能差 部分写场景无后续访问需求,性能差且IO资源浪费严重Solution 写操作缺页时无须将页面load到内存更新 将写操作下推至存储层完成持久化Outcome 导数性能最大提升200%二级索引更新性能提升70%BufferPoolPage ServerClientWriteDataPageRedoLogmodify pagesBufferPoolPage ServerC
5、lientWriteRedoLog传统写模式直写模式高性能预读Problem Remote IO时延高,大范围扫描场景性能差 线性预读、随机预读场景有限,效果不佳Solution 基于SQL执行逻辑,按accesspath访问制定预读计划 动态调整前后台IO调度,大幅减少同步IO 动态流量控制,做到即读即用Outcome 范围扫描场景性能提升10 x-60 x 精准预读,有效IO利用率100%BufferPoolPage ServerClientResultData Page同步IO预读IOprefetch thread groupPage ServerData PageBufferPoolC
6、lientResultchu备份系统临时实例全量恢复逻辑导入导入实例前台写入前台写入导入实例备份系统部分恢复DBStore物理导入Import table临时实例传统方案VeDB 方案Problem 实例级别备份恢复,速度慢开销大 传统逻辑导入回档方式性能很差 导入过程占用大量资源,影响目标实例吞吐Solution 恢复数据字典、undo和回档表至临时实例 在临时实例中按照segment粒度并行回档 将回档表直接挂载到目标实例完成回档Outcome 十倍以上性能提升,回档速度可按需扩展 存储层直接导入,不占用目标实例资源高性能回档存储温冷热分层Problem 存储侧热数据占总量20%,SSD三
7、副本成本负担大 PageStore CPU磁盘资源扩展耦合,利用率无法做到极致 PageServer有状态,弹性扩展能力受限Solution PageStore计存分离,实现缓存+持久双层结构 缓存层提供多版本服务,快速弹性应对业务突发流量 持久层实现数据(热/温/冷)自适应分层存储 PageServer轻状态,实现快速伸缩以及故障快速恢复Problem 在线业务与实时数分业务分离,导致架构复杂,成本较高,运维难度大 传统采用 DTS 同步链路维护成本高,数据一致性难以保证,同步时延在秒级以上Solution 一站式入口,完全兼容MySQL(DDL/DML/DQL)TP至AP 同步平均时延最低
8、到200ms 支持MPP架构和秒级弹性扩缩容 支持TP/AP内核自动分流 支持谓词下推至存储层,降低查询时延 支持外表(Hive/HDFS)离线数据分析查询 支持在线TP/AP数据与离线数据混合查询Outcome AP同步数据新鲜度从平均6分钟降低至秒内 支持复杂分析查询,包括多表JOIN、聚合、JSON等,相对TP加速300 x Benchmark TPC-H 100G 33s,TPC-H 1TB 372s(4*8 vCPU 32GiB)TPC-DS 100G 183s(4*8 vCPU 32GiB)HTAP 2.0DBCopilot豆包大模型DBCopilot产品能力应用场景SQL诊断优化
9、Deep Research问答Text2SQL/2Chart实时负载分析实例配置管理/MCP智能迁移评估分析存数据上云咨询、云资源智管取数据NL查询、BI分析SQL改写/纠错数据血缘/ER发现领域RCA分析多Agent推理链时序数据异常检测异常指标关联挖掘管数据日常运维、故障诊断、智能优化存数据管数据取数据Problem 平台产品多、操作复杂 SQL语法复杂、库表多,找数难 运维复杂、问题定位慢、依赖专业人员Solution 面向Human、AI应用提供自然语言/MCP接口使用数据库,全面重塑面向用户的交互形态,包括平台操作、数据开发、运维诊断等典型场景 通过智能问答、NL2SQL和图表生成降低开发者门槛 通过多Agent推理编排与效果优化,基于GenAI和机器学习实现智能诊断、智能优化、弹性扩缩容Outcome 基于GenAI的智能问答、智能诊断、SQL助手已经发布,提升数据库开发效率,NL2SQL在24年BIRD榜单第一,在诊断方面经过典型场景实测可以提升50%以上时效智能Agents/多模交互DBCopilot 数据库智能驾驶4.未来规划规划总览 极致性能-下一代分层存储架构 极致弹性-serverless AI融合-向量引擎 ALL in one-混合查询(TP/AP/Vector)Q&A