《网易游戏在 OceanBase 云平台的建设和实践_田维繁.pdf》由会员分享,可在线阅读,更多相关《网易游戏在 OceanBase 云平台的建设和实践_田维繁.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、网易游戏网易游戏在在 OceanBaseOceanBase 的的云平台建设实践云平台建设实践田维繁网易游戏关系型数据库SaaS 服务运维和开发Contents目录DB SaaS 服务介绍01 OceanBase 在网易游戏应用02 OceanBase 云平台建设03 未来展望04 0101DB SaaS 服务介绍DB SaaS 服务介绍关于我们:为网易众多游戏以及游戏周边业务提供一站式的数据库 SaaS 解决方案数据迁移服务(DTS)数据迁移数据订阅数据同步数据校验核心能力异构迁移跨云迁移版本升级外部迁移数据查询TPS 分析数据变更QPS 分析数据管理服务(DMS)数据回滚会话管理库表管理大文
2、档分析索引管理大表分析DDL 变更日志分析数据合并集群拆分应用场景资源创建资源扩容规格调整套餐管理数据库生命周期管理监控报警高可用管理版本管理健康探测参数管理故障演练复制管理访问控制数据库实例管理资源管理文档型数据库内存数据库关系型数据库KV 数据库向量数据库图数据库IDC 自建机房,物理机上层虚拟化公有云(AWS,ALIIYUN,GCP,AZURE)私有云数据库服务能力层数据库层硬件服务层基础服务层monitordns常规备份快照备份增量备份库表备份备份巡检本地恢复线下恢复线上回滚库表恢复下线恢复备份管理(DBS)硬件服务层:提供自建 IDC 机房虚拟化服务,公有云以及私有云的结合数据库层:
3、提供多个数据库 SaaS 服务,满足不同游戏业务场景需求生命周期管理:从资源创建到回收流程的灵活管控,以及不同架构不同实例的日常管理数据管理服务(DMS):提供安全多样化且便捷的数据查询、分析、变更服务数据传输服务(DTS):提供业务合服/拆分迁移/升级等多样化数据流转服务数据备份服务(DBS):完善的数据备份与恢复服务DB SaaS 服务介绍0202OceanBase 在网易游戏应用试用结论:性能强劲 并发事务处理能力超预期 周边欠缺 工具链和生态需完善上线前痛点分库分表复杂 跨库查询延迟高,维护成本大数据汇总延迟高-数据复制链路长,且延迟高上线后收益 原生分布式架构 无需分库分表,简化业务
4、逻辑 查询延迟降低 数据聚合后性能与延迟效率提升 50%+2025年2024年2023年2021年尝鲜试用某游戏充值系统更多场景落地 某游戏饰品交易系统上线前痛点MySQL 存储压力 单实例超 10TB,扩容成本高单节点性能瓶颈 高峰期 QPS 突破 10 万上线后收益 存储成本下降 65%OceanBase 高效压缩 横向扩容能力 解决单节点压力 多业务线并行验证、测试、上线OceanBase 在网易游戏应用与发展规模化运维的痛点1、不同套餐满足需求1、解决兼容性问题3、规范安全的统一操作平台程序角度SRE角度1、集群容量成本1、多机房容灾管理3、慢查询与日志定位DBA角度1、提升运维效率1
5、、生命周期集中管理平台3、精细化运维需求管理流程的规范化多机房容灾能力安全与审计能力数据全生命周期管理迁移兼容性支持需求统一管理平台痛点1.集群全生命周期管理(创建/扩容/缩容)需人工逐项操作2.备份恢复、数据迁移、管理平台对接等需要DBA 亲力亲为安全与权限管理隐患1.权限控制松散混乱:人员过多时,容易导致混乱,存在权限安全风险2.审计缺失:业务可能会共用一个账号登陆ocp 平台,缺乏追踪到个人的操作审计人为误操作风险集群资源与 DB SaaS 平台不联动,容易导致人为误操作兼容性验证成本较高从其他数据库迁移到 OceanBase,无法充分保证兼容性,业务角度验证兼容性成本较大日常运维繁琐低
6、效OceanBase 在网易游戏应用与发展0303OceanBase 云平台建设集群全生命周期管理集群创建创建回收DMS能力监控报警持续建设兼容性验证慢日志分析备份恢复OceanBase 云平台建设生命周期管理1.数据迁移2.流量回放验证兼容性1.套餐定制2.虚拟化机器3.对接 OCP 平台1.慢查询分析报警2.日志分析报警1.数据查询,变更清理归档2.操作审计1.监控大盘展示2.健康探测报警1.备份对接 s32.实现一键式恢复 直接对接功能完善的 OCP 平台,无需自行实现环境检查、集群创建等功能 OCP 提供丰富的 API 接口(如集群创建 API),仅需调用少量接口即可快速完成集群部署交
7、付 与 OCP 深度联动,自动处理集群创建成功/失败后的流程,确保资源自动回收,避免残留问题套餐定制测试验证套餐(单 observer 节点)普通套餐(observer 8C/64G)高性能套餐(observer 16C/128G)多机房容灾套餐统一平台对接,录入相关信息,完成集群创建录入机器信息根据录入机器信息创建OB 集群创建租户信息apiapiapiOCP 平台DB SaaS 平台根据套餐虚拟化机器(实现 CPU、mem 等资源隔离)OceanBase 云平台建设集群资源创建定制化的套餐1.数据迁移2.流量回放验证兼容性集群创建创建回收1.套餐定制2.虚拟化机器3.对接 OCP 平台1.
8、慢查询分析报警2.日志分析报警DMS能力1.数据查询,变更清理归档2.操作审计监控报警1.监控大盘展示2.健康探测报警1.备份对接 s32.实现一键式恢复持续建设兼容性验证慢日志分析备份恢复OceanBase 云平台建设生命周期管理OceanBase 高度兼容MySQL 协议,但在特定业务场景下仍可能存在兼容性差异。如何提前识别潜在风险?兼容性问题突增流量承载能力面对业务突发的高并发流量,OceanBase 能否稳定支撑?如何通过压测提前验证其性能表现?高倍流量期间,主动触发节点宕机、网络隔离等故障,观察数据库的自动恢复能力和业务影响可靠性验证较低成本模拟真实业务负载,提前暴露问题,避免生产环
9、境“踩雷”OceanBase 云平台建设兼容性验证My SQL 节点流量抓取流量回放OceanBase 云平台建设自研的流量回放平台 OceanBase 早期版本 GET_LOCK 与 MySQL 使用不兼容 虚拟列用法使用不兼容 SQL 语句共享锁使用方式不兼容 不兼容问题集群创建创建回收DMS能力监控报警持续建设兼容性验证慢日志分析备份恢复OceanBase 云平台建设生命周期管理1.数据迁移2.流量回放验证兼容性1.套餐定制2.虚拟化机器3.对接 OCP 平台1.慢查询分析报警2.日志分析报警1.数据查询,变更清理归档2.操作审计1.监控大盘展示2.健康探测报警1.备份对接 s32.实现
10、一键式恢复 多数据库兼容性:兼容了 OceanBase 的同时,定制 OceanBase 相关专属能力 精细化权限控制:通过角色分级(如 DBA、开发、SRE)和操作审计日志,确保最小权限原则 数据保护机制:敏感信息脱敏、操作回溯能力,降低泄露或误操作风险语法检查空间检查延迟检查连通性检查风险管控权限配置审批管理账号管理敏感数据过滤安全管理实例与租户接入管理租户资源扩缩容数据库类型维护资源管理租户层库名表名表结构OceanBase 数据库层数据操作数据同步数据清理数据归档流量录制回放数据查询数据导出数据变更表结构变更审计日志审计报表审计通知操作审计OceanBase 云平台建设DMS 能力建设
11、集群创建创建回收DMS能力监控报警持续建设兼容性验证慢日志分析备份恢复OceanBase 云平台建设生命周期管理1.数据迁移2.流量回放验证兼容性1.套餐定制2.虚拟化机器3.对接 OCP 平台1.慢查询分析报警2.日志分析报警1.数据查询,变更清理归档2.操作审计1.监控大盘展示2.健康探测报警1.备份对接 s32.实现一键式恢复基础监控报警健康探测OceanBase 云平台建设监控与报警集群创建创建回收DMS能力监控报警持续建设兼容性验证慢日志分析备份恢复OceanBase 云平台建设生命周期管理1.数据迁移2.流量回放验证兼容性1.套餐定制2.虚拟化机器3.对接 OCP 平台1.慢查询分
12、析报警2.日志分析报警1.数据查询,变更清理归档2.操作审计1.监控大盘展示2.健康探测报警1.备份对接 s32.实现一键式恢复OCP 平台OceanBase 云平台建设慢日志分析集群创建创建回收DMS能力监控报警持续建设兼容性验证慢日志分析备份恢复OceanBase 云平台建设生命周期管理1.数据迁移2.流量回放验证兼容性1.套餐定制2.虚拟化机器3.对接 OCP 平台1.慢查询分析报警2.日志分析报警1.数据查询,变更清理归档2.操作审计1.监控大盘展示2.健康探测报警1.备份对接 s32.实现一键式恢复备份集群创建调用 OCP 备份策略定制调整 OceanBase实例备份策略DB 平台备
13、份展示调用 API 监控备份情况apiapiapi推送备份/恢复失败异常报警自建 S3 存储系统备份失败恢复恢复现有集群备份列表恢复到新集群调用 API 监控恢复情况DB 平台展示恢复情况备份恢复OCP 云平台apiapiapi恢复失败OceanBase 云平台建设备份与恢复集群创建创建回收DMS能力监控报警持续建设兼容性验证慢日志分析备份恢复OceanBase 云平台建设生命周期管理1.数据迁移2.流量回放验证兼容性1.套餐定制2.虚拟化机器3.对接 OCP 平台1.慢查询分析报警2.日志分析报警1.数据查询,变更清理归档2.操作审计1.监控大盘展示2.健康探测报警1.备份对接 s32.实现
14、一键式恢复1.集群诊断2.性能分析报表持续建设obdiag(诊断对接)一键诊断分析一键集群巡检性能监控与分析智能诊断建议通过平台对 OceanBase 的日志进行分析,找出发生过的错误信息,进行一键全链路追踪。平台定期对接调用 obdiag 实现对已存在或可能会导致集群出现异常问题的原因分析并提供运维建议。包括 QPS、TPS、响应时间等趋势对比 CPU、内存、I/O、网络等资源使用趋势对比。结合规则引擎或机器学习,自动推荐优化建议(如索引缺失、配置调优)基于历史数据预测未来资源需求(如存储扩容时机)性能分析报表OceanBase 云平台建设持续建设0404未来展望自动分区分裂能力支持对不合理分区配置(如数据量过大的分区)进行自动分裂调整提供智能化的全自动分区管理,仅需指定分区键即可实现自适应的动态分区,无需人工干预实时分析能力充分应用 OceanBase 行列混存架构融合到实时分析业务场景中,动态对 TP 和 AP 资源的调度能力智能运维(AIOps)结合多元的场景需求,针对 OceanBase 自动故障检测、根因分析(RCA)、智能调优建议,减少人工干预深度集成 OCP 云平台,提供企业级运维能力,显著提升 OceanBase 管理效率OceanBase 未来展望谢 谢谢 谢谢 谢