《vivo数据集成稳定性与数据质量保障及可观测实践_易龙.pdf》由会员分享,可在线阅读,更多相关《vivo数据集成稳定性与数据质量保障及可观测实践_易龙.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、vivo数据集成稳定性与数据质量保障及可观测实践vivo互联网 大数据架构师/易龙目录vivo数据集成平台架构及功能vivo数据集成稳定性保障实践vivo数据集成链路数据质量保障实践vivo数据集成可观测实践vivo数据集成平台架构及功能数据接入数据接入业务层业务层产品平台层产品平台层产品能力层产品能力层工单管理任务管理用户维度用户维度监控告警管理任务治理集群管理运维维度运维维度数据质量监控可观测业务业务数据传输集成数据传输集成构建实时离线一体化数据仓库多种同步方式批量(离线)全量/增量,实时同步,全增量一体推荐、风控、分析等实时业务SDK接入Agent日志接入DB接入多场景解决方案支撑多场景
2、解决方案支撑多种同异构数据源数据同步源:Kafka/Mysql/MongoDB/Pulsar/目的:Kafka/Pulsar/Hive/CK/Hudi/HBase/实时客户分析及精准推荐实时营销活构建客群标签画像业务日志离线、实时接入离线异构数据源同步实时异构数据源同步业务多维数据分析数据接入一键诊断SLA管理产品能力地图产品能力地图 Bees,是,是vivo的一站式数据集成平台,它支持将多场景下多样化、分散的数据源,统一汇聚到大数据存的一站式数据集成平台,它支持将多场景下多样化、分散的数据源,统一汇聚到大数据存储,是数据流入大数据体系的一座桥梁。储,是数据流入大数据体系的一座桥梁。数据量大小
3、数据量条数PB级/日万亿级/日数据完整性可用性99.999999%99.99%数据时效性500msSLA管理业务1业务2业务3业务4分层架构图分层架构图核心组件架构图核心组件架构图 BeesBees监控模块监控模块 监控、指标展示与告警 Bees-ManagerBees-Manager 工单接入管理 任务管理 采集配置管理中心 用户平台服务【极重要】Bees-SDKBees-SDK 数据接入 SDK 工具包 Bees-AgentBees-Agent 源端日志接入组件 部署在业务机器 影响CPU、内存、文件句柄、IO Bees-BusBees-Bus 数据传输管道服务【极重要】Bees-XBee
4、s-X:实时数据同步服务 支持binlog日志采集 mongdb oplog实时采集 支持其他异构数据源数据同步核心功能介绍核心功能介绍bees-xNginx/Tomcat/埋点日志传输到Kafka(500ms内)支持容器服务日志支持过滤支持同时写多Kafka业务隔离对主库无性能影响保障秒级别时延支持指定点位进行数据续传支持接入到 Kafka、Pulsar支持接入到 Hive、CK等Nginx/Tomcat/埋点日志按小时粒度批传输支持容器服务日志按10分钟粒度批传输支持限速业务数据无需落地日志更低的时延(毫秒级)支持 Avro、Thrift 协议支持 Java、C+语言实时日志接入离线日志接
5、入DB全增量日志实时接入SDK数据接入核心问题及挑战核心问题及挑战 链路稳定性 链路数据质量 链路可观测性网络/服务端接入传输ETL(Spark/Flink)数仓数据上报核心问题维度 被动接收告警,问题定位恢复慢 散点式救火,运维成本高 数据产出时效性波动大 告警多而杂,处理成本高痛点问题 如何从根本上长效的根本上长效的保障稳定性 如何从全链路视角链路视角保障数据时效性 如何有效准确的有效准确的告警并快速恢复快速恢复核心挑战vivo数据集成稳定性保障实践稳定性保障整体方案稳定性保障整体方案MTBF:(Mean Time Between Failures),平均故障间隔时间MTTF:(Mean
6、Time To Failure),平均无故障时间MTTR:(Mean Time To Repair),平均修复时间架构组件:核心服务架构组件:核心服务&存储存储 多活高可用多活高可用bees-agentbees-managernginxbees-managerLVS+Keepalivedbees-sdkbees-busbees-monitorportalmasterslave1slave0proxy0proxy1agagzzbees-managernginxbees-managerSlave3slave2proxy2proxy3zzIDC1IDC1IDC2IDC2zookeeperagentM