《闫蒙蒙(1).pdf》由会员分享,可在线阅读,更多相关《闫蒙蒙(1).pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、闫蒙蒙货拉拉大数据基础架构存储货拉拉的大数据存储架构演进目录目录0 2大数据在线大数据在线存储存储0 3大数据离线大数据离线存储存储0 4AI AI 向量向量存储存储0 1背景介绍背景介绍背景背景介绍介绍01货拉拉介绍2024年全球闭环货运交易总值最大的物流交易平台2024年全球闭环货运GTV最大的同城物流交易平台2024年全球已完成订单数量最多的物流交易平台2024年全球平均月活商户最多的物流交易平台779M779M14M14M1.2M+1.2M+1414400+400+6+6+年订单月活商户月活司机全球市场城市DC20K+40PB+3000+4+IDC机器数机器数存储量存储量日均任务数日均
2、任务数货拉拉大数据货拉拉大数据货拉拉大数据数据工具箱可视化固定报表指标体系大数据基础平台基础层离线计算(Hive/Spark/Presto/.)实时计算(Flink)资源管理(YARN/K8S)离线存储(HDFS/COS)OLAP多维分析(Druid/CK/Doris)在线存储(HBase/ES)实时数据接入埋点数据接入数据对账数据链路监控离线数据接入数据接入平台接入层数据门户权限中心个人中心内容管理知识库建议反馈数据门户权限中心个人中心内容管理知识库建议反馈门户首页平台层&数仓数据研发平台飞流实时开发BQ数据即席查询IDP数据集成开发数据治理平台数据成本管理元数据管理数据安全管理数据质量管理
3、数据服务工具快捷分析快速报表数据智能支撑工具服务层AB Test特征平台数据应用支撑服务工具自助分析指标库管理数据上报用户画像数据云服务大数据分析平台辅助决策类应用赋能业务类应用应用层智能营销智能广告投放实时报表鹰眼监控经营分析用户分析数据资产ODS贴源数据层DWS公共汇总服务层DIMDWD明细数据层DWB明细数据整合层集市层标签画像体系 特征体系AI平台DIM维表层大数据使命:驱动业务数智化,助力公司业务持续增长自建自建+云服务云服务混合混合CanalFlink CDC神策自研数据库采集组件FlumeNoSQLsMQLogsHTTPRDBMS风控KafkaSpark StreamingFli
4、nk飞流实时开发平台实时计算COS/Azure Blob StorageHDFS(自建)Hive/Tez/MRPrestoSparkSpark SQLIDP 数据集成开发平台批计算元数据管理成本治理OLAP 分析数据 API实时看板画像 BQ 即席查询HBase RedisMySQL在线存储 DorisDruidClickHousePhoenixOLAPvearchOB cloud向量在线存储在线存储实践实践02萌芽期萌芽期-从0到11.各团队自建HBase完善期完善期-场景完善1.高性能分布式 KV 存储2.图数据库成熟期成熟期-稳定性持续发展1.稳定性能力对齐业务,达到 99.99%03成
5、长期成长期-存算分离,稳定高效1.稳定性保障专项,建设生产级别存储能力020104在线存储发展历程在线存储使用现状集群数量:20节点数量:200+表数量:700+数据量:2PB+事前事中事后技术债治理业务准入规范研发变更规范容量保障业务隔离故障预防故障发现故障响应故障定位故障恢复整改验收监控告警日常巡检业务感知数据质检应急响应小组应急响应规范应急演练定位大盘trace能力团队人员培养定位工具降级RSGroup隔离限流熔断HA恢复预案故障复盘改进验收专项治理定期演练 稳定性-体系概览体系化建设,保障SLA4个9,支持业务稳定发展稳定性-业务隔离多种部署模式,兼顾稳定性和成本独立部署混合部署onl
6、ineOnlineCluster01offlineOfflineCluster02luopanCluster01.策略:在线业务和内部服务使用业务独立集群部署优点:减少“邻居干扰”,缩小影响面策略:使用RsGroup进行小集群隔离优点:最大化降低成本online_board稳定性-HA能力slavemaster承载线上流量备集群SDKReplicationread、writeread、writeApollo主备配置信息 支持按照表维度集群级别读写切换 规划自动切换和多集群多路读能力两套集群,双向复制,业务无感切换性能和效率-挑战容量型集群性能型集群风控、