《王浩宇-贝壳大数据质量保证实战.pdf》由会员分享,可在线阅读,更多相关《王浩宇-贝壳大数据质量保证实战.pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、贝壳大数据质量保证实战主讲人:王浩宇演讲嘉宾介绍王浩宇前贝壳找房资深测试开发工程师 搜狗:大搜检索端,负责搜索核心模块的质量保证工作 百度:凤巢检索端,负责搜索核心模块的质量保证和测试工具建设 贝壳找房:从事大数据和人工智能产品质量建设CONTENT目录2023K+01贝壳大数据背景介绍贝壳批处理生产质量建设贝壳数据应用质量建设020304贝壳流式处理质量保证Part 01贝壳大数据背景介绍公司发展特点介绍房产产业互联网低频高价中介信任协作链路长科学管理To C:找房、看房、查资讯To 小B:房源维护、客源维护、业主维护通过 To 小B 来 To C:连接客户 降低方差贝壳大数据使用场景大数据
2、智能产品业务数据:GMV、成交量商机量、带看量埋点数据:PV、UV房价指数服务分房屋估价经纪人展位必看好房对话助手贝壳大数据使用场景房源信息访问/带看降价/查看/询问历史成交Q:为什么需要大数据?A:相关性的价值价格合理,业主意愿强烈,曝光量大的满五唯一房源容易成交交易系统房源系统IMC端带看系统房源系统楼盘字典业主系统基础服务公司级数据海量数据处理能力要求聚焦优质房源,提升成交率我理解的大数据大数据的技术特点:基于开源生态分为数据生产侧和报表查询侧数据生产侧分批处理和实时处理报表查询数据生产结构化数据半结构化数据非结构化数据数据接入:SqoopFlumeCanalDataX数仓处理:Hive
3、FlinkHadoopKafka分析引擎:KylinImpalaPrestoSparkSQL数据写入数据读取业务系统业务系统用户使用批量处理实时处理贝壳大数据发展特点大数据集群SparkFlinkHBaseTezSpark StreamingHiveHadoopKylinClickHouseDruidImpalaPrestoESDGraphjanusGraphMySQLTiDBkafka基础设施数仓加工实时计算平台任务调度系统数仓存储数据查询查询中间件消息服务数据开放API数据订阅数据交换数据接入DataBusSqoop/DataX实时数据处理数据管理平台(数据工厂)平台视角数据源(业务DB、
4、文件、行为日志)数据视角接入层STG/ODS数仓层DW集市层DWS/DM数据可视化分析权限SQL解析服务公司大数据发展特点:报表查询建设度 数据生产建设度批处理场景 实时处理场景公司大数据质量建设批处理生产质量建设+报表查询质量建设+其他章节介绍批量处理生产质量建设+报表查询质量建设+其他Part 02贝壳批处理生产质量建设批量处理生产质量建设产品运营产品研发需求开发测试上线口径确认逻辑确认需求卡点代码开发提测卡点线上测试上线卡点依赖配置系统无变化系统有变化基础设施(Hadoop/Spark/Kafka/Kylin/Hbase/Tez/Flink)数据接入业务采集日志采集线下手动线上线下变更审
5、批数据仓库STGDMDW延迟波动监控链路分析手工降级数据应用奥丁APItableau线上验收日报核心指标手工重启手工执行手工对数执行测试问题:人工流程比较多,耗时耗力 手工执行和验证 数据对比依赖人眼 质量建设偏事中监控,值班成本高 问题发现能力强,但止损能力弱 产研阶段问题无法提前发现和避免公司批处理质量建设状态及问题批量处理生产质量建设及时性数据刷新、修改和提取等操作及时完整性实体不缺失,属性不缺失,记录不缺失,字段值不缺失准确性数据记录的信息不存在异常和错误一致性数据来源、存储和统计数据具有一致性数据质量评估标准及时性的结果非0即1,需要优先解决批量处理生产质量建设及时性数据刷新、修改和
6、提取等操作及时完整性实体不缺失,属性不缺失,记录不缺失,字段值不缺失准确性数据记录的信息不存在异常和错误一致性数据来源、存储和统计数据具有一致性数据质量评估标准数据延迟集团管理经纪人作业策略效果上午9点之后的数据产出没有意义!批量处理生产质量建设问题分析问题类型分布基础架构类问题占比最高,是强依赖,集群稳定是质量提升的基础数仓类问题发现和处置滞后,SQL变更验证不充分导致的SQL执行失败是主要风险基础架构类问题原因数仓类问题原因批量处理生产质量建设批量处理生产质量建设及时性治理是一个系统性工程,需要全角色参与!集群算力提升扩容核心队列稳定性治理小文件合并慢节点优化变更管控AB测试逃生队列数据任