《1-4 面向行为分析的数据治理和应用.pdf》由会员分享,可在线阅读,更多相关《1-4 面向行为分析的数据治理和应用.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、面向行为分析的数据治理和应用贾毅宁2022-08-27v常见的数据分析场景v数仓建模方法v数仓建模方法的优劣势v面向行为分析的分析方法-概念v面向行为分析的分析方法-整体架构v面向行为分析的分析方法-分析举例目录常见的数据分析场景业务数据行为数据做了什么-指用户使用产品上的各种行为v 网站行为:浏览页面、停留时长、页面的浏览路径、点击行为 等v 广告行为:请求、曝光、点击、广告浏览时长 等v App行为:登陆、注册、功能使用、客服支持 等v 游戏行为:完成教程、过关、付费、升级 等结果如何-指用户行为之后,实际产生的结果业务数据会落库业务数据表。分析业务数据的意义,可以衡量商业价值,是业务最终
2、呈现结果,用以推动公司业务的发展。v 电商指标:PV、UV、成交用户数、成交订单数、GMV、客单价、退款率 等v 广告指标:点击率、转化率、参竞率、竞得率 等v 金融指标:资产负债率、净利润、流动比率、毛利率 等v 游戏指标:付费金额、付费人数、付费率、首充人数、首充金额、ARPU、LTV 等工程实现-面向行为分析的数据加工和分析v 主要分析方式:漏斗分析、留存分析、Segment分析、Cohort分析、用户会话分析、用户行为路径分析 等v 服务的团队:增长团队,存量经营团队,产品团队工程实现:数仓建模v 工程关键词:数据仓库、数据集市、星形数据模型、雪花形数据模型、纬度表建模、多维分析、MP
3、P数据库 等v 服务的团队:各个业务团队、公司决策层、产品团队数仓建模方法用户空间点击曝光请求用户ID登陆时间登陆方式用户ID注册时间会员等级数仓建模主题应用广告主题宽表用户登陆主题宽表会员注册主题宽表ODSDWD维度表报表建设特征挖掘机器学习OneID增长团队存量经营团队产品团队数仓建模方法的优劣势优势v 方法论成熟:已经在无数的公司中被验证过,更有像阿里巴巴大数据实践Building The Data Warehouse等优秀的指导书籍。v 技术栈成熟:无论是从消息中间件、数据ETL管路,数据湖、数据仓库、数据集市的各种选型等,工业界已经诞生了无数优秀的框架和数据库。v 技术供应商支持完善
4、:Google,Amazon,Microsoft,阿里云,腾讯云均提供几乎一站式的服务。v 技术人才供给:各个互联网公司都有数据仓库建模的需求,人才供应充分,培养体系完备。v 公司推动阻力小:数仓的重要性经历了充分的市场教育,推动起来会比较顺畅,投入产出比也比较好阐述。v 应用场景:适合指标类的多维分析数据运算劣势v 建设链条长:数据采集-ODS-DWD-DWT-数据报表和应用。v 数据一致性保证有挑战:不同数据主题之间会有指标和字段的重合,在工程和业务之间,不同的工程团队之间都可能造成理解的偏差。v 扩展字段流程复杂:表结构需要预先定义,扩展新字段往往需要较长的开发周期和回溯数据周期。v 工
5、程实现很难统一:架构评估往往取决于承接的工程团队的过往经验和喜好,同样需求的实现差异较大。v 不适合时序形的行为数据分析:因为需要按照用户维度shuffle和开窗,用户行为分析往往比较耗资源。v 预聚合不够灵活:当维度不能命中预聚合的维度时,查询会退化成全表聚合。面向行为分析的分析方法 概念用户空间用户群计算事件抽象用户事件序列活跃用户群新增用户群满足X条件用户群一个例子-7日Andoird用户的留存率传统数仓的解决方案行为分析的解决方案1.使用数据的底表和表的字段2.定义中间表的创建逻辑(过滤条件,分组条件,指标计算)3.最终结果的业务逻辑4.查询优化(过滤前置,数据倾斜,shuffle,关
6、联方式)1.加载Android用户人群_A;加载T的活跃用户人群_B;加载T-7新增用户人群_C2.(A,B,C)用户群求交=用户人群_D3.(A,C)用户群求交=用户人群_ E4.(D,E)用户群 计算覆盖率整体架构v 查询接入层:负责将一个复杂查询语句拆解成原子的子查询语句。v 查询结果聚合层:负责将用户数据访问层的结果聚合返回v 查询缓存层:每个子查询语句因为其不变形,都可以保存在缓存中v 实时层:处理实时数据v IDMapping:设备ID和用户ID的关联,用户ID和用户ID的关联v 用户数据访问层:执行真正的子查询语句,并行的访问用户数据v 元数据层:记录文件和事件事件的关系,列在文