当前位置:首页 > 报告详情

Apache Doris 在知乎 AB 实验平台的使用实践 -张潇鹤 知乎.pdf

上传人: 表表 编号:599480 2025-01-24 25页 4.40MB

1、Apache Doris 在知乎 AB 实验平台的应用实践张潇鹤 数据平台开发工程师Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024目录知乎 AB 平台业务背景介绍01知乎 AB 实验平台架构演进历程0203知乎 AB 在 Apache Doris 上

2、的实践04未来展望Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 202401知乎 AB 实验平台业务背景介绍Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Sum

3、mit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024知乎-AB 实验平台介绍 知乎高质量的在线问答社区 AB 实验平台AB 实验的主要目的在于降低风险和分析策略结果。其基本思想是从大盘中取出一小部分流量,随机地将用户分给对照组和实验组,通过收集、分析不同分组用户行为指标数据,再结合统计学方法得出实验结论。大盘流量分流流量抽取实验运行实验组对照组策略A无策略Doris Summit Asia 2024Do

4、ris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024知乎-AB 平台的基本背景介绍知乎 AB 实验平台支撑知乎主站、盐言故事、知乎知学堂等多条业务线,每天平台运行上千个实验。实验进组用户表日均数据量百亿级。支持实验分析场景多样:支持基础计算类、留存类、LTN 类等 4000 多个指标分析,离群值剔除、多

5、维度下钻等。Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024知乎-AB平台进组用户生成逻辑介绍每天的实验进组用户数据量是 DAU 用户的数倍,一个用户携带的实验标签数量级介于数十 上百个不等。分流服务/SDKuser_idab_identer_time

6、用户 A实验1实验组用户A实验2对照组用户A实验进组用户表Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 2024Doris Summit Asia 202402 知乎 AB 实验平台 架构演进历程Doris Summit Asia 2024Doris Summit Asia 2024Doris Sum

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了知乎 AB 实验平台在 Apache Doris 上的应用实践。知乎 AB 平台是一个支持高质量在线问答社区的 AB 实验平台,每天运行上千个实验,服务于知乎主站、盐言故事、知乎知学堂等多条业务线。在 AB 2.0 平台架构中,采用了预计算方式,将预计算结果写入 ClickHouse 中,充分利用了 ClickHouse 的单表查询能力。然而,该架构存在预计算资源消耗大、多表 Join 支持有限、指标数据无法复用等问题。因此,知乎选择了 Apache Doris 作为新的 OLAP 引擎,以满足 AB 进组用户表和业务指标表进行即席关联查询的需求,并支持每日百亿级数据量写入,支持事务导入,数据精准写入。在实践过程中,知乎根据 Apache Doris 的特性进行了表结构设计,利用前缀索引、zstd 压缩方式、合理的 bucket 数量等,提升了查询和写入效率。同时,通过 bitmap 和缓存等优化手段,进一步提高了查询性能。在使用 Apache Doris 进行 Join 调优时,采取了 Colocate Join 和 Shuffle Join 等策略,以降低网络开销和物理算子条件限制。经过调优后,查询耗时和性能都得到了显著提升。未来,知乎将进一步探索 Apache Doris 的数据冷热存储和更多字段支持 Local Shuffle 优化等功能。
"Apache Doris 在 AB 实验平台的应用实践有哪些亮点?" "如何利用 Apache Doris 优化 AB 实验平台的数据处理性能?" "知乎 AB 实验平台未来展望有哪些?如何更好地发挥 Apache Doris 的优势?"
客服
商务合作
小程序
服务号
折叠