1、DataFunSummit#2023bilibili大数据开发治理平台产品设计分享分享人:杨蕊鸿-bilibili 数据平台部 资深数据产品bilibili的大数据开发治理平台bilibili的大数据开发治理平台,命名为Berserker,来源于Fate,意为狂战士。Berserker平台自2018年开始建设,目前覆盖B站内部所有业务及部门,包含数据集成、数据开发、数据治理、数据安全、数据分析等多个模块。2018B站成立数据平台部2021实时开发上线,全面支持实时计算开发规范逐步上线2018Berserker平台上线支持数据开发、Adhoc基本的数据和权限管理2022下半年启动数据治理工具化基
2、于元数据系统,快速推进2020数据集成标准化元数据系统成立基线及数据质量产品上线2022数据管理全面线上化,开启数据运营及数据治理建模规范及模型建设管理平台运营体系建设2023基于DataOps的效率优化数据治理全面铺开利用大模型,探索AI开发、AI运营等01B站数据平台的概况介绍03基于抽象配置的数据治理产品建设02基于价值体系的数据地图产品建设04核心工作及未来规划目录CONTENTB站的数据平台概况B!#$%&()*+,#$-./012%&34B站员工的用数整体概况用数情况数据平台的产品定位20%18%17%13%12%10%7%3%数据平台用户分布技术开发产品运营算法工程师分析师数据开
3、发审核其他10k+6k+2k+员工用数员工每日用数员工专业 满足专业的数据开发及分析诉求,提升数据供给效率标准化 快速满足多业务、各部门的不同诉求,既要通用,也要灵活门槛 满足产运等用户低门槛的建数、用数、取数要求闭环 数据平台也是中台,需要承担数据运营、成本治理、规范约束、质量监控等管理角色,替业务作数据闭环算法、数据开发技术开发、分析师产品、运营、审核、其他高阶开发中阶用户数据小白23.2%33.6%43.2%B站用户的用数场景!#$%&!#$%&根据不同的业务场景和用数诉求,平台主要提供数据生产、数据消费、数据管理几个场景下的服务。5 56 6!#$!#$!#!#$%&($%&()*+,
4、-.+,-.7 7%&(%&(!)*!)*8 8!+*!+*9 9!(%&!(%&5 5,!,!6 6-./01-./01!23!237 745674567!)*%&!)*%&5 5!)*!)*6 6!89!897 7!+*!+*B站数据平台产品架构业务场景开放服务数据分析数据报表数据治理数据开发规范设计数据集成户增/分析/营销Feed流/搜索/推荐商业化/电商/游戏流量/社区/播放核看板及指标开放接开放消息开放数据扩展点与扩展程序助查询分析电表格交互式分析BISuperset数据质量质量盘智能规则监控动态阈值离线/实时/流批体:体化开发环境任务调度运维中智能监控告警全量同步增量同步实时同步数
5、仓规划数据标准术语管理维度建模数据探查数据资产地图数据地图资产管理影响分析全链路缘数据安全权限管理数据分级分类隐私数据保护险审计数据治理中事前预防事后发现问题处理案健康分评估模型数据迁移数据仓/数据出仓计算存储引擎离线计算存储引擎数据湖计算服务实时计算引擎交互式分析引擎基于价值体系的数据地图产品建设#$:;+#$?%&数据运营的痛点 找数习惯原始:依赖文档、口口相传 搜索能力弱:匹配不精准、检索类别不够用 主动发现能力差:无主动推荐能力找数效率低 数据链路追踪 变更影响评估 数据异动分析缺乏链路及整体视角 找到数据不会用 信息不足,申请和使用混乱,用数效率低用数信息不足 内容不全不准,更新不及
6、时 问数全靠一张嘴,有时不知道问谁 缺乏针对数据内容的使用培训数据运营没有体系01 找数习惯原始,不会找数、不会用数、用数效率低02 完成线下至线上找数迁移,能在平台进行找数用数,但模型规模膨胀,导致找不准、用不好03 业务不认可模型价值,高价值表被低用 模型建设缺乏评估 业务对数据价值不认可 数据缺乏可用性和易用性缺乏数据价值的评估和认定 模型内容不完善 咨询问答不收敛,未形成知识库咨询无沉淀 用数申请流程长 使用口径和业务信息不完善 缺少探查手段和工具数据使用流程长 缺少用数洞察和主动推荐 缺乏搜索提示引导数据洞察-主动洞察推荐解决方案 优化搜索,提高找数命中 内容管理建设,标签及分类功能