1、AI时代的时代的湖湖仓数据体系建设仓数据体系建设刘岩腾讯游戏数据技术负责人腾讯游戏数据工程的挑战基于多智能体的需求构造AI驱动的湖仓资产体系可持续优化的工程平台系统演示01腾讯游戏数据工程的挑战1.1 腾讯游戏数据发展腾讯游戏数据发展紧跟业务发展,以业务需求为核心紧跟业务发展,以业务需求为核心以数据以数据驱动业务变革,安全合规与成本治理。驱动业务变革,安全合规与成本治理。3.0 技术驱动创新逐步开始接入实时技术:datamore投入应用,决策对于数据时效性提出较高要求对于数据资产集中管理的进一步加强,河图数据治理平台全面升级标准数据治理体系建设:以业务应用为导向,数据管理规范3.0发布产业链布
2、局和全面出海2015 Now数据平台演数据平台演进进游游戏业务发展戏业务发展游游戏发展初期,缺乏统一标准,游戏数据孤岛。戏发展初期,缺乏统一标准,游戏数据孤岛。从零起步一切从简,快速启动,MySQL读写分离、分库分表数据应用数据单位主要是G,数据分散在各个数据库,缺乏整体数据统计数据治理每年在游戏数量上翻翻,对接不同业务的游戏日志,标准难以统一1.0 基础功能完善阶段腾讯游戏以休闲品类进入市场20032007外部大厂纷纷投身网游,腾讯游戏基于绕道休闲品类打造QQ系列游戏,深耕社交流量重启游戏代理,同步自主研发率先完成“端改手”移动化,全面升级自研体系打造全品类矩阵,扶持游戏厂商,建立全球化发行
3、平台,全面出海,推动电竞职业化、游戏IP化等业务持续扩张,数据驱动成为新的价值增长。业务持续扩张,数据驱动成为新的价值增长。2.0 平台构建阶段数据应用日志标准迭代推进,移动互联网数字化,精准分析,用户画像、买量与增长分析数据治理数据治理处于萌芽阶段,数据资产意识建立,数据管理规范1.0发布架构升级迁移到TDW数据仓库,完成数据的集中管理与统一分析以“代理+自研”后来居上200820141.2 游游戏业务对数据的需求戏业务对数据的需求 现存游戏业务的数据挖掘/提取类需求数万数万个个/年年,数据挖掘是问题归因、分析决策、干预闭环的关键。业务对数据需求数据产品和服务经营分析(可视化)精细化运营(数
4、据挖掘)辅助决策(预测)驱动业务(干预)数百个看板(框架+特性)数万个/年数据提取服务数十个算法服务数十个实时线上服务数据资产数据加工链路1%的数据表资产离线计算+数仓基于明细数据动态分层流式计算+湖仓一体特征和画像标签湖仓一体特征和画像标签流式计算+实时计算1.3 如何更好地服如何更好地服务业务?务业务?AI要解决的问题不是仅仅是写SQL,而是从业务需求到数据结果的各个环节,需要建立AI环境下的工程平台和资产体系。业务需求数据结果口径对齐资产探查SQL代码实现SQL验证提交任务结果发送使用使用LLM进行提效进行提效对齐业务统计逻辑找到细粒度的数据表确定数据分层与业务二次对齐逻辑验证SQL准确
5、性提交正式数据任务数据结果及提取逻辑结果和想法验证需求理解需求理解1资产体系资产体系2计算加速计算加速3持持续运营续运营402基于多智能体的需求构造2.1 提示提示词(需求)的完备度与结果准确性词(需求)的完备度与结果准确性The Prompt Report:A Systematic Survey of Prompting Techniqueshttps:/arxiv.org/abs/2406.06608“好”提示词的特点:完整的上下文解释 隐性知识 行业know-how 恰当的示例 逐步思考 明确的预期结果2.2 基于基于“需求需求标准标准”的人与的人与AI需求需求对齐对齐需求对齐通过需求A
6、gent,匹配需求案例和行业知识,对进行需求整理与改写,改写成标准的需求格式需求标准一个完备的SQL需求包括:“筛选”、“问题”、“结果”三段式提问,及“行业知识”统计:玩家数输出:2024.1.1-2024.2.2期间XX条件的玩家每个自然周不同周活跃天数统计周、周活跃天数、玩家数2.3 根据复根据复杂度进行需求分解杂度进行需求分解2.需求复杂度=Where 个数+Join 个数+Union 个数+Group By 个数 +Order By 个数+Distinct 个数+开窗/json等高阶函数 个数根据根据腾讯游戏内部实际应用统计:腾讯游戏内部实际应用统计:1.需求复杂度小于等于4准确率9