《张兵全--腾讯视频推荐端云一体化架构.pdf》由会员分享,可在线阅读,更多相关《张兵全--腾讯视频推荐端云一体化架构.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、例:支撑海量数据的大数据平台与架构例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求:微软雅黑:最小字号 8号宋体:最小字号 10号等线:最小字号 12号腾讯视频端云一体推荐架构张兵全腾讯Tech Lead,腾讯高级技术专家CONTENTS目录1.背景-搜广推应用场景与架构2.挑战-业务与技术的3.架构-端云一体化架构技术拆解4.应用-端云一体的应用场景5.展望-更优的发展方向搜广推应用场景背景-搜广推应用场景搜广推为例特点:解决“人”与“物品”之前的匹配关系n搜索:显示意图,最直接的索取资源方式,需求准确、相关n推荐:隐式意图,刻画用户模型,解决兴趣问题。n广告:商业化助手,
2、挖掘用户转化率最高的物品。目标亿/千万级以上十万级千百级个位物品人群本质:漏斗的最优解原始目标:匹配程度最高算力足够大效果足够好反馈足够快成本足够小算力实时成本不可能三角渲染展示层流量接入层逻辑服务层接口数据层存储数据层推荐-后台架构推荐-近离线数据架构离线/近线数据如何生产?n 通过数据channel将数据异步上报至大数据平台n 经过ETL处理、样本拼接和落盘n 经过训练或者画像加工n 产出不同时限的模型、embedding和各类画像数据n 分别写入不同的存储推荐-近离线数据架构lambda架构的画像中心基于Item序列基于Cate1基于Cate2基于CP全场景场景X场景Y场景Z最近XX天最
3、近TOPX中期长期RedisRedisRedisRedisRedis基于Tag链路长冗余多复用少存储散感知弱成本高碎片严重播放曝光基于Lambda数据架构生产的画像特点:n通过日志产出画像,存在日志丢失情况n数据链路过长,生产长尾时间过大,实时性差n正排信息变更无法实时更新n需求迭代流程长,相关系统多,涉及团队多挑战挑战-业务与技术当前推荐遇到的业务难题当前推荐遇到的业务难题一、时效性问题1、用户正负反馈跨多刷延迟2、日志上报通道长尾有分钟(P95)到小时级延迟二、成本和性能问题1、默认上报通道计算链路长,还需要离线join各种数据。三、稳定性问题1、后台发布难以立即感知终端的问题架构难题:?
4、如何毫秒级捕捉用户行为?如何避免日志丢失导致的画像不足问题?如何缩短画像迭代开发周期解题目标目标高实时高实时毫秒级捕捉端上动作缩短计算链路高效率高效率减少烟囱式开发缩小跨团队交互低成本低成本减少数据冗余减少存储碎片端云一体化推荐架构端云一体化推荐架构存算一体化集中式数据中心端云直接协同交互全局协同终端和云端的全局协同终端和云端的计算和存储计算和存储能力,结能力,结合了云端的大规模计算优势及终端的合了云端的大规模计算优势及终端的实时反实时反馈馈优势优势解题端云直接协同存算一体化集中式数据中心端云一体架构设计架构-端中心设计端数据实时反馈p 算子动态下发p 各类短期画像积累p 正负反馈快速应用p
5、端智能能力铺设云数据中心设计高效率n 可插拔的业务算子库与存储层部署解耦n 数据表格化,可插拔的SQL语句支持实时性n 请求级别的实时更新n 写时更新端云协同端云架构特点端云架构特点n利用端数据库能力,存储序列利用端数据库能力,存储序列n复用复用请求链路,无新增链路流程请求链路,无新增链路流程n端云进行时间握手,端云进行时间握手,增量传输增量传输数数据据n毫秒级捕捉毫秒级捕捉用户行为,实时读写,用户行为,实时读写,0延迟延迟n推荐存算一体、算子高度复用、推荐存算一体、算子高度复用、实时感知字段变更实时感知字段变更架构-端云数据中心计算层:计算层:承接流量出口、核心业务逻承接流量出口、核心业务逻
6、辑计算和辑计算和UDF算子能力算子能力存储层:存储层:序列表、索引表和各类虚拟序列表、索引表和各类虚拟表表介质层:介质层:内存存储、内存存储、SSD引擎和冷热引擎和冷热切换切换数据层:数据层:实时数据、数据持久化和实时数据、数据持久化和Base流程流程架构-端云数据中心计算层业务算子(薄)业务算子(薄)索引字段相关(标签、分类、索引字段相关(标签、分类、CP等)等)Limit(时间周期、个数、场(时间周期、个数、场景等)景等)公共算子公共算子(厚)(厚)获取数据获取数据数据处理数据处理SQL处理处理UDF支持支持n可复用强可复用强:集成集成UDF算子、共