《1-2 个性化强化学习技术在京东新品流量分发系统中的实践与应用.pdf》由会员分享,可在线阅读,更多相关《1-2 个性化强化学习技术在京东新品流量分发系统中的实践与应用.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、个性化强化学习技术在京东新品系统中的实践与思考赵宇京东零售-搜索算法部2022年9月Datafun决策智能在线峰会-强化学习论坛赵宇京东零售-搜索算法部北京大学博士,加州大学洛杉矶分校访问学者。现任京东零售-搜索算法部工程师,流量调控技术&流量探测技术负责人,设计研发了京东搜索大促流量调控系统、选测养系统、新品激励系统、营销联动激励系统等,带来显著业务价值。曾就职于阿里妈妈精准定向团队,负责转化率预估校准、点击合约工作。发表高水平论文3篇,申报发明专利14项。个人介绍目录一、电商搜索概述二、电商新品问题三、强化学习问题建模四、新品流量分发系统一、电商搜索概述业务场景主搜店铺内搜索列表页Coup
2、on图搜业务渠道京东主站国际站下沉全渠道业品京东健康主搜xx%店铺内搜xx%券搜xx%其他xx%APP GMV占比xxxxxxxxxxxxDAU搜索量点击量GMVAPP主搜大盘APP主搜大盘挑战1.搜索类型多,关键词、列表、券、图像2.技术栈,NLP、CV、检索、推荐、强化学习3.站点类型多:主站垂站、C站B站、国内国际机遇1.京东最的流量场2.流量红利消失,效率成为增长的驱动3.搜推站到了牵引意的C位一、电商搜索概述搜索商品xx亿级,用户xx千万+/日,搜索量xx亿/日,GMVxx亿/日,订单行xx百万+/日。召回粗排搜索词展示结果搜索架构:主搜APP/PC渠道:提升搜索效率和GMV全渠道等
3、业务场景:打通多场景线上线下购物微信京喜渠道:配合用户下沉,带来新的用户增长精排重排调控搜索流量调控业务,就是通过算法/策略/系统的设计和优化,构建考虑平台意志和长期价值的的流量分发系统:促进平台商家健康活跃发展,提升平台用户和商家价值;精准的搜索流量预估和快速的流量分配机制,将优质的流量个性化/定量分发地分发给匹配的用户和商家;对预售、上新、品类日、大促等商家/商品活动,设计激励兼容的策略的算法/策略并持续优化;统一调权大促流量调控选测养系统新品流量分发 概述:确定性流量调控,在sku合集粒度提升商品集合的pv相对值 技术点:PID模型、sku合集粒度pv预估 概述:确定性流量调控,在sku
4、合集粒度提升商品集合的click相对值/click绝对值/gmv绝对值 技术点:强化学习DQN模型、sku合集click/gmv预估、效率止损、目标动态调整 概述:非确定性流量探测,在单品粒度提升商品集合的转化率 技术点:强化学习CEM模型、单品gmv预估、止损算法、熔断赋权、选品算法 概述:确定性流量调控,在query粒度提升商品集合的点击率 技术点:强化学习DQN模型、PID模型、query粒度pv预估、止损算法、熔断赋权一、电商搜索概述:流量调控字典服务平台支撑实时流用户画像QP数据平台训练平台基础能力保召回熔断能力赋权能力止损能力效率控制能力(出池)流量预估能力单品粒度流量控制能力cl
5、ick预估gmv预估query粒度sku集合粒度pv预估确定性调控PID模型非确定性调控相对值调控绝对值调控流量控制目标考虑转化效率的PID模型强化学习DQN模型强化学习Multi-head分层多目标模型强化学习CEM模型强化学习考虑先验概率的CEM模型流量控制模型辅助模块目标天级调整目标小时级调整反馈效率计算上层业务平时调控选测养系统新品流量分发大促调控选品能力(入池)基于预估销量选品基于流量反馈选品升级升级升级效率判断人工熔品人工干预Boss指令业务意志交互人工提报入池人工提报出池止损状态目标完成度数据看板大盘/类目可视化效率监控人群洞察分析Query建议备货指导库存指导定制指导一、电商搜
6、索概述:流量调控技术框架一、电商搜索概述:流量调控技术演进2020Q3统一调权上线大促调控模型v1上线大促调控模型v2上线大促调控模型v3立项选测养系统立项大促调控模型v3上线选测养系统上线新品调控系统上线新品调控系统立项业务进展PID模型相对值调控调控技术增量预估技术流量摸高技术预估技术天级熔断模型效率控制技术选品技术2020Q42021Q22021Q32021Q4预估CVR优化PID模型基于预估P值的止损策略强化学习DQN模型绝对值调控目标动态调整sku合集粒度click预估技术sku合集粒度gmv预估技术基于预估uv价值的止损策略DQN新品在线流量分配模型基于流量反馈选品基于预估销量选品