《2017年视频推荐中用户兴趣建模、识别的挑战和解法.pdf》由会员分享,可在线阅读,更多相关《2017年视频推荐中用户兴趣建模、识别的挑战和解法.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、视频推荐搜索中的用户兴趣优酷 搜索、推荐、内容智能负责人 数据智能部总监 李玉Agenda优酷视频个性化搜索推荐简介 视频个性化搜索推荐中的用户兴趣表达的挑战 当前工业界常见方法的问题探讨 我们的尝试的方法优酷个性化服务简介个性化服务在优酷Data一多半的视频播放通过个性化搜索推荐技术分发 对于CTR、人均播放量、人均时长、留存率等均有显著提升 帮助用户发现好内容,帮助高质量内容触达精准受众6亿+视频5亿+用户Algo视频推荐中用户兴趣表达的挑战视频推荐的用户兴趣表达的挑战技术挑战:剧、综、影、漫:用户选择成本高,用户追的剧、综艺少,推荐成功率低 用户目的性强,发现、浏览、逛的心智低 长节目可
2、选择空间有限 头部节目用户行为稀疏,大量用户每月只观看3个以下节目,对比:短视频信息流场景:通过数百个观看行为推荐30个 优酷头部节目:通过3、4个观看行为推荐30个 数据噪声多、分布驱热、highly biased,常用推荐算法模型描述能力不足视频推荐的用户兴趣表达的挑战 cont.技术挑战:视频内容兴趣复杂,感性、微妙、亚文化细分多样,对于符合兴趣大方向的惊喜度(serendipity)与多样性要求更高,对比:电商:兴趣明确:想买4K电视、牛仔裤、连衣裙;高度结构化,类目体系清晰 视频:兴趣感性、微妙:喜欢香港武侠片但是讨厌成龙;喜欢日本动漫,今敏等、但讨厌宫崎骏;兴趣会进化、发展、细分,
3、如:相声:郭德纲 小岳岳-方清平;或者-王玥波评书;或者-侯宝林 刘宝瑞 马三立 传统 科幻迷:从浅度:看星战、地心引力-中度:星际穿越-深度:银翼杀手、降临、三体;微妙的亚文化:二次元、游戏、直播;文艺青年;腐、柜;追剧族、韩剧迷、恐怖片迷 兴趣体现的是用户的个人认同 兴趣多维度正交,如:只看”大制作”、美剧质感 不喜欢重复,期待惊喜(serendipity)识别、表达用户兴趣的重要性Retargeting(看了又看):推荐用户有过交互的内容(看了又看)成功率高,长期价值低 局部提升非全局提升(抢其他渠道流量)成功率高因此ctr高 容易陷入局部最优 热点推荐 推荐近期热点 容易陷入局部最优
4、个性化兴趣推荐 推荐符合每个用户兴趣的内容 成功率低因此ctr偏低 更具长期价值 短期收益可能小,但容易长期收敛 推荐命中成功率:retargeting 热点 个性化发现 推荐命中(不命中)价值:个性化发现 推荐热点 retargeting个性化内容推荐较少模型兴趣预测不准确兴趣命中少正样本不足当前工业界常见方法的问题探讨个性化推荐工业界常用方法流程:召回、排序 特征:统计特征 用户画像:DEMO、用户对于标签的frequency、recency 高维组合特征 Item based similarity(i2i)Common Algo Framework(对应的优酷的方法)DataMatchF
5、eatureRankRRankFTRL,DNN,XGBoost,FFMEnsembleRerankFFeatureItem/User/User2Item StatisticsUser Profile:(Demo,Interest profile,search profile,view history)Item tags,categories,topicsitem/tag/topic relevance scoresMMatchItem Based CF,DNN CFSlim CFTag to Item,User2user2ItemStar2ItemPopularity,TrendingDDat
6、aETLoffline/streaming常用方法对于表达用户视频兴趣的问题Demo(年龄、性别、地域),设备类型、城市.问题:用户的内容兴趣与以上信息相关性不大 问题:三线城市50岁男性可能和一线城市30岁女性的观看习惯一致 基于内容标签的用户画像 人工内容标签:恐怖片、动作片、搞笑、香港片、韩国片 Topic Modeling标签:LDA提取视频标题、描述的主题(内容数据噪声大)基于统计的方法(frequency、recency)建立用户标签 问题:人工标签主观性大、噪声大 问题:人工标签粒度容易过于宽泛 问题:topic modeling标签噪声大、数据稀疏 问题:往往基于统计的方法,很