《快看漫画个性化推荐探索与实践(36页).pdf》由会员分享,可在线阅读,更多相关《快看漫画个性化推荐探索与实践(36页).pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、快看漫画个性化推荐探索与实践 夏 博 2 0 1 9 年 9 月 目录 一、业务介绍 二、技术挑战 三、技术探索 四、总结与未来规划 目录 一、业务介绍 二、技术挑战 三、技术探索 四、总结与未来规划 了解快看漫画 ? 中国新生代内容社区和原创IP平台 ? 截至2019年7月总用户量已经突破2亿,注 册用户量突破1亿,月活突破4000万 ? 绝大多数用户属于高活跃、高粘性的95后、 00后 ? 被 QuestMobile 等机构评为“最受 00 后 欢迎的产品 快看漫画推荐业务 ? 长漫画 ? 短漫画 ? 图文帖子 ? 视频帖子 ? 人 精准匹配 内容 内容形式推荐业务场景 首页个性 推荐ta
2、b 世界页推 荐tab 帖底相关 推荐 发现页推 荐tab 目录 一、业务介绍 二、技术挑战 三、技术探索 四、总结与未来规划 内容形式多样 长内容短内容 ? 漫画、小说等 ? 大块时间,阅 读周期长 ? 连续性、周期 性、多章节多 兴趣点 ? 短视频、新闻资讯、 用户帖子等 ? 碎片化时间,阅读时 间短 ? 兴趣点通常单一 ? 技术上如何捕捉长内容的 连续性、周期性、多兴趣 点等特点? ? 快看漫画既有长内容又有 短内容,如何较好的融合 两类内容? 挑战: 内容风格独特 图像文本 ? 漫画图像 ? 帖子图片 ? 帖子内容 ? 弹幕 ? 评论 ? 如何进行漫画类图像内容 理解? ? 独特社区文
3、化,新生代文 化“暗语”,给文本内容理解 带来挑战 挑战: 目录 一、业务介绍 二、技术挑战 三、技术探索 四、总结与未来规划 算法方面的探索 系统架构方面的探索 推荐算法演进 前深度学习时代深度学习时代 协同过滤 FM,FFM LR GBDT FNN Wide&Deep DeepFM XGBoost DIEN ? 可解释 ? 易训练 ? 易部署 ? 效果更好 ? 算法平台搭建周 期更长 ? 难以解释和干预 快看推荐算法迭代 基于内容协同过滤XGBoost深度学习 2019年前2019年上半年2019年到现在未来 基于内容的推荐 标签 用户偏好 内容理解 兴趣模型 推荐 结果 ? 基于已有标签
4、快速实现推 荐功能 ? 可解释性强 优点: 阅读历史 快看漫画标签体系 ?作品基础维度 ?用户分发维度 ?内容创作维度 搞笑 日常 青春 治愈 彩色 单元剧 中性 青少年 现代 青春成长 学生 兄妹 校园 阳光 逗比 用户兴趣模型 ?相关行为 ?行为粒度(作品or章节) ?章节数量 ?兴趣衰减 ?作品热度 用户兴趣 恐怖0.5 搞笑0.6 玄幻0.4 热血0.8 悬疑0.6 作品兴趣度标签兴趣度 阅读 关注 点赞 评论 分享 基于内容推荐总结 ? 非常依赖标签 ? 推荐粒度较粗,召回不足 ? 缺乏新颖性 DAU人均阅读 次数率提升35% 缺点: 基于协同过滤 ?基于物品的协同过滤(Item-B
5、ased) ?基于用户的协同过滤(User-Based) ?基于模型的协同过滤(Model-Based) KNN召回 基于用户的协同算法用户相似度计算量巨大? ANN(Approximate Nearest Neighbor) nmslib vs. faiss 单机CPU的benchmark 训练集:1,183,514 维度:200 近邻数:100 Nmslibfaiss 实现语言C+C+ Python绑定 GPU支持 HNSW算法 其他算法 VP-Tree, NAPP, SW-graph LSH IVF(IndexIVFFlat) IVFADC(IndexIVFPQ) , IVFADC-R(
6、IndexIVFPQR) KNN召回 Faiss IndexIVFFlat 训练&建索引 1.聚类(聚类中心存储在量化器quantizer中) 2.找到每个向量最近的聚类中心点 3.建立倒排id list 4.建立倒排code list 搜索topK 1.搜出查询向量最近的n个聚类中心点ID及对应的距离 2.构建k个元素最大堆 3.Id对应的倒排list每个向量计算距离后放入最大堆 4.堆排序 Faiss IndexIVFPQ 更加复杂,计算残差,通过构建二级索引加速计算 基于协同过滤总结 DAU人均阅读 次数提升31% ? 倾向于推荐热门内容 ? 对新用户和新内容不友好 ? 相似矩阵的计算量