《2019年个性化信息流原理揭秘-算法与架构.pdf》由会员分享,可在线阅读,更多相关《2019年个性化信息流原理揭秘-算法与架构.pdf(67页珍藏版)》请在三个皮匠报告上搜索。
1、个性化信息流原理揭秘:算法与架构演讲提纲1.信息流产品简介2.架构&流程a.文本特征,用户画像b.内容挑选(candidate generation)c.排序(ranking)d.人工规则规范3.总结信息流产品简介什么是个性化信息流以个人画像为基础,提供千人千面个性化信息的产品。今日头条抖音百度信息流Google Discover个性化信息流的前身远古时代:门户网站个性化信息流的前身近代:订阅类产品个性化信息流的前身推荐系统为基础的电商和内容服务AmazonNetflix架构&流程信息流产品的组成用户用户画像画像产品产品算法算法内容内容基础架构基础架构信息流的业务流程原始内容原始内容收集及标注
2、收集及标注候选内容候选内容筛选筛选排序排序收集反馈收集反馈更新用户画像更新用户画像产品呈现产品呈现原始内容收集、特征提取、用户画像原始内容收集内容收集方式:爬取(公网内容)PGC(合作伙伴发布内容,例如:公众号,头条号文章)UGC(用户产生内容,例如:抖音)特征(Feature)定义:从原始数据提取的单个可衡量的属性(例如,对娱乐新闻的关注度)特征是信息流产品的基石,用户画像的核心,内容推荐的最重要依据特征类别:内容特征(例如:关键字,内容主题,来源)热度特征(例如:全局热度,分类热度)用户特征(例如:用户年龄,性别,收入)环境特征(例如:时间,地点)特征例子特征体系特征体系:自建特征关键字体
3、系工作量大,但自由度高利用已有特征关键字库例如:利用现有的知识图谱(Knowledge Graph)常见的特征标注方式:人工标注准确,但速度慢,适合起步阶段自动标注需要强大的数据挖掘以及人工智能实力(例如NLP,Computer Vision,等等)特征提取TF-IDF 算法简介特征提取业界例子用户画像用户画像组成对内容特征的兴趣程度个人基本情况(性别,年龄,地理位置)体育娱乐经济科技年龄位置小明0.70.80.315-25北京小强0.30.80.625-35上海小红0.20.70.915-25深圳用户画像用户画像更新途径显式更新用户主动输入的兴趣,例如关注的话题,明星,球队等等隐式更新通过前
4、端埋点,后端对日志(log)进行批量处理获得更新频率离线更新,例如每天一次。技术难度低,用户体验差实时更新,技术难度大,用户体验好内容筛选(Candidate Generation)内容推荐用户画像原始内容召回粗粒度候选内容算法筛选细粒度候选内容召回Why:精细筛选耗费资源较大,不可能为每个用户都对海量内容全部进行What:从海量内容中,迅速筛选出粗粒度候选集,为精细筛选做准备How:建立【特征-内容】倒排表,按照用户画像进行截断科技doc_3(0.83)doc_1(0.52)doc_7(0.4).体育doc_9(0.92)doc_2(0.88)doc_6(0.52).娱乐doc_5(0.78
5、)doc_8(0.66)doc_4(0.25).搞笑doc_2(0.91)doc_5(0.78)doc_7(0.33).算法推荐两大组成部分:Training:从日志数据,训练出能计算相似性的模型。并且保存阶段性结果以提高serving效率Serving:在运行时快速根据训练阶段的成果,从海量内容中寻找k个最相似的物品算法推荐目标:从粗粒度候选集,通过高级算法筛选出用户最可能感兴趣的内容方法:Content Based(内容属性相似性推荐)Collaborative Filtering(协同过滤)DNN(深度学习)本质:推荐算法本质上解决的是kNN(k个最近邻居)问题kNN需要坐标系及坐标:向
6、量空间距离(相似度)度量:Jaccard,Cosine相似性计算:Content-Based,CF,DNN推荐算法简介目的:推荐算法的目的,是根据给予的query,寻找最匹配的N个item术语:Query:需要获得推荐的对象,可以是用户id,用户使用产品的历史,用户当前的上下文环境(context)Item:被推荐的物品,可以是电商产品,电影/视频,App,O2O服务,等等距离:衡量相似性的指标,常见有Jaccard,余弦相似性推荐算法简介Query和Item都用共同特征体系内的特征表示,因此能被映射到同一坐标系内本质上,推荐算法解决的是一个kNN(k-Nearest Neighbord)问题