1、DataFunSummitDataFunSummit#20232023图机器学习在虎牙风控中的应用邓钰钊-虎牙-风控算法工程师虎牙风控背景介绍图聚类在虎牙风控的实践总结与展望问答目录 CONTENTDataFunSummitDataFunSummit#2023202301背景介绍虎牙的业务场景和风险营销活动作弊 百宝箱、藏宝图、用户回流礼包、投票选秀、答题、抽奖、竞猜刷量刷榜贵宾席、人气、观看时长、搜索热榜内容违规风险直播违规、视频违规、文本违规(弹幕、私信、动态评论、昵称、个签)充值作弊 渠道流量作弊 身份验证盗号、诈骗、未成年人识别风控的意义内容生态不健康不真实,会影响体验,长期会带来优质
2、用户流失用户体验产品生存社会影响监管风险虎牙直播平台是一个面向数亿用户的平台,如果平台里面涉及违规违法信息,影响面是很广的。传统黑产对抗方案专家规则黑、灰、白名单有监督风控模型优点:简单、准确率高,可直接用于检测拦截缺点:需对欺诈行为有深入了解以及强的业务经验,无法及时有效应对欺诈手段变化 优点:准确率高缺点:成本高,更新慢优点:可以挖掘多维数据的隐式关系缺点:严重依赖样本标注,无法应对不断演变的欺诈攻击,被动地应对欺诈 DataFunSummitDataFunSummit#2023202302图聚类在虎牙风控的实践为什么需要图聚类?标签难获取标签难获取图聚类支持无监督学习,不需要标签即可从正
3、常用户中聚类出异常团伙。类别不均衡类别不均衡图算法能综合利用节点的特征和关联关系。图上的节点往往出现了一定聚集性,而且这种出现聚集性的节点风险一般比整体水平风险高,在一定程度上改善了类别不均衡的问题。传统介质聚集性易绕过传统介质聚集性易绕过因单次参与营销活动获利有限,为获取规模利益,黑灰产往往操纵批量账号团伙攻击;基于单一介质(设备、手机号、IP)聚集性策略有效但易被黑产绕过,且难以利用隐式的关联关系,图聚类挖掘关联紧密团伙可解释性可解释性图本身是一种可视化形式,相较于其他算法,有天然的可解释性优势。痛点图聚类在虎牙风控中的应用结构化数据数据预处理特征因子开发图聚类团伙输出非结构化数据自动规则
4、引擎团伙合并风险等级输出滑动窗口内用户数据有监督/评分卡模型频繁项挖掘业务实践图表示聚类团伙ID场景团伙评级团伙人数成团原因G1S1高危56String1G2S2高危32String2拦截、验证扩充有监督训练数据报障、业务经验根据交叉验证、流量曲线评估、优化Uid特征1特征2特征3特征N-1特征NI1X1X2X3X_N-1X_N图表示聚类Uid特征1特征2特征3特征N-1特征NI1X1X2X3X_N-1X_N团伙合并提取规则XX常用的图算法谱聚类谱聚类协同过滤协同过滤LouvainLouvainPageRankPageRank.DGIDGIGCNGCNGATGATGraphSageGraphS
5、age.传统图算法图深度学习Louvain社区发现算法 Louvain算法的动态过程1.首先扫描数据中的所有节点,将每个节点看作一个独立的社群;2.接下来,遍历每个节点的邻居节点,判断是否将该节点加入邻居节点所在的社群,以提升模块度;3.这一过程重复迭代,直到每一个节点的社群归属稳定;4.最后,将所有在同一个社群的节点压缩成一个新节点,计算新节点的权重,直到整个图的模块度稳定图片来源:https:/ 核心思想通过优化模块度(modularity)来检测和划分网络图中的社区结构。Why Louvain?层次结构Louvain算法采用递归的思想,通过多次迭代和社区聚合来发现网络中的层次结构。这使得
6、它在处理具有复杂层次结构的网络时具有更好的扩展性。在输出可解释性规则时更灵活控制。无需预设参数Louvain算法在寻找社区结构时,不需要预先设定聚类或社区数量。它可以在迭代过程中自动确定最优社区划分。许多其他图聚类算法如K-means聚类或谱聚类需要预设参数,例如簇的数量。计算效率Louvain算法采用启发式方法,在寻找社区结构时具有较好的计算效率。相较于其他图聚类算法,如谱聚类或Girvan-Newman算法等,Louvain算法在处理大型网络时的时间复杂度较低。自动点击插件自动点击+云手机自动点击+云手机+电量+相同ip地址自动点击+云手机+ip为什