9-2 预训练技术助力风控对抗能力升级.pdf

编号:102285 PDF 27页 18.74MB 下载积分:VIP专享
下载报告请您先登录!

9-2 预训练技术助力风控对抗能力升级.pdf

1、预训练技术助力风控对抗能力升级王三鹏 京东 零售风控算法架构负责人|01背景介绍02文本预训练03行为预训练04未来规划目录CONTENT|01背景介绍|C端风控B端风控恶意刷券&下单使用外挂软件获取权益广告辱骂内容价格门用户访问深度反刷单风控恶意套取返利客服防骚扰京东零售风控 维护京东零售平台健康的交易生态环境,包括不限于主站APP、PC端、wq等场景 识别刷单、恶意刷券&下单、使用外挂软件获取权益、违规骚扰等用户、商家的恶意行为|一、背景介绍|用户行为 京东零售风控识别的基础,广泛应用于订单、营销、账号等主业务线条,并且识别量大,整体能贡献风控绝大部分识别量 数据形式为统计特征、序列行为特

2、征,如浏览、访问请求文本 内容风控、风控舆情以文本识别为主,主要识别广告引流、骚扰、辱骂、风险漏洞、舆情、地址异常等场景 具有字体偏向生僻字,变换较快以绕过风控识别等特点,如:+薇信零售风控算法能力问题 失效快,快则十几天模型效果有明显下降,例如引流、恶意订单模型 新场景标签稀缺,人工标注成本高、效率低,负样本标注量级非常大 建模效率低、效果差 长期有效机制强泛化能力、强覆盖 小样本训练能力基于无监督预训练的模型微调机制 特征、模型平台化自动生成,快速反应;预训练、大模型带来更强效果一、背景介绍02NLP预训练|数据采集模型预训练模型微调NLP是风控内容、舆情、地址等风控能力基础,近年来预训练

3、技术是处理NLP的最常用方式。二、NLP预训练(背景介绍)|数据采集更多数据(GPT系列);有效的数据清洗策略(T5);针对特殊场景引入领域内数据;引入其它嵌入类型(Chinese-BERT,ERNIE-T)。任务删减NSP预训练任务(RoBERTa);基于实体的掩码语言模型(BERT-WWM,ERNIE);引入更多有效的预训练任务(MTDNN,ERNIE,RoFormerv2)其它应用跨语言模型(XLM);跨模态模型(ViLBERT,VideoBERT)公开数据集训练,效果差收敛慢字典上缺少风控常见生僻字,易失效小样本训练表现不好常见BERT改进开源BERT风控领域自适应模型二、NLP预训练

4、(背景介绍)二、NLP预训练(数据&字典)|异音异形字+电商高频字+Emojy表情+生僻字-字典减小55%覆盖率提升5%采集超过10亿条内外部文本数据定制字典解决开源BERT数据、字典不匹配电商、风控的问题。二、NLP预训练(输入)|引入字音/字形Embedding,提升对异音异形字的识别,解决模型失效快的问题。|方案1:多任务学习不同预训练任务收敛难度不同;不便于随时新增预训练任务。方案2:持续学习损失震荡严重;模型效果过渡依赖于结束之前训练的任务类型。方案3:顺序多任务(ERNIE 2.0)没有考虑不同任务的难易程度,浪费训练资源;随着任务的添加,模型输出分支规模难以控制任务调度系统的引入

5、,解决评论、舆情、地址、咨询、直播等十几个场景效果不均衡的问题。开源内循环可持续学习任务调度二、NLP预训练(任务调度)ZeRO传统的分布式训练,每一台机器均会消耗固定大小的全量内存,而与并行与否无关。ZeRO可以在不影响通信效率的情况下,让模型的内存均匀的分配到每个GPU上,减少单个GPU的显存占用,提高并行效率。操作融合A100基于多源头数据读取能力,充分发挥A100显卡潜能提速18倍在GPU的执行过程中,通常访问全局内存的操作会比较耗时。因此通过将多个操作进行融合,一次执行多个计算逻辑,减少全局内存的访问,可以有效的提高训练吞吐。|模型训练加速,从头训练亿级规模模型耗时由十几天减少到1天

6、之内。二、NLP预训练(训练加速)知识蒸馏轻量化StudentTeacherX1X2X3X4QueriesKeysValuesQueries-KeysScaled Dot-ProductValues-ValuesScaled Dot-ProductTransformer Block 2Transformer Block 1Transformer Block 3Transformer Block LX4X3X2X1QueriesKeysValuesQueries-KeysScaled Dot-ProductValues-ValuesScaled Dot-ProductTransformer Bl

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(9-2 预训练技术助力风控对抗能力升级.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠