《非结构化数据智能风控.pdf》由会员分享,可在线阅读,更多相关《非结构化数据智能风控.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023非结构化场景智能风控实践曾利彬-算法专家-蚂蚁集团DataFunSummit#202301业务背景介绍业务背景全球收款业务风险点:商户入驻真实性贸易真实性禁限售信用欺诈收单渠道盗用账户资金安全全球付款跨境电商收款外贸B2B收款汇兑服务中国企业(卖家)1 交易撮合,缔结合同贸易材料:贸易合同发票,询盘记录境外企业(买家)2 发货贸易材料:快递单、海运提单、报关单,沟通记录2 发货货运公司(optional)3 汇款4 收款并结汇入境主要风险点主要风险点为真实性风险,非真实贸易收款可能带来合规风险或欺诈风险业务背景-B2B跨境贸易真实性B2B跨境贸易一般流程业务
2、背景-B2B跨境贸易真实性真实性风险案例一商户提供的材料无法证明其真实贸易背景,资金来源不明,例如提供了无法验证的跨境物流单据业务背景-B2B跨境贸易真实性真实性风险案例二商户通过电信诈骗等方式骗取境外用户的资金,伪装成B2B跨境贸易背景跨境收款结汇,例如使用虚假的物流单据和网站 物流状态一直是label created,处于揽收状态,未有实际货物运输虚假的物流单据:网页主体不匹配:客户提供了的商户主页,网页显示名称与商户报备企业名称不符业务背景-B2B跨境贸易真实性用户提交贸易背景证明材料贸易真实性审核贸易合同发票跨境物流证明其他材料-贸易材料完整性审核:资金、合同、货物三方面信息是否一致,
3、例如收款人=合同卖方=发货人,付款人=合同买方=收货人-贸易材料真实性审核:基于第三方数据验证、信息匹配程度等判断其真实性-网址:售卖商品的网址-沟通记录:咨询沟通询盘等记录-委托证明:代理发货、委托付款等证明国际快递、海运、空运、铁路运输单跨境贸易合同,标明了买卖双方、商品、交货和付款方式信息DataFunSummit#202302算法技术介绍非结构化场景算法技术介绍算法技术链路:用户提交材料OCR文本内容:Parcop S.r.l.文本位置(文本框坐标)信息获取:文档分类、关键信息解析文档分类:国际快递信息比对:主体一致性+收货人与付款人名称是否一致?智能风控目标:借助算法技术手段实现B2
4、B跨境贸易验真场景的自动化验真,实现风险与成本的最优场景特点:非结构化数据场景,所有信息都需要从非结构化的贸易文档获取关键字段结果收货人名称:Parcop S.r.l.非结构化场景算法技术介绍技术难点1:非标文档如何获取信息技术难点2:企业多语种名称如何比对拼音相似读音相似中文名:广州必一科技有限公司英文名:guangzhou biyitechnology co.,ltd.中文名:苏州拓浦微实业有限公司英文名:suzhou top view industrial co.,ltd每个商家提交的文档风格都不一样,有图像多的,有文字多的,有KV型的,有非KV型的,文档理解是个难题企业的多语种名称(例
5、如中英文)如何比对是个难题非结构化场景算法技术介绍非标文档中如何获取想要的信息?VeLayoutLM:多模态对齐预训练模型1.充分利用文本周围的图文信息多模态对齐:图像、文本、布局文本+周围文本推测:这是一个发货人名称文本+周围图像推测:这是一个物流服务商2.模型有足够的先验知识:大规模数据预训练-Hightlight 1:层次化的mask方案,解决多模掩码难题-Hightlight 2:多模对齐的预训练任务,充分利用图像、文本、布局信息Mask Image Modeling:通过周围图像预测掩盖图像Multimodel Mask Language Modeling:通过周围文本+布局预测掩盖
6、文本,布局和文本的对齐Hierarchical mask Text-Image:推测某段文本是否被mask,图像+布局与文本对齐-效果:在公开数据集和业务数据集的多模文档分类、信息解析任务F1均超过90%非结构化场景算法技术介绍企业的多语言名称比对如何做?语义语音分别表征中英文音译模型鲁棒性问题:拆分与合并规则如何设计?通用性问题:如何推广到更多实体更多语言?中英文企业名称规则拆分多语言语义表征规则合并判断 XLM语义语音融合的多语言表征中文企业名称多语言名称库人名:NEWS 2018世界人名词典企业名称:业务数据英文企业名称拼音相似检索模糊匹配检索传统