《电信网络中的图学习性能优化-曾立.pdf》由会员分享,可在线阅读,更多相关《电信网络中的图学习性能优化-曾立.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023电信网络中的图学习性能优化曾立华为技术有限公司GTS 数据智能计算专家01图技术的发展情况图的介绍、优势与业界应用02图学习在电信业务的应用图学习的原理与业务应用情况03图学习的性能优化主流引擎对比、关键挑战分析及加速技术04总结与展望图学习的业务和技术演进方向目录CONTENTDataFunSummit#202301图技术的发展情况越来越多的问题被建模成图,进而解决深度关联的问题传统的关系型数据库无法解决这些问题金融风控A1A1复杂关联,多跳查询转账转账商业推荐三跳以上,甚至六跳信用卡套现 盛行导致信用卡不良率攀升,每年 数亿元 损失每年的 洗钱 规模 2
2、000 亿元,经济总量的 2%如何存储千亿级的金融数据?如何支持属性和结构的快速更新?如何响应关联深度超过3的复杂查询?关系数据库一跳关联-六跳以上关联大量自连接TTTT图技术VS.金融交易图用户商品图A1是否存在洗钱链路?如何存储千亿级的电商数据?如何聚合用户的信息(住址,好友,浏览历史,购物记录)?如何把最合适的商品推荐给用户?海南的用户A浏览了女式牛仔裤,然后搜索衬衫,应该展示哪些商品?如果A的好友B跟A有相似的行为记录,B还购买了防晒霜,是否应向A推荐?查询的挑战:数据规模大 查询复杂(三跳以上关联)业务负载高存储的挑战:数据规模大,持续增长 属性维度高,且异构多样 数据频繁更新来源传
3、统电商的 商品推荐:十万亿元 的规模互联网企业的 广告推荐:近 万亿元 的规模新兴 直播电商的兴趣推荐:超 万亿元 的规模,年增速 142%其背后的原理关系数据库图技术一跳关联-六跳以上关联大量自连接 TTTT转账方(src)被转账方(dst)转账金额(val)A1B11,000,000A1B25,000A1B310,000A1B4600,000B1C11,000,000C1C21,000,000C2A11,000,000多表拼接环路检测关系表TSELECT*FROM T as T1,T as T2,T as T3 WHERE T1.src=A1 and T1.dst=T2.src and T
4、2.dst=T3.srcand T3.dst=T4.src and T4.dst=T1.src性能差:关系表 T 需要作多次 自连接功能不足:无法支持不固定跳数的查询只能一步步试:一跳是否可达,两跳是否可达SQL查询A1转账B1B2B3B4C1转账C2转账转账省略许多边转账易使用:建模简单自然,查询书写符合人类直觉性能好:直接 遍历图,无需表拼接(Join)功能强:支持任意跳数的查询用户可以不指定跳数g.V(A1).both().both().cyclicPath().path()图模型gGremlin 查询Cypher 查询MATCH p=(A1)-*-(A1)RETURN pRelatio
5、n Table JoinGraph Traversal计算范式计算复杂度O(|T|n)O(|T|)|T|即图g的边数A1A1转账转账(n跳关联)千万边 三跳 1021 -107世纪-毫秒问题其实,现实世界中,“图”是无所不在的社交网络道路网络蛋白质结构知识图谱通信网络定义:“图”是以“关联”为基础对现实世界的抽象表达G=(V,E,D),V=vertex(顶点或者节点),E=edge(边),D=data(属性&权重)互联网来源来源From Professor Lei ZouFrom Professor M.Tamer zsuFrom Professor M.Tamer zsu商业推荐-图技术在行
6、业的成熟应用基于评分的搜索推荐基于用户行为的商品推荐算法:图学习算法:随机游走/频繁子图挖掘算法用户搜索关键词,系统基于评分推荐商品/店铺淘宝/京东/拼多多等电商算法:随机游走/图学习算法:多跳查询/关联分析线上/线下购物超市里经常会把婴儿的尿不湿和啤酒放在一起售卖媒体平台的内容推荐社交网络的好友推荐QQ/微博/领英/各大游戏 等平台小蓝小白小红小明小灰小黑基于共同好友数(或地区、爱好等),优先给小明推荐小白而非小黑知乎/抖音/今日头条/微信读书 等平台 用户信息、用户和用户的关系(关注、好友等)内容(视频、文章、广告等)用户和内容的联系(点赞、评论、转发、点击广告等)被动等搜索主动推荐Fro
7、m InternetFrom InternetFrom InternetFrom Internet金融风控-图技术在行业的成熟应用欺诈模式检测场景特点:维度高、数据量大、更新快、关联隐蔽、潜在损失巨大、损失难以追回担保圈识别避免企业的经营风险级联扩散单个账户正常多账户关联分析犯罪成本重复使用资源团伙性、实时性、隐蔽性、手法多变离线计算()在线分析()静态规则()动态识别()放贷的风险评估 贷前:根据用户与其他实体关系判断用户是否欺诈 贷后:精准催收,失联用户的找寻算法:环路探测、社区发现、频繁子图挖掘反洗钱算法:子图匹配 贷中:观测用户与其他实体关系,判断风险是否发生变化算法:多跳查询、图学习
8、算法:介数中心性、社区发现、图学习From TigerGraphFrom TigerGraphFrom TigerGraphFrom TigerGraphFrom TigerGraph图技术在其他行业也有很多典型应用化学分子式检测子图匹配算法导航规划最短路算法故障告警 BFS/WCC算法旅美物理学家吴健雄与中国近代权臣袁世凯有什么关系?社交网络关联分析 s-t最短路算法用户影响力/页面排名PageRank算法知识问答 图学习/图可视化/子图匹配算法From Professor Lei Zou来源From Professor Lei ZouFrom OpenKG来源DataFunSummit#2
9、02302图学习在电信业务的应用图学习在业界和学界的发展情况谷歌和微软等众多IT大厂广泛使用,顶会论文指数增长(2005年提出,至今500+)图深度学习的挑战:规模大、拓扑不规则-传统的深度学习训练方式不可行欧式空间的神经网络 固定维度 有序、规则非欧式空间(图结构)维度可变 无序、不规则GraphSage:transductive-inductive性能和模型效果的优化都要基于图的性质GeniePath:自适应感受路径,广度和深度的结合Ngra:多GPU加速,基于环的流机制训练速度-学习更深-模型效果类似于传统图算法的 迭代加深由一步邻居不断迭代,聚合多跳信息图+深度学习 深度学习+图 放贷
10、风险评估业界案例购物商品推荐应用:节点分类、链接预测、图匹配、社区检测、相似性度量传统图挖掘算法基于显式规则 依赖业务经验,增大沟通难度 难以挖掘出隐性的、深层次的信息节点分类(可用于区分高风险节点和低风险节点)相比传统方法,图深度学习取得了更高的准确率为什么需要图深度学习?实际效果现实中大量数据是图结构的-需要挖掘信息K跳邻居、环、团、DAG图深度学习:节点采样,信息聚合-学习规则From InternetFrom InternetFrom 7图+AI LLM+图?GNN是前站!图学习的应用探索1:图技术使能网络故障诊断与根因推理当前故障树的表示推理能力不足,难以继续发展故障图推理:用图的方
11、式组织故障、根因之间的联系,用概率图推理技术在故障图上实现故障根因定位相关图技术:图节点/边表示学习、概率图推理、图结构学习图技术带来的增益:补全故障树隐藏节点,增强节点表示,验证表明在确定性推理场景(QoSFlow建立失败)效果优于故障树图结构学习和图推理(NP-Hard):评分搜索、置信传播节点/边的表示学习:MLE参数估计概率图最大概率路径推理业务痛点重点突破故障知识分散整合难工程师经验无表示规范多根因/时空差异导致的瓶颈自动挖掘,半自动关联定义规范,半自动/自动编排概率图推理算法突破瓶颈完备的故障树!节点的表示规范!命中率突破!故障图:最大概率路径求解的数学问题构图1)以可复制为目标的
12、故障因果图Schema设计,2)故障图节点的表示建模,3)故障图边的表示建模推理概率图推理:在概率图上求解Top-k概率路径故障图图表示学习:因果关系、节点的表示学习QoS建立失败故障日志故障图概率推理结果Top1:75.6%节点表示转移概率原50%图学习的应用探索2:图技术使能复杂问题理解与推理能力Lnr DssLte Fdd与nr的频谱共享的特性、原理LTE的10M到20MLTE载波扩容的方案、操作、案例、培训.用户问题实际想问类似的问题太多上行PUSCH干扰同频邻区UL PRB利用率等原因咨询产品设计方案解决故障87%用户问题在6个字以内,32%用户自己也不知道该怎么提问概念图谱:实际上
13、是个概念图,围绕概念图进行户复杂问题理解与推理概念是认知世界的基石,是机器具备认知能力的关键一步概念图谱以产品、故障为实体,描述为属性,上下位/同义词/因果/相关为关系补全用户问题及行为背后的大量专业知识、多样性语义、特征属性描述相关图技术:知识图谱、图学习、图查询、图可视化 图技术带来的增益:核心词识别准确率提升4.9%,问句复述生成相关度提升15%,篇章级事件论元抽取提升5%图卷积算法:模型假死、并行化挑战子图匹配问题,NP-hard挑战LNR DSS搜图关系扩展补全候选选择Lte Fdd与nr的频谱共享的特性、原理概念图谱问句复述生成:知识记忆选择篇章级事件抽取知识注入知识注入图学习的应
14、用探索3:图技术使能电信产商品推荐可视化展示(UX界面)套餐推得准,业务ROI就高,且可解释性强,置信度较高智能决策:用图的方式组织用户、套餐、APP之间的联系,用图学习技术预测兴趣度,用图查询技术作可视化展示 辅助运营商客户进行商业决策,对潜在用户作精准推荐,提升收益业务特点:多种点边(异构)边上大量属性 时序动态变化图技术带来的增益:相比传统图挖掘或传统AI算法,图学习的模型效果增强10%+相关图技术:K跳子图查询、一跳邻居分组查询(支持top-k)、时间窗口查询、动态异构图上的图嵌入(node embedding)、增量图训练等图上多跳查询动态异构图上的图嵌入和边预测三跳查询毫秒级,六跳
15、查询1s左右,可视化操作无明显延迟DataFunSummit#202303图学习的性能优化主流图学习引擎产品能力横向对比*数据截止到2023年7月图学习的两大疑难问题:网络层数受限:GNN只能有23层,更多会导致 over-smoothing问题(所有节点趋同)性能严重不足:以PyG为例,训练千万点级别的属性图数据需要60h 注:同一行中绿色最强,橙色其次,黑色最弱现存所有引擎均不支持知识图谱的图学习训练(KGCN)*说明:Graph-Learn(原AliGraph,现GraphScope)阿里;Angel(原PSGraph)腾讯+北大;PGL 百度,开源协议均友好图的本质特点和图学习的性能瓶
16、颈规模大拓扑结构不规则金融数据千亿级搜索引擎万亿级社交网络十亿百亿级维基数据亿级电信网络百万十亿级度数差异负载不均衡(多机/CPU/GPU/核/SIMD)访存地址发散(磁盘,内存,显存)访存延迟高异构多样道路图网格图幂律图关键挑战:规模大与拓扑不规则 计算和存储的巨大挑战并行计算存在长尾效应IO制约整体计算性能缺少解决所有场景的通用图技术From Professor M.Tamer zsu来源From 1多跳子图搜索稀疏矩阵乘法稠密矩阵乘法百亿级高维异构网络的分布式图学习加速(GNN、KGCN)异构受限集群多阶段子图分割基于本地内存共享的分布式图索引集群复杂异构、内存容量有限,万亿属性大图分割
17、难关键技术 预处理:计算&通信建模,基于启发式算法的异构机器阈值计算 边界均衡的子图分区扩展策略 后处理:基于运筹学的局部搜索优化算法表征聚合&更新多,通信代价高基于电信领域多源异构、规模大、属性高等特点,优化内存和计算,营销决策、方案推荐等图学习训练推理资源和时间开销降80%技术突破效果GNN:标杆DGL/PYG5倍+性能,内存降50%数据集PYGDGLWindvs PYG vs DGL耗时OGB-MAG81h68h5.33h15.212.8内存186GB256GB95GB1.92.7耗时SD-Mock49.6h41.3h10.5h4.73.9内存256GB332GB131GB1.92.5数
18、据集TensorflowWind提升耗时TEL_NET90min4min22.5内存3.8GB1.78GB2.1KGCN:TensorFlow性能20倍,内存降50%生长(边界均衡的子图分区扩展算法)预处理(启发式异构阈值建模算法)后处理(局部搜索优化算法)超大规模图多个子图张量维度高,局部性差,内存占用大高维张量自适应压缩运算跨语言零拷贝结构优化技术基于缓存局部性的稀疏矩阵优化算法WindGP:Efficient Graph Partitioning on Heterogenous Machines一种基于多引用和图谱增强的方案推荐系统 专利申请WIND:华为GTS构建的高性能计算引擎AI+
19、图+大数据WINDGraph 异构集群子图分割-实现万亿属性超大图划分高维属性的多阶段分离式处理关键技术 预处理:计算&通信建模,基于启发式算法的异构机器阈值计算 边界均衡的子图分区扩展策略 后处理:基于运筹学的局部搜索优化算法异构集群上的图结构最优化划分基于属性分离存储的三阶段图划分先划分图结构,再分配节点属性节点属性划分方式切割最少的边&保留边缘节点划分结构分配属性阶段1:图按边类型划分,并分离全部属性阶段2:将每个图结构划分为多个子图阶段3:在每个子图中,根据节点的全局ID获取对应的属性结构和属性分离,可在不影响性能的情况下,将内存峰值降低2倍+不同机器计算/内存配置不同,传统算法无法有效划分主要效果 相比业界前沿算法(NE等),优度提升30%以上 随着图规模/机器数量上升,具备良好的可扩展性DataFunSummit#202304总结与展望Take away knowledge 图技术的应用:金融风控、商业推荐、电信运维等 图技术的现状:图数据的规模不断增长,图算法的研究日趋成熟,图技术的应用进入大爆炸时期!图技术的主要流派:图数据库、图计算(分析/学习)图学习的关键挑战:规模大、拓扑不规则幂律图来源图学习在电信业务的应用图学习的加速技术故障根因定位复杂问题理解产商品推荐图与LLM的协同是业界和学界当前探索的热点多阶段异构子图分割分布式图索引张量压缩运算感谢观看