《涂勇-大模型在数据管理与数据应用领域的实践-壹钱包202410 (1).pdf》由会员分享,可在线阅读,更多相关《涂勇-大模型在数据管理与数据应用领域的实践-壹钱包202410 (1).pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、演讲嘉宾:涂勇1壹钱包大模型应用现状2大模型在数据管理领域的应用3大模型在数据风控领域的应用4大模型技术架构及平台建设RAG+PingAnGPT应用于H5/企微场景高效运营,及时响应提供基于知识库的专业问答具备智能营销能力中石油、商城、积分应用于风控场景可疑案件评定地域风险交易风险使用习惯风险风控运营应用于小程序的社区页提供宠物相关知识问答提供猫狗品种介绍提供宠物饮食指南宠物应用于大数据内部的数据治理场景辅助数据分类分级辅助元数据检索数据管理壹钱包大模型的应用场景JR/T 0197-2020金融数据安全分级指南s1s5数据安全级别人工标识平安大模型+RAG技术辅助标识数据资产管理平台资产盘点、
2、梳理、分类数据资产清单元数据接入信息检索根据指南识别数据资产人工打标数据分类分级业务价值 落地PingAnGPT+RAG技术在数据安全分级场景,辅助提升人工标识作业效率目前大模型实现数据安全分级准确率约94%,在持续优化迭代中。可节省90%人工打标工作量。场景1:辅助安全&监管对数据的分类分级要求,可实现节省90%人力任务:结合你与用户的会话记录和已知信息做回复。注意甄别你的回复是否属实,必要时附上信息来源。如果用户的问题涉及到多个分类分级,请针对不同情况进行回复,按照已知信息中最接近的问题进行答复 已知信息:context你的角色:大数据分类分级专家 拒答范围:1.拒绝回答与你业务无关的问题
3、 2.拒绝回答政治敏感、违法违规问题 3.拒绝回答缺少上下文的问题 输出格式:JSON格式,包含以下key:name:question lvl1:一级分类名称 lvl2:二级分类名称 lvl3:三级分类名称 lvl4:四级分类名称 security:最低安全级别限制:生成内容严格按照返回格式,不要输出其他内容。用户问题是:question 分类分级知识知识检索向量模型PingAnGPTembeddingPrompt Engineering的一种通用结构化框架:任务(Task):明确表达你的最终目标上下文(Context):用户背景、相关知识等信息示例(Excamples):提供具体的例子,提高
4、模型输出质量角色(Person):指定大模型扮演的角色,限定知识范围格式(Format):期望大模型输出的格式语气(Tone):正式、非正式、幽默等规则学习困难花费时间多语义理解难入门门槛高分类不准确 规则理解不准确字段注释不准确分类一致性较差工作效率低人工处理分类规则熟悉字段注释查阅知识向量注入embedding 向量模型问:金额的分类分级是什么?向量知识库相似知识召回填充提示词模板提示词模板答:name:金额,lvl1:业务,lvl2:账户信息,lvl3:NA,lvl4:金额信息,security:S3解决用户痛点符合监管规范大模型&RAG&提示词迭代实现数据分类分级资产管理平台-分类分级
5、AI助手大模型元数据检索传统元数据检索更强大的语义理解用户需要年龄信息,顺便带出了年月字段供用户参考自定义的智能交互能力丰富的扩展性用户询问财富等级字段,不仅提供回答后,拓展出信用卡等级 风险等级 等字段 确人是否是用户需要的,尽可能满足用户需求任意输入元数据中文描述,精确检索到对应的元数据,不需要用户预先选择好数据服务对象(数据模型表、报表、标签、指标.)使用门槛高固定关键词模糊匹配定位范围广、查找困难用户受众窄主要面向数据开发人员及元数据owner功能较单一无法扩展回答无多步交互场景2:大模型尝试实现元数据检索场景3:大模型打标商品标签并迁移至用户,提升用户标签丰富度用户行为用户基础标签高
6、尔夫球杆商品体育竞猜活动用户行为用户基础标签商品标签活动标签用户迁移标签商品自有标签活动自有标签体育竞猜活动标签:体育赛事互动娱乐竞猜游戏奖励机制体育竞猜活动标签:有参加体育竞猜活动的用户、参与的频度用户购买商品标签:有购买过高尔夫球杆的用户、有购买过体育类商品的用户高尔夫球杆商品标签:体育用品运动时尚高品质体育运动时尚高品质赛事互动娱乐竞猜游戏奖励机制 采用大模型对商城全量商品进行打标,大模型根据商品名称及描述给出多个标签,再根据用户与商品的交互(浏览、点击、加购、交易等行为权重)把标签迁移到用户上。再根据商品标签与用户标签进行向量匹配,增加一种商品推荐的方式。商城商品营销活动各类权益Pin