《北银金科刘子馨:北银金科大模型安全测评平台.pdf》由会员分享,可在线阅读,更多相关《北银金科刘子馨:北银金科大模型安全测评平台.pdf(11页珍藏版)》请在三个皮匠报告上搜索。
1、北银金科大模型安全测评平台北银金科大模型安全测评平台刘子馨刘子馨北银金科20222022年年1111月月搭载了搭载了GPT-3.5GPT-3.5的的ChatGPTChatGPT横空出横空出世,凭借逼真的自然语言交互与多世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联场景内容生成能力,迅速引爆互联网网20232023年年3 3月月OpenAIOpenAI发布了发布了GPT-4GPT-4,它是一个,它是一个多模态大模型,接受图像和文本输多模态大模型,接受图像和文本输入入20242024年年2 2月月中国国产大模型如中国国产大模型如DeepSeekDeepSeek、KimKim、通义千问
2、等横空出世,展示、通义千问等横空出世,展示了中国在大模型领域的技术实力,了中国在大模型领域的技术实力,同时,同时,多模态模型进入主流视野多模态模型进入主流视野客户经理信贷经理开发经理项目经理海报创作文案生成智能客服研发辅助智能预警LLM LLM 大模型大模型工作流知识库提示词工具金融知识业务知识研发知识北银金科北银金科AIAI大模型应用大模型应用快问快答工作提醒纪检助手容器云冒烟指数运维助手能力推荐文档解析总结分析定时提醒不再遗漏近万条纪检知识AI 巡检业务检测监控系统智能化运维精准推荐提高能力复用个人助手理解用户指令一键触达DataChat基于Chat能力数据分析DevOps流水线覆盖90%
3、场景节省70%时间业技融合需求助手为需求编写提供多角度视野代码助手一键生成合规业务代码测试助手辅助完成测试用例编写监管合规要求监管合规要求核心风险挑战核心风险挑战安全事件频发安全事件频发 模型价值观存在偏差模型价值观存在偏差全球范围内大模型数据泄露、供应链投毒、LLM劫持攻击等事件频发;金融行业应用敏感数据泄露风险及欺诈性内容生成;由于模型、训练语料库的差别,形成的模型价值倾向会呈现差异,价值观问题包括但不限于歧视、腐文化、文化认同等问题;监管收紧监管收紧 密集出台监管合规要求密集出台监管合规要求国家密集出台法律法规及相关管理办法,促进生成式AI的健康发展和规范应用:GB/T 45654-20
4、25网络安全技术 生成式人工智能服务安全基本要求生成式人工智能服务安全基本要求生成式人工智能服务管理暂行办法互联网信息服务深度合成管理规定北银金科大模型安全测评平台北银金科大模型安全测评平台1 1个框架个框架 +1 1个流程个流程 +2 2大核心能力大核心能力1个框架1个流程2大核心能力内部赋能大模型安全测试体系框架大模型安全测试体系框架测试依据测试依据测试内容测试内容测试题库测试题库SMCESMCE攻击框架攻击框架测评平台测评平台生成式人工智能服务管理暂行办法生成式人工智能服务管理暂行办法生成式人工智能服务安全基本要求生成式人工智能服务安全基本要求LLMLLM应用程序应用程序OWASPOWA
5、SP十大安全风险十大安全风险20252025内容安全测试题库内容安全测试题库应拒答应拒答/非拒答题库非拒答题库内容安全测试内容安全测试(含(含5 5大类内容安全风险)大类内容安全风险)高级攻击测试高级攻击测试(内置(内置1111种攻击手法)种攻击手法)题库管理题库管理模型管理模型管理任务管理任务管理系统管理系统管理可视化大屏可视化大屏0202040401010303约束器约束器(ConstraintConstraint)选择器选择器(SelectorSelector)变异器变异器(MutatorMutator)评估器评估器(EvaluatorEvaluator)1个流程1个框架2大核心能力内部
6、赋能风险类型:风险类型:违反社会主义核心价值观歧视性内容侵犯他人合法权益商业违法违规 多元化题库多元化题库选择案例选择案例接入方式:接入方式:WebAPPAPI多形态模型多形态模型选择模型选择模型细粒度配置:细粒度配置:单次运行每日运行每周运行每月运行细粒度配置细粒度配置创建任务创建任务平台功能:平台功能:人机校验自动问答截图取证智能评估全自动执行全自动执行执行任务执行任务人工介入:人工介入:人工复核结果精确图形化展示图形化展示审核结果审核结果直观展示:直观展示:自定义模板可视化图表量化分析生成报告生成报告多维度呈