贺品嘉-LLM内容安全性的挑战与优化从数据到算法.pdf

编号:614096 PDF 65页 7.49MB 下载积分:VIP专享
下载报告请您先登录!

贺品嘉-LLM内容安全性的挑战与优化从数据到算法.pdf

1、LLM内容安全性的挑战与优化:从数据到算法贺品嘉|香港中文大学(深圳)演讲嘉宾贺品嘉国家级青年人才香港中文大学(深圳)助理教授,期刊TOSEM副编辑,开源项目在GitHub上共收获6000+stars,并被450+学界与业界组织下载6万余次,研究方向为AI for SE、SE for AI、智能运维、大模型安全目 录CONTENTS1.大模型的内容安全2.数据视角下的安全问题3.OOD CipherChat4.BIAS DeRTa5.总结与展望大模型的内容安全PART 01大模型的内容安全(Zhao et al.2023)A Survey of Large Language Models.Pr

2、eprint.大模型将AI的智能水平推向了一个新的高度大模型的内容安全(Ouyang et al.2022)Training language models to follow instructions with human feedback.NeurIPS.预训练:大模型首先在海量数据上学习 Next-Token-Prediction 后训练:监督微调(SFT),然后 偏好对齐(e.g.RLHF,DPO)SFTRLHF大模型的内容安全 In-Context-Learning(ICL):结合 ICL,经过训练的模型可以按照要求完成各种任务大模型的内容安全(Xie et al.2023)Sorr

3、y-Bench:Systematically Evaluating Large Language Model Safety Refusal Behaviors.Preprint.对于危险问题:指令遵循 VS 安全拒绝 这两个训练目标之间的竞争,可能导致诸多安全风险当被要求遵循危险指令(e.g.如何制作炸弹),模型的回复中是否包含能有效指导完成该指令的内容。本次报告中的安全性定义数据视角下的安全问题PART 02数据视角下的安全问题模型,在训练数据上,以训练目标为指导,更新参数 模型架构:Transformer Decoder-only 训练目标:指令遵循 VS 安全拒绝 训练数据:?当前的训练

4、数据,可能存在什么样的问题?什么样的训练数据,可以训练出更安全的模型?训练数据数据视角下的安全问题我们尝试从两个经典的概念,OOD和Bias,出发,来回答:当前的训练数据,可能存在什么样的问题?什么样的训练数据,可以训练出更安全的模型?分布外问题1Position Bias21(Yuan et al.2023)GPT-4 Is Too Smart To Be Safe:Stealthy Chat with LLMs via Cipher.ICLR.2(Yuan et al.2024)Refuse Whenever You Feel Unsafe:Improving Safety in LLMs

5、 via Decoupled Refusal Training.Preprint.数据视角下的安全问题当前的安全训练数据,可能存在什么样的问题?1,2OOD语义空间的覆盖度不足,缺乏主流语言之外的数据,例如密语Bias回复中,几乎所有安全拒绝性token,如sorry,只分布在前几个token解决上述问题,可训练出更安全的模型。2重构安全数据+强化过渡优化(RTO),有效缓解OOD和Bias问题OOD-ICLPosition Bias-SFT1(Yuan et al.2023)GPT-4 Is Too Smart To Be Safe:Stealthy Chat with LLMs via C

6、ipher.ICLR.2(Yuan et al.2024)Refuse Whenever You Feel Unsafe:Improving Safety in LLMs via Decoupled Refusal Training.Preprint.CipherChatPART 03CipherChat:安全训练数据没有覆盖到密语空间动机:相同的语义存在不同的表达形式,如语言,风格等,这些因素可能影响安全性推测:收集的标注数据,主要分布在自然语言上问题:我们可以通过非自然语言来越狱大模型吗英语凯撒密语CipherChat:安全训练数据没有覆盖到密语空间密语选取与设计常见密语:字符编码如 AS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(贺品嘉-LLM内容安全性的挑战与优化从数据到算法.pdf)为本站 (patton) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠