贺品嘉-LLM内容安全性的挑战与优化从数据到算法.pdf

上传人： p****n

编号：614096

2025-02-19

PDF 65页 7.49MB

《贺品嘉-LLM内容安全性的挑战与优化从数据到算法.pdf》由会员分享，可在线阅读，更多相关《贺品嘉-LLM内容安全性的挑战与优化从数据到算法.pdf（65页珍藏版）》请在三个皮匠报告上搜索。

1、LLM内容安全性的挑战与优化：从数据到算法贺品嘉|香港中文大学（深圳）演讲嘉宾贺品嘉国家级青年人才香港中文大学（深圳）助理教授，期刊TOSEM副编辑，开源项目在GitHub上共收获6000+stars，并被450+学界与业界组织下载6万余次，研究方向为AI for SE、SE for AI、智能运维、大模型安全目录CONTENTS1.大模型的内容安全2.数据视角下的安全问题3.OOD CipherChat4.BIAS DeRTa5.总结与展望大模型的内容安全PART 01大模型的内容安全(Zhao et al.2023)A Survey of Large Language Models.Pr

2、eprint.大模型将AI的智能水平推向了一个新的高度大模型的内容安全(Ouyang et al.2022)Training language models to follow instructions with human feedback.NeurIPS.预训练：大模型首先在海量数据上学习 Next-Token-Prediction 后训练：监督微调（SFT），然后偏好对齐（e.g.RLHF，DPO）SFTRLHF大模型的内容安全 In-Context-Learning（ICL）：结合 ICL，经过训练的模型可以按照要求完成各种任务大模型的内容安全(Xie et al.2023)Sorr

3、y-Bench:Systematically Evaluating Large Language Model Safety Refusal Behaviors.Preprint.对于危险问题：指令遵循 VS 安全拒绝这两个训练目标之间的竞争，可能导致诸多安全风险当被要求遵循危险指令（e.g.如何制作炸弹），模型的回复中是否包含能有效指导完成该指令的内容。本次报告中的安全性定义数据视角下的安全问题PART 02数据视角下的安全问题模型，在训练数据上，以训练目标为指导，更新参数模型架构：Transformer Decoder-only 训练目标：指令遵循 VS 安全拒绝训练数据：？当前的训练

4、数据，可能存在什么样的问题？什么样的训练数据，可以训练出更安全的模型？训练数据数据视角下的安全问题我们尝试从两个经典的概念，OOD和Bias，出发，来回答：当前的训练数据，可能存在什么样的问题？什么样的训练数据，可以训练出更安全的模型？分布外问题1Position Bias21(Yuan et al.2023)GPT-4 Is Too Smart To Be Safe:Stealthy Chat with LLMs via Cipher.ICLR.2(Yuan et al.2024)Refuse Whenever You Feel Unsafe:Improving Safety in LLMs

5、 via Decoupled Refusal Training.Preprint.数据视角下的安全问题当前的安全训练数据，可能存在什么样的问题？1,2OOD语义空间的覆盖度不足，缺乏主流语言之外的数据，例如密语Bias回复中，几乎所有安全拒绝性token，如sorry，只分布在前几个token解决上述问题，可训练出更安全的模型。2重构安全数据+强化过渡优化（RTO），有效缓解OOD和Bias问题OOD-ICLPosition Bias-SFT1(Yuan et al.2023)GPT-4 Is Too Smart To Be Safe:Stealthy Chat with LLMs via C

6、ipher.ICLR.2(Yuan et al.2024)Refuse Whenever You Feel Unsafe:Improving Safety in LLMs via Decoupled Refusal Training.Preprint.CipherChatPART 03CipherChat：安全训练数据没有覆盖到密语空间动机：相同的语义存在不同的表达形式，如语言，风格等，这些因素可能影响安全性推测：收集的标注数据，主要分布在自然语言上问题：我们可以通过非自然语言来越狱大模型吗英语凯撒密语CipherChat：安全训练数据没有覆盖到密语空间密语选取与设计常见密语：字符编码如 AS

贺品嘉-LLM内容安全性的挑战与优化从数据到算法.pdf

相关报告