研究人员发现大型语言模型中的新漏洞
大型语言模型(LLM)使用深度学习技术来处理和生成类似人类的文本。这些模型使用来自书籍、文章、网站和其他来源的大量数据进行训练,以生成响应、翻译语言、总结文本、回答问题并执行各种自然语言处理任务。
这种快速发展的人工智能技术催生了开源和闭源工具的创建,例如ChatGPT、Claude和GoogleBard,使任何人都可以搜索并找到看似无穷无尽的查询的答案。虽然这些工具提供了显着的好处,但人们越来越担心它们生成令人反感的内容的能力以及由此产生的后果。
卡内基梅隆大学计算机科学学院(SCS)、CyLab安全与隐私研究所以及旧金山AI安全中心的研究人员发现了一个新漏洞,提出了一种简单有效的攻击方法,该方法会导致对齐的语言模型生成令人反感的内容行为成功率很高。
【资料图】
CMU副教授MattFredrikson和ZicoKolter博士在他们的最新研究“对齐语言模型的通用且可转移的对抗性攻击”中。学生AndyZou和校友ZifanWang发现了一个后缀,当它附加到广泛的查询时,会显着增加开源和闭源法学硕士对他们本来会拒绝的查询做出肯定答复的可能性。他们的方法不是依赖手动工程,而是通过贪婪和基于梯度的搜索技术的组合自动生成这些对抗性后缀。
弗雷德里克森说:“目前,促使聊天机器人产生令人反感或有毒内容可能给人们带来的直接伤害可能不是特别严重。”“令人担忧的是,这些模型将在无需人类监督的自治系统中发挥更大的作用。随着自治系统变得越来越现实,确保我们有一种可靠的方法来阻止它们被劫持将非常重要像这样的攻击。”
2020年,Fredrikson以及来自CyLab和软件工程研究所的研究人员发现了图像分类器、基于人工智能的深度学习模型(可自动识别照片主题)中的漏洞。通过对图像进行微小的更改,研究人员可以改变分类器查看和标记它们的方式。
Fredrikson、Kolter、Zou和Wang使用类似的方法成功攻击了Meta的开源聊天机器人,欺骗法学硕士生成令人反感的内容。在讨论他们的发现时,Wang决定尝试攻击ChatGPT,这是一个更大、更复杂的法学硕士。令他们惊讶的是,它奏效了。
“我们并没有打算攻击专有的大型语言模型和聊天机器人,”弗雷德里克森说。“但我们的研究表明,即使你有一个万亿参数的闭源模型,人们仍然可以通过查看免费的、更小、更简单的开源模型并学习如何攻击这些模型来攻击它。”
通过在多种提示和模型上训练攻击后缀,研究人员还在GoogleBard和Claud等公共界面以及Llama2Chat、Pythia、Falcon等开源LLM中引入了令人反感的内容。
“目前,我们根本没有令人信服的方法来阻止这种情况发生,因此下一步是找出如何修复这些模型,”弗雷德里克森说。
类似的攻击在不同类型的机器学习分类器上已经存在了十年,例如计算机视觉领域。虽然这些攻击仍然构成挑战,但许多提议的防御措施直接建立在攻击本身之上。
“了解如何发起这些攻击通常是建立强大防御的第一步,”他说。
标签: