聚焦源代码安全,网罗国内外最新资讯!
编译:代码卫士
今年5月13日发布的 GPT-4o 要比之前的模型更快、更高效、功能更丰富。它能够以数十种语言处理多种不同形式的输入数据,之后以微秒的速度给出回应。它可参与实时对话、分析实时摄像头内容,并维持对用户长时间对话中上下文的理解。然而,在用户生成内容管理方面,GPT-4o 在某种程度上仍然并无不同。
Mozilla 公司的 GenAI 漏洞奖励计划经理 Marco Figueroa 在一份新报告中提到了恶意人员如何可绕过 GPT-4o 的防御措施并加以利用。它的关键在于以非传统的格式编码恶意指令,并以明确步骤对其进行传播。
为了阻止恶意滥用,GPT-4o 分析了用户输入中的恶意语言的迹象以及意图不良的指令等。Figueroa 表示,“这只是词语过滤。这是我通过经验看到的内容,我们确切知道如何绕过这些过滤。”
他举例表示,“我们可以修改内容是怎么讲清楚的——以某种方式攻破它——以及LLM如何对其进行解释。”如果GPT-4o 收到的拼写或短语与常见的自然语言不同,那么它可能并不会拒绝恶意指令。不过,查清楚体现信息的正确方式以欺骗GPT-4o需要耗费很多新型脑力。不过绕过其内容过滤,现在有了更简单的方法:通过与自然语言不同的语言格式来编码指令。
为了进行演示,Figueroa 进行了实验,目的是让 ChatGPT 做一些本不应做的事情:为一个软件漏洞编写利用。他选择了 CVE-2024-41110。该漏洞是位于 Docker 中的插件认证绕过漏洞,CVSS评分为9.9。他首先以十六进制格式对恶意输入进行编码,之后提供了一系列解码指令。GPT-4o 接受了该输入并按照这些指令,最终解码了这些信息作为研究CVE-2024-41110的指南,并编写了一个 Python 利用。为了让程序不会关注该指令,他使用了一些黑客文,要求它写出 “3xploit” 而非 “exploit”。
不一会儿,ChatGPT 就生成了一个可运行的利用,与已经在 GitHub 上发布的 PoC 类似但并非完全相同的利用。之后,它甚至对自己执行起了该代码。Figueroa 表示,“并没有向它发出指令要求执行该代码,我只是想把它打印出来。我甚至不知道它为什么要再进一步做出这些动作。”
GPT-4o 不仅受到解码的困扰,在一些情况下还会因小失大,而这也是在其它提示符注入技术中常见情况。
Figueroa 表示,“该语言模型旨在逐步执行指令,但缺少在更广泛最终目标上下文中对单个步骤安全性进行评估的深入上下文意识。”该模型分析了每个输入——在它看来并未造成任何损害,而不是对所有输入进行分析。它并没有停下来思考指令第一步对后续步骤的影响,它只是无脑快速进行下一步。
Figueroa 认为,“这种对任务的区分化执行可导致攻击者利用模型效率,即不会整体结果进行更深入分析就按照指令执行。”如果真是如此,那么 ChatGPT 将不仅需要改进如何处理编码信息,还需要针对分散到独立步骤的指令开发更宽泛的上下文。
然而,Figueroa 认为,OpenAI 在开发程序时一直在以安全性为代价推进创新。他提到,“我认为他们不关注安全,它给人的感觉就是如此。”相比之下,他在尝试对 Anthropic 公司(由OpenAI 离职员工创立的著名AI公司)的模型进行同样的越狱技术尝试时遇到更多的困难。他解释称,“Anthropic 的安全性是最强的,因为他们同时构建了一个提示符防火墙(用于分析输入)和响应过滤器(用于分析输出),因此难度上升10倍。”
OpenAI 公司尚未就此置评。
OpenAI:伊朗国家黑客利用 ChatGPT 密谋 ICS 攻击
https://www.darkreading.com/application-security/chatgpt-manipulated-hex-code
题图:Pixabay License
本文由奇安信编译,不代表奇安信观点。转载请注明“转自奇安信代码卫士 https://codesafe.qianxin.com”。
奇安信代码卫士 (codesafe)
国内首个专注于软件开发安全的产品线。
觉得不错,就点个 “在看” 或 "赞” 吧~