人工智能工具缺陷给私有大型语言模型(LLM)和聊天机器人带来安全隐忧
2024-5-31 16:59:34 Author: mp.weixin.qq.com(查看原文) 阅读量:0 收藏

企业正探索利用私有大型语言模型(LLM)来帮助员工通过对话界面从非结构化数据中提取信息。然而,如果安全控制措施不当,可能会面临数据投毒和潜在的数据泄露风险。专家警告,未正确强化平台的公司可能面临这些风险。漏洞如跨站点请求伪造(CSRF)可能影响基于人工智能提供商SamurAI的应用程序,允许攻击者欺骗用户上传有毒数据。此外,人工智能应用的快速采用导致了更多潜在威胁,特别是对于那些让LLM访问大量数据存储库的公司而言。公司需要在部署LLM时谨慎考虑安全问题,包括对数据进行分段、限制访问权限,并定期更新和测试软件资产。

数据投毒和潜在的数据泄露风险

企业正寻求利用私有大型语言模型(LLM)帮助员工通过对话界面从非结构化数据中提取信息,但如果安全控制措施实施不当,可能会面临数据投毒和潜在的数据泄露风险。

专家指出,如果公司未能正确强化平台,使用私有LLM实例通过对话界面搜索业务数据时,将面临数据投毒和潜在的数据泄露风险。例如,Synopsys本周披露了一个跨站点请求伪造(CSRF)漏洞,该漏洞可能影响基于人工智能提供商SamurAI的EmbedAI组件的应用程序,允许攻击者欺骗用户将有毒数据上传到他们的语言模型中。发现该漏洞的Synopsys安全研究员Mohammed Alshehri表示,这种攻击利用了开源组件缺乏安全的跨源策略和会话管理的失败,甚至可能允许攻击者影响私有LLM实例或聊天机器人。

他指出,这些风险与软件开发者面临的问题类似,但具有人工智能的特殊性质。"有些产品采用现有的AI实现和开源组件并将它们合并在一起以创建新产品,"他说。"我们想强调的是,即使在集成之后,公司也应该进行测试,以确保我们为Web应用程序提供的相同控件也在其AI应用程序的API上实现。"

该研究强调,急于将人工智能融入业务流程确实存在风险,尤其是对于那些让LLM和其他生成式人工智能应用程序访问大量数据存储库的公司。根据美国人口普查局2023年10月进行的一项调查,总体而言,只有4%的美国公司将人工智能作为其业务运营的一部分,但一些行业的采用率更高,信息部门为14%,专业服务部门为9%。

人工智能组件的实际攻击

人工智能应用安全公司Protect AI的首席人工智能威胁研究员Dan McInerney表示,采用新一代人工智能和机器学习(AI/ML)所带来的风险并不一定来自模型本身,因为模型的攻击面通常较小,而来自开发人工智能应用程序和界面的软件组件和工具。"你不需要向LLM发送多少魔法咒语,就能让它吐出密码和敏感信息,"他说。"但用于托管LLM的服务器存在很多漏洞。LLM并不是你被黑客攻击的地方——你被LLM使用的所有工具攻击的可能性都很大。"

此类漏洞已被积极利用。3月,Oligo Security报告称,流行的AI框架Ray遭到主动攻击,攻击利用了之前发现的一个安全问题,这是Protect AI和Bishop Fox研究小组与独立研究员Sierra Haex共同发现的五个漏洞之一。Ray背后的公司Anyscale修复了四个漏洞,但认为第五个漏洞是配置错误问题。

然而,根据Oligo Security在三月份发布的分析报告,攻击者成功找到了数百个部署,这些部署不明智地将Ray服务器暴露到互联网上并危害了系统。该公司表示:"过去七个月,该漏洞一直受到积极利用,影响到教育、加密货币、生物制药等行业。建议所有使用Ray的组织检查其环境,以确保其不暴露,并分析任何可疑活动。"

Anyscale在其3月份的公告中承认了这些攻击,并发布了一款检测不安全配置系统的工具。

私密AI并不意味着安全

虽然Ray框架中的漏洞使面向公众的服务器面临攻击,但即使是私有人工智能驱动的LLM和聊天机器人也可能面临攻击。5月,人工智能安全公司Protect AI发布了其漏洞赏金社区Huntr发现的最新一批漏洞,涵盖32个问题,从关键的远程漏洞到低严重性竞争条件。一些攻击可能需要访问API,但其他攻击可以通过恶意文档和其他媒介进行。

Synopsys研究人员Alshehri在自己的研究中发现了跨站点请求伪造(CSRF)问题,该问题使攻击者能够通过水坑攻击毒害LLM。

Synopsys在其公告中表示:"利用此漏洞可能会影响模型的即时运行,并可能对其可信度和依赖它的系统的安全性产生长期影响。这可能以各种方式表现出来,包括传播错误信息、引入偏见、性能下降以及可能发生拒绝服务攻击。"

数据管理公司BigID的首席信息安全官Tyler Young表示,通过使用聊天机器人服务的私有实例或内部托管LLM,许多公司认为他们已经将被利用的风险降至最低。

"大多数企业都倾向于在LLM算法的基础上使用私有的LLM聊天机器人,因为它提供了这种便利,就像在自己的云中托管一样,你可以控制谁可以访问数据,"他说。"但这也存在风险……因为一旦你有了固有的信任,你就会开始在其中输入越来越多的数据,从而导致过度曝光。只需要其中一个账户被入侵。"

新软件同样面临旧漏洞的困扰

Synopsys的Alshehri表示,公司需要假设当前的AI系统和服务仅经过有限的安全设计和审查,因为这些平台通常基于团队规模较小且监督有限的开源组件。事实上,今年2月,Hugging Face AI开源模型库被发现充斥着恶意代码执行模型。

他说道:"就像我们进行常规测试以及使用黑盒和白盒测试进行代码审查一样,在采用这些新技术时,我们也需要这样做。"

基于内部数据实施AI系统的公司应该对数据(以及由此产生的LLM实例)进行分段,以便只有员工才可以访问基于他们有权访问的数据构建的LLM服务。具有特定权限级别的每个用户集合都需要一个单独的LLM,该LLM经过了他们可访问数据的训练。

Protect AI的McInerney说:"你不能只让LLM访问大量数据,然后说‘好吧,每个人都可以访问这个数据’,因为这相当于让每个人都访问一个包含所有数据的数据库,对吧?""所以你必须清理数据。"

最后,公司需要尽量减少用于开发人工智能工具的组件,然后定期更新这些软件资产并实施控制,以使利用变得更加困难,他说。

参考资源:

1.https://www.darkreading.com/application-security/flawed-ai-tools-create-worries-for-private-llms-chatbots

2.https://www.oligo.security/blog/shadowray-attack-ai-workloads-actively-exploited-in-the-wild

原文来源:网空闲话plus
“投稿联系方式:010-82992251   [email protected]


文章来源: https://mp.weixin.qq.com/s?__biz=MzkyMzAwMDEyNg==&mid=2247544137&idx=4&sn=8f42a8a9104cb17d8b834a014ad17886&chksm=c1e9a118f69e280e1de492eca3e4b8cea3e1c50728e183c2d94fdebd5238c395bc646885d7b2&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh