Lasso Security的研究人员近日在代码存储库中发现了1681个暴露的Hugging Face API令牌,这使谷歌、Meta、微软和VMware等厂商面临潜在的供应链攻击。
Lasso Security在发布的声明中表示,暴露的API令牌使其研究人员能够访问723家组织的GitHub和Hugging Face代码存储库,这些代码库含有大语言模型和生成式AI项目方面的高价值数据。数据科学社区和开发平台Hugging Face表示,它拥有超过50万个AI模型和25万个数据集。
暴露的API令牌使众多组织的生成式AI模型和数据集面临各种威胁,包括供应链攻击、训练数据中毒和模型被盗。其中655家组织的令牌具有写权限,这使得研究人员可以全面访问代码存储库。
一些可以全面访问的代码存储库面向诸如开源的Meta Llama 2、EleutherAI的Pythia和BigScience Workshop的Bloom之类的平台和大语言模型。
Hugging Face在声明中表示,所有暴露的API令牌现都已被撤销,但该公司似乎将责任主要归咎于客户。由于用户在Hugging Face Hub和GitHub等平台上发布了令牌,这些令牌被暴露。Lanyado表示,Hugging Face也有责任,并建议它应该不断扫描暴露的API令牌,要么直接撤销,要么通知用户。
Meta、谷歌、微软和VMware等许多组织和用户非常迅速地采取了行动,他们在报告发布的同一天就撤销了令牌,并删除了公共访问令牌代码。
随着大语言模型和生成式AI模型大行其道,Lasso Security希望更仔细地研究Hugging Face的安全性,毕竟这是开发者社区的一个关键平台。研究人员决定使用该平台的搜索功能扫描Hugging Face和GitHub上的代码存储库,以寻找暴露的API令牌。
研究人员在使用正则表达式(regex)搜索代码时遇到了障碍,最初的搜索在GitHub上只获得了前100个结果。然后,研究人员搜索HuggingFace API令牌正则表达式,以查找用户和org_api令牌,返回了数千个结果。然而,他们只能读取其中的100个结果。
在Hugging Face上扫描暴露的API令牌来得更困难,因为该平台不允许使用正则表达式进行搜索,于是研究人员改而通过子字符串搜索API令牌。
在扫描这两个平台上的代码存储库之后,研究人员使用了“whoami”HuggingFace API调用,结果不仅提供了单个令牌的有效性,还提供了用户的姓名、电子邮件、组织以及令牌及其他信息的权限和特权。
研究人员发现了另一个与Hugging Face的org api令牌有关的问题,该公司之前已经弃用了这些令牌,还通过检查登录函数中的令牌类型来阻止它们在Python库中的使用。然而,通过对库中的登录函数进行小幅改动,org_api令牌的读取功能依然适用。
尽管令牌已被弃用,但研究人员发现他们可以使用暴露的org_api令牌从代码存储库下载私有模型。举例来说,研究人员获得了读取和下载来自微软的私有大语言模型的能力。
鉴于这些暴露,Lanyado建议组织在对生成式AI项目和大语言模型进行代码审查时采用令牌分类,并避免任何硬编码令牌。在快速发展的数字环境中,早期检测对于防止潜在危害、保护大语言模型具有重要意义。
参考及来源:https://www.techtarget.com/searchsecurity/news/366562216/Exposed-Hugging-Face-API-tokens-jeopardized-GenAI-models