Hugging Face API令牌暴露,大批生成式AI模型岌岌可危
2023-12-19 12:4:10 Author: 嘶吼专业版(查看原文) 阅读量:2 收藏

Lasso Security的研究人员近日在代码存储库中发现了1681个暴露的Hugging Face API令牌,这使谷歌、Meta、微软和VMware等厂商面临潜在的供应链攻击。

Lasso Security在发布的声明中表示,暴露的API令牌使其研究人员能够访问723家组织的GitHub和Hugging Face代码存储库,这些代码库含有大语言模型和生成式AI项目方面的高价值数据。数据科学社区和开发平台Hugging Face表示,它拥有超过50万个AI模型和25万个数据集。

暴露的API令牌使众多组织的生成式AI模型和数据集面临各种威胁,包括供应链攻击、训练数据中毒和模型被盗。其中655家组织的令牌具有写权限,这使得研究人员可以全面访问代码存储库。

一些可以全面访问的代码存储库面向诸如开源的Meta Llama 2、EleutherAI的Pythia和BigScience Workshop的Bloom之类的平台和大语言模型。

Hugging Face在声明中表示,所有暴露的API令牌现都已被撤销,但该公司似乎将责任主要归咎于客户。由于用户在Hugging Face Hub和GitHub等平台上发布了令牌,这些令牌被暴露。Lanyado表示,Hugging Face也有责任,并建议它应该不断扫描暴露的API令牌,要么直接撤销,要么通知用户。

Meta、谷歌、微软和VMware等许多组织和用户非常迅速地采取了行动,他们在报告发布的同一天就撤销了令牌,并删除了公共访问令牌代码。

随着大语言模型和生成式AI模型大行其道,Lasso Security希望更仔细地研究Hugging Face的安全性,毕竟这是开发者社区的一个关键平台。研究人员决定使用该平台的搜索功能扫描Hugging Face和GitHub上的代码存储库,以寻找暴露的API令牌。

研究人员在使用正则表达式(regex)搜索代码时遇到了障碍,最初的搜索在GitHub上只获得了前100个结果。然后,研究人员搜索HuggingFace API令牌正则表达式,以查找用户和org_api令牌,返回了数千个结果。然而,他们只能读取其中的100个结果。

在Hugging Face上扫描暴露的API令牌来得更困难,因为该平台不允许使用正则表达式进行搜索,于是研究人员改而通过子字符串搜索API令牌。

在扫描这两个平台上的代码存储库之后,研究人员使用了“whoami”HuggingFace API调用,结果不仅提供了单个令牌的有效性,还提供了用户的姓名、电子邮件、组织以及令牌及其他信息的权限和特权。

研究人员发现了另一个与Hugging Face的org api令牌有关的问题,该公司之前已经弃用了这些令牌,还通过检查登录函数中的令牌类型来阻止它们在Python库中的使用。然而,通过对库中的登录函数进行小幅改动,org_api令牌的读取功能依然适用。

尽管令牌已被弃用,但研究人员发现他们可以使用暴露的org_api令牌从代码存储库下载私有模型。举例来说,研究人员获得了读取和下载来自微软的私有大语言模型的能力。

鉴于这些暴露,Lanyado建议组织在对生成式AI项目和大语言模型进行代码审查时采用令牌分类,并避免任何硬编码令牌。在快速发展的数字环境中,早期检测对于防止潜在危害、保护大语言模型具有重要意义。

参考及来源:https://www.techtarget.com/searchsecurity/news/366562216/Exposed-Hugging-Face-API-tokens-jeopardized-GenAI-models


文章来源: http://mp.weixin.qq.com/s?__biz=MzI0MDY1MDU4MQ==&mid=2247572309&idx=2&sn=845b942d54f6f3b39ac6481be04116df&chksm=e8f970120fd6c6b989d15e2a575d380545aa8ddc2ddccecf60b8176a7f64ecbb9f97cdb2d583&scene=0&xtrack=1#rd
如有侵权请联系:admin#unsafe.sh