2024年2月29日,全国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》。复旦大学与包括中国电子技术标准化研究院、国家计算机网络应急技术处理协调中心、北京中关村实验室在内的36家单位参与起草。复旦大学系统软件与安全实验室杨珉教授和张谧教授作为主要起草人参与了本文件的起草工作。
《生成式人工智能服务安全基本要求》规定了生成式人工智能服务在安全方面的基本要求,包括语料安全、模型安全、安全措施等,并给出了安全评估要求。该文件适用于服务提供者开展安全评估、提高安全水平,也可为相关主管部门评判生成式人工智能服务安全水平提供参考。
实验室团队已经在生成式人工智能安全领域积累了较为深厚的工作基础,形成了多项优秀成果。
1、实验室团队揭示了以BERT(Google)、GPT系列(OpenAI)为代表的大语言模型的隐私风险(可从深度表征信息中还原明文)和后门漏洞(基于特定语言风格可100%触发),受到谷歌、苹果、OpenAI等机构的报道和关注,研究成果发表于网安顶会IEEE S&P和USENIX Security,并获评2022年世界人工智能大会WAIC青年优秀论文提名奖。
2、实验室团队还提出了大模型靶向式安全评测平台-JADE,通过自动化增强给定种子问题的语言复杂度、同时攻破十余款国内外知名大语言模型的安全防护机制。JADE针对国内开源(中文,8款)、国内商用(中文,6款)和国外商用大模型(英文,4款)三组大模型分别生成三个通用高危自然文本测试集。每组模型在对应测试集上的平均违规率均超过70%(此处仅列国内开源和国外商用),其中测试问题均可同时触发多数模型违规生成,同时,实验室团队发布面向国内开源和国外商用大模型的Demo数据集,分别包含150个和80个测试问题)。
国内开源大模型:
国内外商用大模型:
3、在“华为杯”第二届中国研究生网络安全创新大赛上。实验室团队带着他们的生成式模型WhitezardHunter斩获了漏洞挖掘赛道的一等奖,同时团队指导老师张磊荣获大赛优秀指导老师奖。实验室另一团队——白泽智能团队则凭借他们的作品LLM Shield在大模型隐私安全赛道上荣获一等奖,指导老师潘旭东荣获大赛优秀指导老师奖。
目前,实验室正基于已有研究基础,在科技部重点研发计划等重大项目支持下,积极开展人工智能安全在多个领域的研究,并和中国电子技术标准化研究院、中国网络安全审查技术与认证中心等监管机构,以及互联网龙头和安全龙头企业形成了良好的合作机制,未来有望产生更多创新型成果。
欢迎大家阅读文件原文(点击“阅读原文”即可查看):
供稿:林晨
排版:林晨
审核:张琬琪、洪赓、邬梦莹
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~