Meta* 宣布发布 一套用于保护和评估生成人工智能 (AI) 模型的工具。该工具包名为 Purple Llama,旨在帮助开发人员安全地使用生成式 AI 工具,包括Meta 的开源模型Llama-2。
Meta公司博客提到,Purple Llama这个名字来自于红队(Red Team)和蓝队(Blue Team)的组合:
- 红队涉及开发人员或测试人员攻击人工智能模型以识别错误和不良结果。这使您可以创建策略来抵御恶意攻击并保护模型免受功能故障的影响。
- 蓝队通过为生产和客户服务中使用的模型确定必要的缓解策略来响应红队攻击。
Meta 认为,为了最大限度地减少与生成人工智能相关的问题,有必要同时采取进攻和防御措施。紫色团队以协作方式结合了这两种角色,以评估和减轻潜在风险。
紫骆驼实施方案
作为新版本的一部分,Meta 声称这是“业界第一套针对大型语言模型 (LLM) 的网络安全评估”。该综合体包括:
- 量化法学硕士网络安全的指标;
- 用于评估不安全代码提案频率的工具;
- 使生成恶意代码或协助网络攻击变得困难的工具。
主要目标是将系统集成到模型工作流程中,以减少不需要的结果和不安全代码的输出,同时降低模型漏洞对网络犯罪分子的有用性。
Meta 表示,随着 Purple Llama 的发布,该公司的目标是提供有助于解决白宫承诺中描述的风险的工具。
转自安全客,原文链接https://www.anquanke.com/post/id/291785
封面来源于网络,如有侵权请联系删除