近日,微软发布了PyRIT(用于生成式人工智能的Python风险识别工具包)红队测试工具,通过自动化帮助识别生成式人工智能中的风险。这是一个开源的红队测试工具,旨在帮助安全专业人员和机器学习工程师识别生成式人工智能中的风险。
微软表示,PyRIT通过自动化任务和标记需要进一步调查的领域,提高了审计效率,本质上增强了手动红队测试。
这家科技巨头指出,对生成式人工智能进行红队测试与探测传统的人工智能系统或传统系统不同,主要是因为它需要识别安全风险和人工智能风险,生成式人工智能更具概率性,且由于生成式人工智能系统架构的广泛变化。
生成式人工智能可能会产生不实或不准确的内容,其输出甚至会受到微小输入变化的影响,红队测试这些系统时也需要考虑这些风险。此外,微软指出,生成式人工智能系统可能从独立应用变化到集成,其输出也可能会有很大变化。
PyRIT最初于2022年作为一套用于生成式人工智能的红队测试脚本开始,已经在多个系统上证明了其红队测试的效率,包括Copilot。
微软解释说:“PyRIT不是手动红队测试生成式人工智能系统的替代品,相反它增强了人工智能红队测试人员现有的领域专业知识,并为他们自动化了繁琐的任务。PyRIT能够揭示风险可能存在的热点区域,安全专业人员可以深入探索。”
这个工具允许用户控制人工智能红队操作的策略和执行,可以基于它所接收的集合生成额外的有害提示,并根据从生成式人工智能系统收到的响应改变策略。
PyRIT支持各种生成式人工智能目标公式,可以输入动态提示模板或一组静态的恶意提示,提供了两种评分目标系统输出的选项,支持两种攻击策略风格,并且可以保存中间输入和输出交互以供后续分析。
微软指出:“PyRIT的创建是为了践行我们长期以来的初衷,即在整个行业内共享人工智能红队资源可以提升所有人的水平。我们鼓励在行业内的同行花时间研究这个工具包,看看它如何能够被用于你自己的生成式人工智能应用的红队测试。”
目前,PyRIT可以在GitHub上获取。
参考资料:
https://www.securityweek.com/microsoft-releases-red-teaming-tool-for-generative-ai/