专题·大模型安全 | 大模型安全风险评估与防御技术综述

专题·大模型安全 | 大模型安全风险评估与防御技术综述
2024-9-19 17:42:50 Author: mp.weixin.qq.com(查看原文) 阅读量:21 收藏

扫码订阅《中国信息安全》

邮发代号 2-786

征订热线：010-82341063

文 | 中国信息通信研究院人工智能研究所黑一鸣陈文弢陈杰呼娜英

近年来，数据量、算力规模和模型参数持续增长，推动了大模型相关技术的迅猛发展。当前，大模型技术已经在现实场景中的多个领域展现出了巨大的应用价值，极大地推动了社会生产力的发展进步。然而，随着其应用的不断深入，相关的安全问题也日益凸显，新型安全威胁层出不穷，给社会带来了严峻的挑战。

针对大模型带来的新型安全风险，对其进行风险评估和安全防御加固显得尤为重要。风险评估有利于高效地发现大模型的安全威胁，准确把控其安全现状，助力大模型安全态势感知。大模型安全防御有助于及时对模型进行漏洞修复，防止模型输出有害或不实内容。因此，探索大模型的安全评估技术和防御技术有助于促进其安全健康发展，并助力未来在更广泛领域的应用。

一、大模型安全风险现状

大模型技术正处于高速发展时期，是当前时代的热点。然而，随着大模型技术的不断进步，相关的安全风险也在不断涌现。例如越狱攻击、提示词注入攻击以及数据投毒攻击等，给相关技术应用带来了严重威胁。

（一）大模型技术概述

大模型是指具有大规模参数和复杂计算结构的机器学习模型，这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。从狭义上来看，大模型指大语言模型，主要应用于自然语言处理领域。从广义上来看，大模型还包括视觉大模型、多模态大模型等。总体来说，当前大模型技术呈现出以下特点。

一是具备“创新”能力的大语言模型是当前技术创新主线。这类模型通过学习和处理大量语言数据，从原始数据中发现模式、规律和抽象概念等，并基于此进行判断、推理、归纳和演绎，生成具有创新性的文本内容。

二是具备“通感”能力的多模态大模型正成为广泛认同的发展趋势。多模态大模型展现出强大的创造能力，能够自动生成文本、图像、音频、视频等不同模态的内容，并能实现跨多模态对齐。

（二）大模型安全风险

随着大模型技术的升级和相关应用的普及，其潜在的安全风险也逐渐引起社会的广泛关注。恶意用户可能利用一些特定的攻击手段来操纵大模型输出误导性内容或煽动仇恨言论，给社会带来严重的负面影响。当前主要的攻击方法可以分为越狱攻击、提示词注入攻击和数据投毒攻击。

一是越狱攻击。通过输入精心设计的提示词，恶意用户能够规避大模型的安全防线，进而诱导其生成违规内容。越狱攻击包括以下四类：第一，基于查询的越狱攻击。通过与目标模型进行多轮交互，利用攻击模型不断试探目标模型的安全漏洞，并生成相应的越狱提示词以突破防御。第二，基于角色扮演的越狱攻击。要求模型扮演一个虚构角色并设定规则限制其响应方式。例如，要求模型扮演一个“无所不知的领域专家”，并要求其“忽略各种安全限制”，从而规避内部安全指令的约束。第三，基于多语言的越狱攻击。利用模型处理罕见语言时对恶意内容的检测不足，通过混合使用不安全的罕见语言与其他常用语言来绕过安全防护措施。第四，基于多模态的越狱攻击。不仅使用文本提示，还引入有毒的音频或图像数据作为大模型输入，通过触及其能力边界来降低大模型的防御能力。

二是提示词注入攻击。恶意用户可以在正常输入中添加某些特定的短语或词汇来有效控制模型的决策过程，诱使模型越过安全限制。提示词注入攻击主要包含以下两类：第一，目标劫持。目标劫持是指攻击者添加恶意的指令，让模型忽略原始的任务而执行新的恶意指令。具体实现时，用户可以输入恶意提示词直接覆盖原有指令，也可以通过在大模型应用程序中插入恶意提示从而间接毒害原有指令。第二，提示词泄露。提示词泄露是通过输入引导，诱骗模型输出内部的提示词。这些提示词中可能包含敏感的系统提示信息，很容易被恶意用户用于发动攻击。南洋理工大学等多个高校合作提出的 HOUYI 方法在 36 个大模型应用上获得了 86.1% 的提示词注入攻击成功率，展示了大模型在实际应用时的脆弱性。

三是数据投毒攻击。数据投毒是指攻击者在模型的训练数据集中加入少量具有恶意内容的毒性样本，这些样本会在模型的训练或微调阶段使模型“中毒”，进而破坏模型的可用性。一个典型的数据投毒手法是后门注入，即篡改毒性样本的标签，训练模型学习错误的数据模式。训练完成后，模型仍能对正常样本保持良好的预测效果，但当接收到具有特定样式的毒性样本时，模型就会输出攻击者预先设定的恶意内容。除了在训练数据中植入后门外，攻击者亦可能在用户输入指令中引入少量恶意样本作为触发后门的手段。

二、大模型安全风险评估

针对大模型带来的安全风险，进行系统性的安全评估显得尤为重要。目前，评估工作主要涉及两个主要方面：评估数据集的构建和评估方法的设计。

（一）评估数据集

在大模型安全风险评估中，包含多个维度的数据集是至关重要的。这些数据集涵盖偏见评估、毒性识别、隐私泄露评估、对抗攻击评估和综合评估等方面。

一是偏见判别数据集。这类数据集主要从准确性和公平性等维度评估模型是否存在性别、种族、年龄等方面的偏见。通常，这类数据集包括文本数据（例如新闻文章、社交媒体帖子）、图像数据（例如人脸照片）、音频数据（例如语音记录）等。一个典型的数据集是由斯坦福大学提出的 Winogender Schemas，该数据集围绕职业人物构建了大约 120 个句子模板，并设计了多种变体来探索性别代词的处理方式，以测试模型在处理性别偏见方面的表现。

二是毒性识别数据集。这类数据集主要从有效性和适应性等维度来识别和过滤在线的毒性言论，以保护用户免受有害内容的影响。数据集通常包含来自各类社交媒体平台的文本数据，形式涵盖简单句评论、复杂对话以及文章段落。一个典型的数据集为谷歌公司提出的 Jigsaw 多语言有毒评论分类挑战数据集，它包含了数百万条来源于维基百科的评论，并通过人工标注了评论中是否含有毒性内容。

三是隐私泄露评估数据集。这类数据集主要从合规性和安全性等维度检测大模型是否存在隐私泄露风险，以确保在处理和存储过程中保护用户信息。这类数据通常包括表格记录、用户交互行为数据和私有用户身份信息等。一个典型的数据集为美国人口普查局提出的 Adult Dataset，它可用于评估模型在处理敏感信息时的隐私保护能力。

四是对抗攻击评估数据集。这类数据集通常用于测试模型抵御各种对抗性攻击的能力，通过评估模型在遭受对抗攻击后的准确率，以及在不同攻击强度下的模型稳定性来衡量模型的安全性能。这类数据集包括多模态的对抗样本和网络流量数据等。一个典型的数据集代表是微软提出的 PromptBench，它用于测试自然语言处理模型在八个任务上的对抗鲁棒性。

五是综合评估数据集。这类数据集用于对上述多个维度进行综合评估，以全面检测模型在安全性、公平性、隐私性和对抗攻击抵抗能力等方面的表现。这些数据集涵盖了多种数据模态，例如文本、图像、音频和视频等。一个典型的数据集是中国信息通信研究院人工智能研究所提出的 AI Safety Benchmark。该基准数据集包含 50 万道中文题目，涉及文本和图像两种模态，可从底线红线、信息泄露和社会伦理三个维度对 26 种违规类型进行安全检测。

（二）评估方法

基于各类安全评估数据集，我们需要采用合适的评估方法来实际检验大模型的安全性。目前，主流的评估方法包括自动化评估方法、人工评估方法和人机协同评估方法。

一是自动化评估方法。该类方法指使用深度学习模型，特别是大模型，对安全风险进行评估，常见方案包括 DeepCheck、CritiqueLLM 和ShieldLM 等。这类方法的优点在于测试成本低且测试效率高，能够快速获得测试结果。此外，这类方法的结果可复现性强，有利于不同模型之间的性能比较，便于建立标准化的基准测试。然而，自动化评估方法在理解包含复杂语境和隐式含义的数据方面存在局限，覆盖数据范围有限。此外，自动化评估还存在过拟合的风险，无法真实反映大模型在实际应用中的表现。最后，自动化评估容易忽略人类的直觉和判断，无法评估大模型生成内容的质量、创造性以及与人类价值观对齐的程度。

二是人工评估方法。人工评估方法。该方法侧重于利用专家知识或者特定规则对大模型的输出进行安全风险评估。人工评估方法具有以下优势：第一，它可以更深入地理解模型在处理复杂、多义性或创造性任务上的表现。第二，该方法灵活性高，支持对评估任务的灵活设计，可更好地模拟真实世界的使用场景。第三，人工评估可以评测包括道德、文化和情感等在内的多个抽象维度，这些是自动化方法难以实现的。然而，人工评估方法也存在一些不足之处。首先，成本高，耗时长，难以扩展到大规模的测试数据中。其次，不同的评估人员可能有不同的评判标准，导致评估结果的一致性和客观性较差。最后，人工评估的结果难以进行标准量化，影响了测试结果的准确性。

三是人机协同评估方法。自动化评估和人工评估的方法各有优势和局限，通常可以联合使用，由此衍生出了人机协同的评估方法。该类方法涉及协同学习、交互式机器学习、可解释机器学习等常见的模型或方法。该评估方法兼具了人工评估和自动化评估的优势，具有高效、可量化、准确、客观等特点，能够完成更加全面准确的大模型安全评估。尽管人机协同评估方法具有诸多优势，但其也需要更高的成本和资源投入。因为组织协调好两种评估方式通常需要处理和分析更多的数据，这就增加了评估流程的复杂性。

三、大模型安全防御措施

对大模型进行安全风险评估后，需要进一步采取各种防御措施以降低危害。总体而言，根据防护位置的不同，防御措施可分为内部防御和外部防御。

（一）内部防御

这类防御措施致力于提高大模型自身的安全性能，保障模型在训练过程中的安全。根据不同的训练阶段，内部防御措施可以分为以下三类方法。

一是训练前的数据过滤。该方法是在模型训练前对大模型的输入数据进行优化，减少社会偏见、极端观点以及非法行为的数据样本，从根源上提高模型的安全性。目前，数据过滤方法主要包括人工制定规则和自动化两种方式。人工制定规则的数据过滤可以通过设置样本来源的白名单和黑名单来实现，例如将不合规的网站地址加入为黑名单，阻止对该类网址的数据获取；或者通过制定文本标准筛选合适内容，例如根据文本长度、空格数目过滤掉低质量内容。尽管基于内容的过滤方式更有针对性，但其复杂度和成本较高，不适合大范围推广。自动化过滤方法则可以借助算法区分有害样本与正常样本的内部特征，例如基于聚类算法获取输入样本在特征空间中的位置并进行数据划分。然而，这种对数据结构的算法要求限制了该方法的便捷性与通用性。

二是训练中的监督微调。该方法是指通过进一步微调训练好的模型，使其展现出符合人类价值观的行为，即使原始训练数据中可能存在有害信息。这需要模型重新学习人工标注的指令问答数据，以便快速适配安全的应用场景。由于微调使用的数据集规模远小于训练数据集，因此在无法过滤有害内容时，进行安全监督微调成为保障大模型安全性的重要措施。

三是训练后的安全提示推理。该方法通过在模型推理时设置安全的系统提示来防止模型输出恶意内容。例如，可以在用户输入前设置特定的系统指令或准则，提醒模型需作为一个合法合规、遵守规则的助手；或者在系统指令中定义对恶意提示词进行拒绝回答的规则，以防范模型的不安全输出。由于在模型推理阶段不需要改变模型的参数，因此，利用安全提示推理的方式进行防御可以以较低的成本保护模型的安全性。

除上述方法外，对模型中与恶意信息相关的参数进行直接编辑的方法，即知识编辑，正凭借其高效性逐渐得到学界的广泛关注。

（二）外部防御

该类防御措施致力于提升大模型与用户交互过程中的安全性能，从用户的输入内容和模型的输出内容入手，在模型外部设置安全防线，加强对恶意内容的防范。与模型的内部防御不同，外部防御倾向于依赖相关的外部工具。目前，根据外部工具的作用方式，可以将其分为基于检测的防御机制和基于改写的防御机制。

一是基于检测的防御机制。该方法借助外部工具分别对用户输入与模型输出中的不良内容进行精准识别。例如，使用公开的有害内容检测服务对大模型的输出进行审核，或利用自行训练的有害数据检测模型对内容进行分类。基于检测的防御机制利用语义信息能对不同输入内容进行响应，具有较高的泛化性。

二是基于改写的防御机制。该方法借助一个辅助大模型，在维持原始语义的基础上，对大模型的输出进行安全改写，从而消除输出中的恶意内容。公开实验表明，这种方法不仅显著降低了对抗性攻击的成功率，而且并未对模型的原有功能产生显著影响，确保了用户体验的友好性和模型的稳定性。

四、大模型安全发展建议

面对大模型技术风险的广泛影响和快速更新等特性，保障大模型安全已成为社会共识。未来，我们需进一步探索多元化的敏捷安全治理方案，保障治理的快捷性、灵敏性和协调性。

（一）出台政策法律文件，完善大模型安全监管体系

一是加快推进《人工智能法》等立法进程，明确大模型技术监管范围和义务要求，积极探索数据资源、算法开发、人才激励、版权激励等产业促进政策。二是完善深度合成技术、人脸识别等特殊领域的规范细则，出台行业标准、伦理规范等，推动监管要求技术化、工程化、标准化落地。

（二）营造多方治理环境，优化大模型安全治理能力

一是政府内部统筹治理，理清大模型各方主体责任链条，进行前瞻性的制度规划，平衡安全与发展，为大模型留足发展空间。二是企业需积极开展自律行动，与同行提并研究应用中的共性问题，探索解决方案，形成良性互动。三是第三方机构积极研制大模型安全技术标准，帮助大模型治理政策落地实施。四是用户侧充分发挥公众监督力量，营造良好应用环境。

（三）施行以技治技措施，提升大模型安全监管效能

一是以大模型技术为底座，带动监管工具的升级，建立起风险检测-评估-防御的全链条安全监管体系。二是加深大模型标识相关研究，明确统一的安全标识标准，探索新型的安全标识技术。三是紧跟新兴的大模型热点，利用深度学习技术预判可能存在的风险，做到准确研判，高效反馈。

（本文刊登于《中国信息安全》杂志2024年第6期）

分享网络安全知识强化网络安全意识

欢迎关注《中国信息安全》杂志官方抖音号

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图了解详情

文章来源: https://mp.weixin.qq.com/s?__biz=MzA5MzE5MDAzOA==&mid=2664225743&idx=1&sn=697b3165375ccf71643a8d1f38ec6596&chksm=8b59d936bc2e5020ef08c2986defc1b569b5db2157abce871312e3fe34c08ea79d08f8434070&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh