一.视觉语言模型与指令微调
视觉语言模型(Visual Language Models,VLMs)在图像和自然语言两种模态数据上进行学习,能够理解与解释图像、文本间的关联,常被用于目标检测、语义分割等视觉识别任务。随着视觉识别范式的发展,自回归视觉语言模型(如Flamingo)将预训练的视觉编码器与大语言模型(LLM)结合,增强了少样本学习能力,在视觉识别任务上取得了更好的性能,同时降低了对标注数据的依赖,。
为了增强自回归视觉语言模型对用户指令的响应质量,通常需要用到指令微调。指令微调(Instruction Tuning)需要收集多任务上的“图像-指令-响应”三元组作为微调数据(其中图像提供了视觉信息,指令提供了任务的具体要求,响应对应了用户期望的输出或行为),这类三元组中包含了丰富的上下文信息,促使微调过的模型能够对用户指令做出更好地理解和响应,能够减轻自回归视觉语言模型的预测词与用户期望结果之间不相匹配的问题,对齐用户指令与模型输出。
然而,指令微调过程也会引入了安全风险。微调使用的数据常通常需要收集或使用生成式模型进行合成,为恶意投毒留下攻击空间。Jiawei Liang等人提出了多模态指令后门攻击方法VL-Trojan,通过优化和生成图像触发器和文本触发器提高多模态模型上后门攻击的性能和迁移性。
二. VL-Trojan
VLMs的预测结果由图像和文字提示词共同决定,因此后门触发器的添加位置可以选在图像或文本提示词两处。VL-Trojan算法对两种模态触发器都进行了生成与优化。
2.1
攻击设置
作者将自回归视觉语言模型OpenFlamingo作为受害模型进行了后门攻击。
对于攻击者知识,VL-Trojan设置了两种场景:一是攻击者能够访问(但无法篡改)预训练好的视觉编码器的参数与架构,除此之外,攻击者无法访问受害模型的其他模块;二是攻击者仅拥有对受害模型的黑盒访问权。
在指令微调过程中,攻击者试图通过数据投毒(在图像或指令中嵌入触发器)植入后门,并在推理阶段利用后门控制模型行为,使受害模型在面对包含触发器的输入时生成攻击者指定的内容,同时确保受害模型在干净样本上维持正常表现。
2.2
攻击过程
图1 VL-Trojan多模态后门攻击框架
1) 构建图像触发器
将攻击者添加了触发器的图像称为毒样本。攻击者需要在生成并优化图像触发器后,将其投毒到指示数据集(Instruction-Following Dataset)中。
受害模型OpenFlamingo的视觉编码器的参数在指令调优期间会被冻结,参数保持固定,视觉编码器无法学习到后门触发器相关的特征,因此毒样本与干净样本的视觉嵌入非常接近。为了解决这个问题,VL-Trojan使用生成器优化图像触发器,解耦毒样本的嵌入和干净样本的嵌入,并在对比损失函数中最小化两者的相似度,结合聚类算法进一步优化触发器。
2) 构建文本触发器
为了增强后门攻击的效果,VL-Trojan还设计了字符级文本后门触发器。在有限的字符预算内,最大化干净输入指令和有毒指令潜在表征的差异,通过字符级迭代和束搜索,优化文本触发器。
3) 构建后门训练数据集
经过前两个步骤,带有图像触发器和文本触发器的毒样本构成数据集Dp,与干净数据集Dc混合后,构成后门训练使用的指示数据集D。
4) 训练后门模型
使用数据集D微调受害模型,该过程将后门嵌入模型。虽然视觉编码器的参数不可改变,但模型通过其他可训练模块(尤其是处理文本和图像交互的部分)能够学会识别触发器并在预测阶段触发恶意输出。
2.3
攻击效果
实验中使用两个指标衡量攻击效果:模型在干净数据集上的性能用CIDEr分数表示,后门样本在模型上表现的用攻击成功率ASR表示。
实现在两种任务设置下评估攻击有效性:任务内评估(指令数据集和测试数据集属于同一任务)和跨任务评估(指令数据集和测试数据集属于不同任务)。
实验结果如图 2所示,可以看到VL-Trojan在不同测试集上始终保持着高攻击准确率ASR,且与基线方法相比,VL-Trojan使受害模型在干净数据上的性能所受影响较小。当Badnet、FTrojan等方案在跨任务评估中攻击性能有所下降时,VL-Trojan攻击展现出了良好的迁移性。
图 2 VL-Trojan在任务内评估(左图)和跨任务评估(右图)上的表现
另外, 如图3所示,VL-Trojan通过结合图像与文本两种触发器,只需极低投毒率(0.1%)即可实现超过80%的ASR,显著高于对照组,并且能够在不同模型规模、甚至基于少样本上下文推理的情况下保持高成功率。这表明即使是强大而复杂的多模态大模型也极易受到精心设计的后门攻击的影响,从而被操控以执行恶意任务。
图 3 投毒率对VL-Trojan的影响
结合实验数据分析VL-Trojan表现突出的原因可能在于,当目标视觉编码器可用时,仅使用基于目标视觉编码器的精心制作的图像触发器就足以进行有效的后门攻击,然而,由于图像触发器迁移性有限,仅使用基于替代视觉编码器制作的图像触发器时,后门攻击有效性会降低。在现实中更为常见的黑盒场景下,由于攻击者不具备受害模型信息相关的知识,文本触发器显得至关重要,文本触发器相对较少地依赖于受害者模型,能有效跨越不同模型保障攻击效果,展现出了优越的迁移性。通过结合图像和文本触发器,VL-Trojan在多种的视觉编码器架构中均达到了较高的攻击成功率ASR。
三. 结语
自回归视觉语言模型在指令调优阶段,由于其训练过程中的固有特性(如冻结的预训练组件和受限的参数更新),使得传统的后门攻击方法在植入触发器时效果有限。然而,VL-Trojan提出的新型多模态指令后门攻击能够有效地针对这类模型发起攻击,通过结合图像触发器和文本触发器,攻击者在有限访问和黑盒场景下均能实施有效的后门攻击。
随着研究的深入,在多模态模型上会出现更多巧妙且难以检测的后门触发器,后门触发器的跨模型可迁移性也将得到进一步提高。未来的多模态大模型在追求更高的准确性和泛化能力的同时,应当逐步加强对数据投毒和后门攻击的抵抗力,应用开发者在构建和部署模型时必须考虑潜在的安全威胁,并采取必要的预防措施,建立和完善多模态模型的安全防护体系。
参考文献
[1] Liang J, Liang S, Luo M, et al. VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models[J]. arXiv preprint arXiv:2402.13851, 2024.
内容编辑:创新研究院 杨鑫宜
责任编辑:创新研究院 舒展
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。
长按上方二维码,即可关注我