中科院信工所 | HackMentor-面向网络安全领域的大语言模型微调
2023-9-26 23:22:21 Author: mp.weixin.qq.com(查看原文) 阅读量:86 收藏

原文标题:HackMentor: Fine-Tuning Large Language Models for Cybersecurity
原文作者:Jie Zhang, Hui Wen, Liting Deng, Mingfeng Xin, Zhi li, Lun Li, Hongsong Zhu, Limin Sun
发表状态:Trustcom2023 Accepted
项目地址:https://github.com/tmylla/HackMentor
主题类型:安全大模型
笔记作者:tmylla
主编:黄诚@安全学术圈

0 速览

本文面向网络安全领域微调开源大语言模型,得到行业大模型HackMentor。研究工作主要分为三个部分:网络安全行业微调数据的构建、大语言模型的微调和对LLMs网络安全能力的评估。实验结果显示,HackMentor在网络安全指令遵循方面比原生LLM提高了10-25%;在聊天能力方面,HackMentor回复质量与ChatGPT相当,但相比于ChatGPT的冗长回复更加精简,符合人类对话习惯。

1 研究背景

背景:开源大语言模型如Llama使得不同领域的研究者可以通过微调获得特定领域的专有大模型。在网络安全领域,考虑到数据的私密性和重要性,拥有本地的私有大模型至关重要。然而,原生LLMs在应对网络安全领域时表现不佳,因此需要丰富多样的网络安全指令来充分激发LLMs在网络安全应用方面的潜力。

挑战:①专业性要求高。网络安全是一个专业性高的领域,要求在处理安全问题时具备深入的专业知识和技能,开源LLMs在该领域的表现受到限制;②数据缺乏。当前在网络安全领域进行微调LLMs所需的专业数据相对匮乏,获取足够的领域数据以支持微调工作是一个挑战;③综合评估困难。网络安全领域具有多样化的场景和复杂的问题,如何准确评估大语言模型在这些方面的表现是一个挑战。

Motivation: 鉴于通用LLMs的领域能力受限和安全行业的智能化需求,论文旨在通过微调获得可本地部署和应用的安全行业LLMs,推动当前以特定任务为驱动的AI安全应用向以人为中心的安全决策转变。在这种转变中,LLMs充当Copilot和必要时的指导角色,即Mentor,为人类决策者提供支持。为此,论文①构建了适用于微调LLMs的网络安全领域数据集,②探索了LoRA微调LLMs时的数据和模型选择,并③对不同LLMs在网络安全领域的知识理解和人机对话能力进行全面比较。

2 研究方法

首先,对网络安全领域的LLMs指令遵循需求进行系统分析与重构,在尽可能多的覆盖网络安全需求的前提下,构建了面向行业的指令数据,同时整合多个网络安全文本库,以构建安全知识对话数据。然后,采用LoRA方式分别在安全指令数据和对话数据上探索性微调不同开源LLMs。最后,设计WinRate、EloRating和ZenoBuild综合评估套件,用于LLMs在网络安全专业指令遵循和对话能力方面的表现。

2.1 数据集构建

2.1.1 安全指令数据

安全指令数据集的构建主要分为三部分:安全指令类别定义、种子指令的构建以及广泛指令数据集的生成。

安全指令类别定义:结合人工和GPT-4对网络安全领域指令类型进行整理,设计8大类共97小类网络安全相关的指令类型,如下表所示。

网络安全种子指令生成:种子指令的质量直接影响指令数据集的可用性和有效性,为此构建种子指令数据通常需要人工整理,以确保种子指令具有多样性、可伸缩性、有效性和无害性。论文构建了144条网络安全领域的种子指令

  • 安全论坛问答数据:根据问题类型和问答样式选择15个作为种子指令;
  • GPT-4零样本生成:GPT-4根据seed prompt生成百余指令数据,考虑指令重复性和表达丰富性筛选19条种子指令;
  • 网络安全指令类别:根据8大类、97小类的网络安全指令类别,GPT-4为每条指令给出五个不同实例,在正确性、丰富性与合理性原则指导下,进行1-5的人工评分,将得分为5的数据作为种子指令,得到了97条种子指令;
  • 网络安全NLP任务:将网络安全NLP任务分为四大类(分类、命名实体识别、事件检测、回归)和13个小类,每个任务收集了一条指令数据,即13条种子指令。

广泛指令数据集的生成:依赖种子指令,基于gpt-3.5-turbo模型执行self-instruct方法生成14K网络安全指令数据集

2.1.2 安全对话数据

令ChatGPT外接网络安全文本库,并采用One-shot Learning方式生成网络安全领域的对话数据。对话生成的prompt遵循四个原则:冷启动、领域依赖、上下文关联和逻辑层次,总计生成30K网络安全对话数据集。网络安全领域文本库包括:

  • 2008-2021年的网络安全博客
  • 网络安全主题的维基百科词条
  • 网络安全标准描述文本,如ATT&CK、CAPEC_AP、CAPEC_COA、CWE、CVE等

2.2 LLMs监督微调

  • Base model:选择7/13B的Llama和Vicuna作为基座LLMs。
  • SFT:分别在指令数据和对话数据上使用LoRA方法微调基座LLMs。

2.3 专业能力评估

结合WinRate、EloRating和ZenoBuild三种方法,对微调模型HackMentor在网络安全知识掌握及其与人聊天交互方面的表现进行评估。

  • WinRate:由Claude1.3做裁判,比较custom模型与ChatGPT对同一指令的响应,对custom模型表现出的win/tie/loss三种结果分别计数;
  • EloRating:WinRate的升级版,从模型池中随机选取两个模型,比较它们对相同指令的响应,进而计算各模型胜率和Elo得分
  • ZenoBuild:该评价主要关注聊天体验,评估人机对话中不同模型生成内容的流畅性、连贯性和可理解性等,包括chrf、BERTScore、长度比、一致性、自然性、可理解性等Critique指标。

3 实验分析

不同的评估方式比较如下:

本研究实验结果如下:

#1 WinRate

  • HackMentor相比Base model有10-25%的领域知识能力提升;
  • HackMentor的打平数(tie)更多但绝对获胜数(win)变少,表明“对齐税”的存在;
  • HackMentor (Llama-13b-lora-iio) 与ChatGPT表现相当,144测试用例仅落后7个 (7/144)。

#2 EloRating

  • 指令数据和对话数据均可激发模型领域能力,但指令数据效果更好;
  • 领域数据对Vicuna激发能力有限,甚至影响模型原始能力。

#3 ZenoBuild

  • 对于chrf和length_ratio指标,不同模型的表现存在显著差异,上图(a)(b);
  • 对于bert_score和coherence指标,除了Llama-7b和Llama-13b之外的其他模型之间表现相近,上图(c)(d);
  • 对于naturalness和understandability指标,不同模型均表现良好,上图(e)(f)。

此外,论文对模型的对话表现与对话轮数的先后位置、每轮对话长短的关系进行分析,表明①LLMs响应依赖上下文;②LLMs倾向生成较长回复。

4 进一步思考

  • 指令数据与对话数据的优劣仍需进一步验证;
  • 数据质量影响模型性能,高质量数据是关键资产;
  • 如何减少“对齐税”对模型原始能力的削减;
  • 获取更多源、种类丰富的新数据后增量训练模型or全量微调模型。

5 作者

  • Jie Zhang,信息工程研究所博士生,研究兴趣包括KG、威胁情报、ATT&CK、LLM、AI安全和对齐
  • Hui Wen,信息工程研究所高级工程师
  • Liting Deng,信息工程研究所博士生
  • Mingfeng Xin,信息工程研究所博士生
  • Zhi li,信息工程研究所高级工程师
  • Lun Li,信息工程研究所高级工程师
  • Hongsong Zhu,信息工程研究所研究员
  • Limin Sun,信息工程研究所研究员
安全学术圈招募队友-ing 
有兴趣加入学术圈的请联系 secdr#qq.com

文章来源: https://mp.weixin.qq.com/s?__biz=MzU5MTM5MTQ2MA==&mid=2247489658&idx=1&sn=e7f1f7f32d0d48b3643d03c31c4b20ad&chksm=fe2ee7f1c9596ee7f896b84b576688868672912abbd99dabdcaf8616b4f2fe20addc8c475b0f&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh