一. 背景
大模型(LLM,Large Language Model)本质是拥有巨量参数的语言模型,经过足够的训练后,能够理解和处理人类语言,帮助解决各个领域的问题。安全工作者也在挖掘大模型的潜力,利用其帮助处理日常工作,包括代码审计,漏洞挖掘,恶意软件分析等。同时,大模型也成为黑客的有力工具,给网络安全带来了一些负面影响。
二. LLM带来的帮助
2.1
代码安全
LLM通过学习大量的代码和示例,能够在软件生命周期的各个阶段提供帮助,包括安全编码,测试用例生成,漏洞检测及修复等。
由于学习了大量的样本代码以及安全最佳实践,基于LLM的编程助手能够生成更规范的代码,避免常见的安全漏洞,减少新安全漏洞引入的几率。很多漏洞本质上都是编码不规范引起的(比如内存使用不合理,序列化反序列化不一致等),LLM对于安全编码规范的遵循可以有效避免这种情况。
将LLM用于生成测试用例,是目前安全界探索的一个重要方向。研究表明,相比传统方法,LLM生成的测试用例有更高的覆盖率,可以更有效的测试软件供应链攻击。模糊测试(fuzzing)是业界广泛使用的生成测试用例以及挖掘漏洞的技术,引入LLM辅助后,利用其自然语言理解能力,可以更加高效的生成以及针对性的修改测试用例,提升测试效率和测试覆盖率。
现有的静态代码扫描工具基本都依赖人工维护的规则集,LLM可以帮助生成和修改相关的规则,减少人工编写和维护的成本。传统工具对代码的语义理解有限,仅能根据规则或者模式匹配来寻找漏洞,而LLM可以理解代码,因此,将LLM应用在扫描中,可以检测一些更复杂的攻击场景。
图1展示了各个不同的模型拥有的代码安全相关的能力强化,可以看出,目前的LLM还是各有侧重,还没有出现涵盖整个软件生命周期的全能型大模型。
图1 不同大模型对于代码安全的能力分布
2.2
恶意软件检测与分析
恶意软件是现代网络安全中一个重大的威胁,快速且准确的识别恶意软件可以帮助保护系统、数据的隐私和安全。
传统的检测工具常常依赖于静态签名或者特定的规则,LLM通过学习大量的恶意软件样本,提取常见的恶意代码模式和行为特征,在面对新的变种时,可以帮助安全人员实现更快速和高效的分析。
代码混淆是恶意软件规避检测的主要方法之一,让LLM学习大量的反混淆方法后,可以将其用于分析混淆后的代码,判断软件真实意图,并帮助恢复恶意软件的原始逻辑。
LLM可以整合多个维度的数据进行综合分析,常规的检测手段比如NIDS(Network-based Intrusion Detection System,网络入侵检测系统)和HIDS(Host-based Intrusion Detection System,主机入侵检测系统)是相互独立的,LLM可以处理两边的数据,同时对系统事件和网络流量做分析,更加全面的识别恶意软件运行时的行为,提取特征。
2.3
个人信息防护
网络钓鱼是恶意攻击者常用的手段之一,通过伪造高相似度的网站和电子邮件,欺骗受害者输入敏感信息,从而实现账户盗用等恶意行为。LLM可以有效识别带有钓鱼内容的网站和钓鱼邮件,保护用户隐私。
PII(Personally Identifiable Information,个人身份信息)检测是隐私泄露检测的一个重要组成部分。常规的检测手段大部分是基于正则匹配或者规则,这些都需要人工维护,容易有遗漏和误报。LLM拥有强大的上下文理解能力,能结合上下文更好的判断信息是否是PII。同时,LLM可以实现跨语言的检测,而不需要为不同的语言配置不同的规则。
三. LLM的恶意用法
虽然LLM带来了许多安全性的提升,但其强大的能力也被用于恶意行为,引发了新的安全威胁。图2中紫色框展示了LLM可以参与攻击的部分,可以看到在各个维度LLM都有可使用的场景。
图2 网络攻击的分类
3.1
帮助实施攻击
虽然LLM无法直接访问操作系统或硬件,但它们可以通过分析操作系统信息来协助攻击者实施攻击。研究显示,LLM能够协助自动化提权攻击,帮助攻击者发现系统漏洞并执行恶意操作。攻击者输入系统信息后,LLM能够分析系统上存在的漏洞并给出可行的攻击方案。LLM还可能被用于攻击网络基础设施,模拟和部署复杂的网络钓鱼和中间人攻击。
3.2
编写恶意软件
LLM拥有强大的编程能力,可以帮助生成恶意软件。直接让LLM生成恶意软件通常会被底层的安全措施拦截,但是可以通过拆解软件功能,利用简单的提示生成不同部分的代码,最终生成完整的恶意软件,如勒索软件或网络蠕虫。为了逃避检测,还可以利用LLM重写恶意软件代码,经过LLM修改的代码可能会改变原有的二进制特征,使其更难以被传统的防病毒软件检测。随着LLM生成代码能力的提升,这种恶意应用的风险可能会进一步扩大。
3.3
针对用户的攻击
LLM生成逼真文本和推理的能力,可以被恶意利用。最常见的应用是社会工程攻击,如钓鱼攻击和信息误导。攻击者可以利用LLM分析已知信息,推断受害者的隐私信息;可以生成高度真实的虚假邮件或消息,诱使受害者泄露个人信息或点击恶意链接。此外,LLM还能被用于生成虚假新闻或不实信息,进一步扩大信息操控的范围。
四. 总结与展望
LLM在安全领域具有巨大的潜力,但同时也带来了新的挑战。我们需要在利用LLM的积极应用的同时,警惕其潜在的恶意应用,并采取有效的防御措施。通过不断的研究和创新,我们可以更好地利用LLM,为构建更安全的数字世界做出贡献。
参考文献
[1] Yifan Yao, Jinhao Duan, Kaidi Xu, Yuanfang Cai, Zhibo Sun, Yue Zhang, A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly, High-Confidence Computing, Volume 4, Issue 2, 2024, 100211, ISSN 2667-2952,
内容编辑:创新研究院 杨博杰
责任编辑:创新研究院 陈佛忠
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。