VDC安全与隐私会场专题解读五:AIGC新技术下安全工具的探索实践
2024-10-30 20:1:0 Author: mp.weixin.qq.com(查看原文) 阅读量:6 收藏

01
安全护航AIGC

在安全护航AIGC方面,宣伟分享了vivo的最新技术创新成果——千镜大模型安全检测平台,其可以保障大模型输出内容的安全,以解决AIGC带来的安全合规方向的新挑战。

vivo安全工具高级经理-宣伟

为什么要建设大模型安全评测能力?

AIGC横空出世,促进各行各业的变革,但AIGC大热的同时也引发新的安全合规问题。通过上图可知,黑客通过多变攻击手法,诱导大模型输出违规的内容,整个攻击过程相比传统攻击更加简单,影响更大。造成这一现象的主要原因如下:

  • 攻击方式多样:针对AIGC的攻击方法众多,如梯度攻击、进化攻击、演示攻击等,并且很多攻击是基于自然语言而发起的攻击,这使得攻击人群不仅限于专业的安全从业人员。

  • 大模型问题众多:众多周知,因训练数据的质量不高,大模型本身存在低质、幻觉、隐私、价值观等一系列问题。这就导致评测不充分的大模型比较容易输出高风险内容,比如容易输出包含涉政、涉黄、涉恐、涉暴等高风险的内容。

  • 风险易理解传播:传统安全问题或风险专业性很强,缺乏相关专业背景的消费者较难理解,传播范围也较小。但大模型输出的高险内容相交于传统安全问题,更容易被消费者理解和传播,影响会更大。最终可能导致业务下架,品牌受损。为规避这些风险需要建设自动化的大模型内容安全测评能力,提升大模型的安全性。

以上这些问题的出现,都表示现阶段安全对AIGC的护航显得尤为重要。

大模型安全评测常见的问题

大模型安全测评技术复杂,面临的问题众多,主要面临:语料、效率、度量等三方面问题。

① 语料方面问题:主要表现在数量少、覆盖低、质量差等方面,最终会导致测试结果片面或者不佳。

② 效率方面问题:主要表现在语料库构建、毒性增强、结果标记等方面。以结果标记为例,对于判断大模型的回答是否符合应答、必答、拒答的要求,如果依靠人工标记,则效率非常低。

③ 度量方面问题:主要体现在攻击差异、语言文化差异、监管法规更新变化等,导致度量标准难统一。例如因语言、文化的差异,大模型对政治、禁忌等侧重点也有所不同。

构建千镜大模型安全检测平台

千镜大模型安全检测平台从下到上分别是资源层、能力层、接入层

  • 资源层:该层包含一系列核心数据,包括标签资源、数据集资源、大模型资源等。众多周知,在大模型时代,高质的数据是成功的关键,同样高质的测试集也是内容安全评测的关键。

  • 能力层:包括三大核心能力:毒性增强、会话构造、自动标注等。该层主要的任务是对高质的语料进行变异、构造,使的评测更接近实战,以暴露更多的问题。

  • 接入层:包括插件式服务、专业报告等。该层通过插件式的接入方式,大大提升大模型接入的效率,并通过专业的报告解读,使的用户可快速了解大模型的安全健康状态。

千镜大模型安全检测平台已建成主要包括语料、攻击手法等方面的相关能力。语料方面,目前平台已集成高质量语料超过10W条,覆盖10大类300小类的标签。包含基础变异,进阶变异等10多类的攻击手法

整个平台通过高质量预料,丰富的攻击方法,高效的一键式检测,实现大模型内容评测更简单,内容更可控的目标。

02
AIGC赋能安全

vivo不仅在安全赋能AIGC方面进行积极探索实践,在AIGC赋能安全,提升安全工具基础检测能力方面也做了进一步的尝试。在安全检测能力提升方面,由于静态代码检测能力是安全流程的基石,重要且不易,vivo结合AIGC的能力,助力更好的管控源码。

静态代码检测痛点以及解决方案

静态代码检测是安全流程的基础,可以在研发流程的早期阶段发现潜在的安全隐私问题,是安全左移的必备的能力。静态代码检测如此重要,但想做好可不容易。静态代码检测存在诸多问题,如何解决这些问题更好做到源码的管控,是vivo一直思考的。

静态代码检测主要存在检测难,结果难,修复难三个方面的问题。为了较好的解决静态代码检测的痛点问题,vivo不断夯实基础能力,积极与三方进行合作。vivo与安势信息合作研究针对Android应用跨语言场景的静态分析能力,可检测现有分析工具无法检测的复杂漏洞场景,并为人工挖掘跨语言漏洞提供了自动化工具的支持,以解决检测难的问题。

安势信息高级安全专家-陈泽远

vivo利用AIGC的能力,增强AIGC对代码片段的理解,从而实现误报消减,代码修复的目标,以解决结果难,修复难的问题。

基于AIGC架构下静态代码检测

vivo将静态代码检测流程进行改造,从2个阶段(扫描阶段,报告阶段)增加(预处理阶段、消减阶段)到现在的4个阶段。AIGC重点在预处理阶段、消减阶段进行干预。在预处理阶段,将规则、方法调用链、代码片段等信息进行格式化处理,结合prompt工程,构造高质量的prompt;在消减阶段,将高质量的prompt和vivo代码大模型进行结合,给出代码片段是否存在安全风险的建议,以及相关的修复代码,最终将结果作为报告的内容展示给用户。

通过AIGC优化后的静态代码检测代码片段,修复的准确率达80%以上效率提升70%,且安全风险的误报大幅降低,平均降幅在40%以上,实现了代码修复更简单,误报更低的目标。

未来,vivo将继续在更全工具链,更高效检测,更准确结果三方面努力,以提升安全工具能力,也欢迎更多合作伙伴一起共建可信生态。

往期推荐:

VDC安全与隐私会场专题解读四:AIGC安全挑战与对策

VDC安全与隐私会场专题解读三:AI 赋能千镜可信生态

VDC安全与隐私会场专题解读二:强化可信底座,护航智慧服务

关注我们,了解更多安全内容!

文章来源: https://mp.weixin.qq.com/s?__biz=MzI0Njg4NzE3MQ==&mid=2247491965&idx=1&sn=6b23de288bd0380a35e9dcf8b3b0a1e7&chksm=e9bac711decd4e073be4f80f7bf5811e9960eba99c2e6f8a4ea789a63494e203e46a2b6303c0&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh