VDC安全与隐私会场专题解读五：AIGC新技术下安全工具的探索实践

VDC安全与隐私会场专题解读五：AIGC新技术下安全工具的探索实践
2024-10-30 20:1:0 Author: mp.weixin.qq.com(查看原文) 阅读量:6 收藏

安全护航AIGC

在安全护航AIGC方面，宣伟分享了vivo的最新技术创新成果——千镜大模型安全检测平台，其可以保障大模型输出内容的安全，以解决AIGC带来的安全合规方向的新挑战。

vivo安全工具高级经理-宣伟

为什么要建设大模型安全评测能力？

AIGC横空出世，促进各行各业的变革，但AIGC大热的同时也引发新的安全合规问题。通过上图可知，黑客通过多变攻击手法，诱导大模型输出违规的内容，整个攻击过程相比传统攻击更加简单，影响更大。造成这一现象的主要原因如下：

攻击方式多样：针对AIGC的攻击方法众多，如梯度攻击、进化攻击、演示攻击等，并且很多攻击是基于自然语言而发起的攻击，这使得攻击人群不仅限于专业的安全从业人员。
大模型问题众多：众多周知，因训练数据的质量不高，大模型本身存在低质、幻觉、隐私、价值观等一系列问题。这就导致评测不充分的大模型比较容易输出高风险内容，比如容易输出包含涉政、涉黄、涉恐、涉暴等高风险的内容。
风险易理解传播：传统安全问题或风险专业性很强，缺乏相关专业背景的消费者较难理解，传播范围也较小。但大模型输出的高险内容相交于传统安全问题，更容易被消费者理解和传播，影响会更大。最终可能导致业务下架，品牌受损。为规避这些风险需要建设自动化的大模型内容安全测评能力，提升大模型的安全性。

以上这些问题的出现，都表示现阶段安全对AIGC的护航显得尤为重要。

大模型安全评测常见的问题

大模型安全测评技术复杂，面临的问题众多，主要面临：语料、效率、度量等三方面问题。

① 语料方面问题：主要表现在数量少、覆盖低、质量差等方面，最终会导致测试结果片面或者不佳。

② 效率方面问题：主要表现在语料库构建、毒性增强、结果标记等方面。以结果标记为例，对于判断大模型的回答是否符合应答、必答、拒答的要求，如果依靠人工标记，则效率非常低。

③ 度量方面问题：主要体现在攻击差异、语言文化差异、监管法规更新变化等，导致度量标准难统一。例如因语言、文化的差异，大模型对政治、禁忌等侧重点也有所不同。

构建千镜大模型安全检测平台

千镜大模型安全检测平台从下到上分别是资源层、能力层、接入层。

资源层：该层包含一系列核心数据，包括标签资源、数据集资源、大模型资源等。众多周知，在大模型时代，高质的数据是成功的关键，同样高质的测试集也是内容安全评测的关键。
能力层：包括三大核心能力：毒性增强、会话构造、自动标注等。该层主要的任务是对高质的语料进行变异、构造，使的评测更接近实战，以暴露更多的问题。
接入层：包括插件式服务、专业报告等。该层通过插件式的接入方式，大大提升大模型接入的效率，并通过专业的报告解读，使的用户可快速了解大模型的安全健康状态。

千镜大模型安全检测平台已建成主要包括语料、攻击手法等方面的相关能力。语料方面，目前平台已集成高质量语料超过10W条，覆盖10大类300小类的标签。包含基础变异，进阶变异等10多类的攻击手法。

整个平台通过高质量预料，丰富的攻击方法，高效的一键式检测，实现大模型内容评测更简单，内容更可控的目标。

AIGC赋能安全

vivo不仅在安全赋能AIGC方面进行积极探索实践，在AIGC赋能安全，提升安全工具基础检测能力方面也做了进一步的尝试。在安全检测能力提升方面，由于静态代码检测能力是安全流程的基石，重要且不易，vivo结合AIGC的能力，助力更好的管控源码。

静态代码检测痛点以及解决方案

静态代码检测是安全流程的基础，可以在研发流程的早期阶段发现潜在的安全隐私问题，是安全左移的必备的能力。静态代码检测如此重要，但想做好可不容易。静态代码检测存在诸多问题，如何解决这些问题更好做到源码的管控，是vivo一直思考的。

静态代码检测主要存在检测难，结果难，修复难三个方面的问题。为了较好的解决静态代码检测的痛点问题，vivo不断夯实基础能力，积极与三方进行合作。vivo与安势信息合作研究针对Android应用跨语言场景的静态分析能力，可检测现有分析工具无法检测的复杂漏洞场景，并为人工挖掘跨语言漏洞提供了自动化工具的支持，以解决检测难的问题。

安势信息高级安全专家-陈泽远

vivo利用AIGC的能力，增强AIGC对代码片段的理解，从而实现误报消减，代码修复的目标，以解决结果难，修复难的问题。

基于AIGC架构下静态代码检测

vivo将静态代码检测流程进行改造，从2个阶段（扫描阶段，报告阶段）增加（预处理阶段、消减阶段）到现在的4个阶段。AIGC重点在预处理阶段、消减阶段进行干预。在预处理阶段，将规则、方法调用链、代码片段等信息进行格式化处理，结合prompt工程，构造高质量的prompt；在消减阶段，将高质量的prompt和vivo代码大模型进行结合，给出代码片段是否存在安全风险的建议，以及相关的修复代码，最终将结果作为报告的内容展示给用户。

通过AIGC优化后的静态代码检测代码片段，修复的准确率达80%以上，效率提升70%，且安全风险的误报大幅降低，平均降幅在40%以上，实现了代码修复更简单，误报更低的目标。

未来，vivo将继续在更全工具链，更高效检测，更准确结果三方面努力，以提升安全工具能力，也欢迎更多合作伙伴一起共建可信生态。

往期推荐:

VDC安全与隐私会场专题解读四：AIGC安全挑战与对策

VDC安全与隐私会场专题解读三：AI 赋能千镜可信生态

VDC安全与隐私会场专题解读二：强化可信底座，护航智慧服务

关注我们，了解更多安全内容！

文章来源: https://mp.weixin.qq.com/s?__biz=MzI0Njg4NzE3MQ==&mid=2247491965&idx=1&sn=6b23de288bd0380a35e9dcf8b3b0a1e7&chksm=e9bac711decd4e073be4f80f7bf5811e9960eba99c2e6f8a4ea789a63494e203e46a2b6303c0&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh