大模型安全风险、防护治理与法治建设

大模型安全风险、防护治理与法治建设
2024-8-23 16:19:31 Author: mp.weixin.qq.com(查看原文) 阅读量:10 收藏

随着人工智能技术的迅猛发展，大模型在人工智能领域取得了显著的技术进步。然而，这些技术在为人类带来便利的同时，也伴随着一系列安全威胁和挑战。目前，业界就如何增强大模型安全防护已经进行了一定的实践探索，尝试通过完善内控制度、建立审核机制、及时进行评估审计和应用技术工具等方式来加强大模型的安全性。未来，还需要从制度层面进一步推动大模型安全法治建设，提升风险防范的有效性，保障大模型研发和应用全流程中的安全性。

大模型是指使用海量数据进行训练、由复杂的计算结构和大量参数构成的人工智能模型。相较于规模较小、用途单一的模型，大模型应用领域更为广泛，但同时也可能带来更难预测和更不可控的风险。首先，大模型在研发和训练过程中使用的数据可能存在合法性和偏差等问题，这可能导致技术性风险或引发歧视问题。其次，大模型存在技术滥用的风险，其在广泛应用时的可靠性和稳定性也可能受到影响。最后，一旦大模型自身遭受攻击，其所产生的影响和损害将更为严重。

技术性风险。其中数据隐私和安全是核心问题，由于训练这些模型需要大量的数据，而这些数据可能包含敏感信息，因此在数据的收集、存储和处理过程中，隐私泄露的风险也随之增加。此外，模型可能会在未经充分脱敏的情况下，无意中记忆并泄露个人信息。这就要求在数据收集和处理过程中，必须采取严格的隐私保护措施，以保障数据的安全和用户的隐私权。

数字偏见风险。如果训练数据存在偏差，模型可能会学习并放大这些偏差，导致不公平的结果，例如在面部识别或语言理解任务中对某些群体的不公平对待。为了减少这种偏见的产生，需要在数据收集和模型训练过程中采取多元化和平衡的策略。误用滥用风险。深度学习模型通常被视为“黑盒”，其决策过程难以理解和解释，这不仅增加了误用和滥用的风险，也使得监管和审计变得更加困难。因此，提高模型的可解释性和透明度，使其决策过程更加透明，对于实现人工智能的安全性和可靠性至关重要。

安全性风险。模型可能容易受到对抗性攻击，攻击者通过精心设计的微小输入变化来欺骗模型，导致错误的输出。这种安全漏洞在自动驾驶车辆等敏感应用中尤为危险。因此，提高模型的鲁棒性和安全性，防范对抗性攻击，是保障人工智能安全的关键。

关联性风险。尽管大模型的通用性是一个优势，但也可能带来风险，例如，一个为特定任务训练的模型在其他领域可能产生不可预见的、有时是有害的结果。此外，信息泄露也是一个问题，尤其是在处理包含个人数据的文本或图像时，模型可能无意中记忆并泄露敏感信息。

总的来说，大模型发展过程中的安全风险并不是孤立存在于其研发、应用等各环节，而是会随着大模型的全生命周期不断传导和叠加。大模型面临的安全风险挑战不仅对监管工作提出了更高的要求，也需要大模型研发者以及基于大模型提供服务的其他主体之间进行紧密的配合与协作。

在人工智能技术的快速发展中，大模型平台的安全治理机制发挥着至关重要的作用。这些机制不仅可以增强人工智能技术应用的安全性、可靠性和合规性，还有利于提高公众信任和推动技术健康发展。

建立治理架构。大模型平台通过建立全面的治理架构来管理人工智能技术的研发、应用和部署。这一架构包括内部治理模式和外部专家参与治理两种形式。内部治理模式涉及管理团队、法律团队、技术团队等，他们共同负责制定和执行治理策略和规则，确保平台运营符合法律法规，同时技术团队实施技术层面的安全措施。例如，Meta 的独立监督委员会就是内部治理的典型代表。外部专家的参与则通过技术委员会和伦理委员会等形式，为模型的评估和治理过程提供独立的声音和客观评价，如百度的飞桨（Paddle）平台和 OpenAI 的合作模式。

构建内容审核和过滤机制。在处理内容生成的误导性和虚假信息方面，许多大模型平台和服务提供商已经建立了内容审核和过滤机制。这些机制通过人工审核或自动化算法来识别并移除虚假信息、不当内容和违法信息。这些举措能够在一定程度上减少有害信息的传播，从而提高网络空间的安全性。

采取数据隐私保护措施。随着个人隐私保护意识的提高，从事大模型研发的组织和企业采取了一系列措施来保障用户数据的安全和隐私。包括数据加密、访问控制、去标识化等技术手段，以及建立隐私政策和合规流程。此外，在其他领域，已有的法律法规要求也适用于大模型研发，例如为训练大模型而收集、使用的数据若包含个人信息，需遵守《个人信息保护法》等法规对个人信息的收集、使用和保护提出的明确要求。

明确伦理规范。伦理规范为人工智能技术的研发与应用提供了道德准则和行为规范，关注透明度、公平性、责任性、隐私保护及安全性等方面。大模型平台通过在用户服务条款中提及或出台专门的伦理规范原则，构建了一套负责任行动的指导框架。

进行对抗测试。对抗测试作为一种主动安全审计和风险评估手段，模拟攻击者的视角和行为，以发现和修复安全漏洞。大模型平台通过参与公开红队测试活动，展现了对模型安全性的自我检测与提升的承诺。为了应对对抗攻击和模型欺骗，研究者和安全专家提出了一系列对抗攻击和模型安全加固的技术和方法。这些技术包括对抗样本训练、鲁棒性增强、模型鲁棒性评估等。通过提高模型对对抗攻击的抵抗能力，可以增强模型的安全性和稳定性。

开展评估审计。风险评估和审计是大模型平台治理的重要组成部分。风险评估用于识别和分析在开发、部署和使用大模型过程中可能遇到的潜在风险，而审计则评估模型的设计、开发和操作是否遵循了既定的标准和最佳实践。

现有的安全防护措施在很大程度上提高了大模型平台的安全性和可靠性。通过内部治理和外部专家的参与，平台能够更全面地识别和解决潜在的风险。伦理规范的明确为技术开发与运营各方提供了负责任行动的指导框架，增强了公众对人工智能的信任。对抗测试和评估审计的实施则有助于及时发现和修复安全漏洞，保障模型的透明度、可解释性和公正性。

然而，这些措施的有效性也面临着挑战。保持审计的独立性和客观性，处理敏感信息，以及满足不断变化的法律法规要求都是需要克服的难题。此外，随着人工智能技术的不断进步，现有的安全防护措施也需要不断更新和完善，以适应新的技术和应用场景。

各类大模型本质上仍属于人工智能技术的分支，完善大模型安全法治必然需要提升人工智能领域整体治理效能。为了实现高水平的安全保障和高质量发展，我们需要在现有实践的基础上，通过完善制度设计，对包括大模型在内的人工智能技术进行更有效的综合治理，明确大模型研发应用过程中的安全义务及责任，并鼓励构建重视安全防护的产业生态。同时，还应注重相关制度的灵活性和可操作性，以提升安全风险防范能力。

设立人工智能专门主管机关。欧盟《人工智能法案》提出在欧盟和各成员国设立或指定人工智能主管机关，这一设计有利于加强各国间的人工智能安全治理协调，跨领域、跨行业防范人工智能安全风险。我国可参考相关立法，设立国家人工智能主管机关，统筹负责人工智能的发展与管理工作，从而对跨行业应用的大模型进行协同治理。国家人工智能主管机关承担的有关人工智能安全治理的职责可包括：开展人工智能安全教育与宣传；组织制定人工智能安全标准和细化监管规则；指导和支持专业机构开展人工智能安全监测、评估、审计、认证等服务；建立人工智能安全风险监测预警机制和安全事件应急处置机制；对存在安全风险、可能造成安全事件的人工智能研发及提供活动进行监管执法等。

基于安全风险严重程度，对大模型研发应用实行清单制管理。对于安全风险较高且一旦发生安全事件可能造成严重影响的大模型及其衍生产品和服务，应将其列入负面清单。在清单内的大模型研发和提供活动需事先依法取得许可。对于未列入清单的大模型，则实施以备案为主的事后监管，以鼓励创新，避免“不发展就是最大的不安全”。

强化特定主体安全义务，重点防范大模型安全风险。在一般情形下，可以区分大模型的研发者与提供者，并分别规定其在安全防护方面应履行的义务。考虑到通用大模型应用广泛、安全风险易传导，可专门针对超过一定算力规模的模型规定安全义务，如制定模型使用规则、及时配合监管部门和使用者消除安全隐患等。同时，网络平台经营者如果知道或应当知道平台内产品或者服务提供者通过平台从事大模型应用和服务活动，也有义务完善平台内的安全规范，并确保其有效实施。

营造重视安全的人工智能产业生态，支撑大模型安全保障工作。一是将定期进行安全评估、接受审计规定为人工智能研发者、提供者的一般义务，并鼓励提供人工智能安全评估、审计和检测的第三方机构发展。二是对研发、购置用于安全治理等专用设备的投资按一定比例实行税额抵免，鼓励企业加强人工智能安全防护。三是支持企业、科研机构等研究开发有关人工智能监测预警、安全评估、应急处置等技术，鼓励在人工智能领域应用监管科技、合规科技。

明确人工智能安全事件法律责任。一方面，对于在人工智能研发应用过程中违反网络安全、数据安全及个人信息保护相关规定并发生安全事件的，应依法予以处置；对于违反人工智能安全防护义务的情形，也应设定严格的处罚，例如责令暂停或终止相关业务、撤销许可等。另一方面，考虑到人工智能技术迭代快，风险具有不确定性，也应明确人工智能研发者、提供者的合规免责制度。如果研发者、提供者已经履行了现有的安全防护义务，且无主观恶意，承诺整改合规并加强安全防护的，可视情节减轻或免除其责任，以提高安全合规的主动性。

原文来源：中国信息安全

“投稿联系方式：010-82992251 [email protected]”

文章来源: https://mp.weixin.qq.com/s?__biz=MzkyMzAwMDEyNg==&mid=2247545468&idx=1&sn=fec255d4654d37562d1f322a662a8127&chksm=c1e9be2df69e373b5765b97ed0bf401fab83704eca9d6f4642813b91d8ae57cc901ab5427a0c&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh