前沿 | NLP技术在银行业应用中数据风险管控的建议
2024-8-15 18:53:9 Author: mp.weixin.qq.com(查看原文) 阅读量:1 收藏

扫码订阅《中国信息安全》

邮发代号 2-786

征订热线:010-82341063

文 | 中国人民银行辽宁省分行 余玲;中国人民银行抚顺市分行 张航 高登科

自2022年11月人工智能对话聊天机器人ChatGPT推出,其凭借出色的语言处理能力迅速蹿红。该模型可以广泛与各领域结合,其发展潜力和应用场景也引发资本市场的无限遐想,受到追捧。在科技领域,ChatGPT的出现掀起了人工智能领域新一轮浪潮,国内外各大科技巨头纷纷发布各自的基于自然语言模型的人工智能产品。

在当下的信息时代,自然语言模型人工智能系统的出现,也为银行业的数字化转型提供了一种全新的思路和方式。根据公开的报道,已经有多家银行公开宣布,其成为国内某知名科技公司人工智能系统的生态合作伙伴,一旦该技术在实际中得以应用,必然为银行业带来更加高效和便捷的业务体系。同时我们也应该看到,任何智能模型的建立都需要海量的数据支撑,而银行业所涉数据关乎国家金融安全和居民个人信息安全,在新技术的应用上就必然需要更加严格的数据治理体系,以保证银行业数据的准确性、完整性和安全性。因此,自然语言模型人工智能系统为银行业提供新发展机遇可能的同时,也将对数据治理体系提出更高的要求。

自然语言模型在银行业的应用场景

1.风险识别与控制
目前,银行机构普遍具备通过内部数据模型分析账户异常行为,以识别风险的基本风控能力,但对于外部数据信息的获取和处理仍然主要依托人员开展尽调。人工智能的自然语言模型可以自动聚集大量的外部和内部数据,并对文本信息抓取、分析、挖掘和推理,通过该技术进行风险分析与评估,帮助银行发现潜在的风险,提供有效的决策预测。例如,通过分析互联网文本信息,识别出潜在的信用风险,或对客户、机构的声誉开展全面分析,以此来判断风险等级。
2.客户服务
传统的客服机器人主要是依靠关键字来判断客户提出的问题,进而提供模板化的答案,因此往往难以理解客户的实际需求,对客户提出的问题也经常无法提供正确的解答。而在自然语言模型下,客服机器人将可以与客户开展人机对话,客户可以通过日常性、表述性的语言,说明产生问题的场景和其他情况,人工智能系统将通过分析客户意图,准确理解客户需求,对客户问题有针对性地进行回答,表述上也更加符合人际间对话的特性,方便客户理解。此外,客服机器人还可以根据客户描述的需求,提供个性化的金融产品和服务,帮助银行协助客户实现资产管理和财务规划目标。
3.快速内容生成
在自然语言处理技术的加持下,在内容生成方面人工智能也展现出了颠覆性的能力。对于日常工作中常见的策划方案、总结报告、通知公告等,人工智能可以快速进行文字生成,其生产的内容质量已经可以满足正常的办公需求,可以极大地提高文字工作的效率。另外,也有部分企业在内部尝试利用人工智能生成网页的基本框架,从测试结果来看,成功将单个产品功能的研发周期从数天缩短至数个小时。

存在的风险

尽管NLP技术在银行业应用领域上存在巨大的机遇,但是在数据治理方面也不可避免地存在风险和挑战。
1.敏感信息的泄露
人工智能的训练,本身就依托于大量的数据投喂,根据模型应用场景的不同,一些敏感信息(如个人身份、财务记录等)可能被传递到模型中。在这个过程中,可能从多个方面产生数据泄露的风险。
一是传统的数据泄露风险,数据在传递、使用、销毁等环节中,任何一个环节的管理缺失都可能使信息泄露。特别是目前银行对于此类前沿技术的应用,普遍采取内外联合研发的方式,而人工智能的训练过程中又需要大量的人工干预,这都可能增加与敏感数据接触的人数、频次,产生泄露风险。
二是人工智能具有高度的自动化特性,其生成内容的过程并非完全可控,在内容生成阶段,其可能会根据训练时接收的敏感数据对外非限制性输出,导致敏感数据外泄,甚至有被不法分子通过诱导式提问诱导套取信息的可能。
2.算法偏向性
由于训练数据的不同来源和种类不同,算法在文本分类、自然语言理解和机器翻译等方面可能会出现偏向。此外,在人工智能的应用中,机器学习算法本身也可能会存在偏见或误解,从而导致回答错误或对于意图失灵的问题。对于银行而言,如果这些机器学习算法上的误差影响了平衡性和公正性,则新生成数据也必然失真,可能在进行风险评估时产生错误的导向或结论。
3.数据污染问题
自然语言模型可以自动生成大量新的数据资料,且生成数据与源数据相似性高,关联性高,这也为新数据的分类、鉴别、归档增加了难度。一旦新生成数据未经严格审核而进入原有的数据体系,极有可能对源数据产生数据污染,整个系统的数据治理体系也必然受到影响。
4.法律合规问题
除了在数据安全方面存在法律风险外,自然语言模型生成的内容也同样存在法律风险。
一是生成内容可能出现商业侵权。此类人工智能在生成内容时,主要通过挖掘源数据,进行统计分析,并进行一定程度的修改、拼凑,如果其在生成过程中调取的数据源未经过商业授权,那么生成内容也将存在侵权风险。
二是当客服机器人使用模型进行服务或产品推荐时,其自动生成的内容是否符合相关法律法规的合规性要求,其推荐产品的行为是否具有相应的法律效力,这都是可能引发争议的法律风险点。

数据治理方面的建议

毫无疑问,NLP技术为银行业数字化转型提供了新的思路和方案,但我们应该看到,其存在的隐患也可能会危害行业发展乃至影响国家金融安全,这就要求在使用新技术的同时,进一步加强数据治理体系方面的建设。
1.划清数据的安全边界
不同于其他业务系统可以在测试环境下使用模拟数据进行测试,为了保证人工智能训练的准确性、可用性,其训练过程中更多使用真实数据,这对于数据安全的管理就有了更高的要求。划清敏感数据的安全边界,就是要在最小范围内调取数据,避免非必要的敏感数据被超权限获取,降低人工智能系统在输出过程中泄露敏感数据的可能性。
2.建立可靠的训练体系
研发人员在训练过程中不仅要对NLP技术回答的准确性进行关注,也要关注生成内容的平衡性和公正性,有针对性地对整个模型进行纠偏,以降低系统训练产生的偏向,避免产生错误的结果。由于整个训练过程主要依托于训练人员的人工标注,人员的体系建设也同样重要,对训练人员的培训不单单要关注技术能力,也要关注对训练人员的价值观、评价标准考察。
3.加强新生成数据的审核与使用管理
鉴于人工智能系统在数据生成方面的先天优势,其可以在极短时间内生产海量数据,这将极大地增加数据治理难度。而银行业对数据的安全性、稳定性、准确性有着极其严苛的要求,面对这种矛盾,对源数据和新生成数据进行数据隔离可能是比较稳妥的解决方案。
对于新生成数据,要先开展数据审核,只有在确认数据准确性无误后,才能将审核后的数据与源数据并库。对于未经审核的数据,在应用和输出上要慎之又慎,只有如此才能够避免新生成数据引发的数据污染。
4.在法律框架内合理应用新技术
任何新技术的应用都有可能带来全新的法律问题,但从数据治理的角度出发,将NLP技术的各个环节进行拆分,其在知识产权保护、数据安全、消费者权益等方面都能够找到相应的适用法律。在2022年出台的《互联网信息服务算法推荐管理规定》中明确要求,人工智能的算法应当坚持社会主义主流价值观,不能利用算法危害国家安全和社会公共利益、扰乱经济秩序和社会秩序、侵犯他人合法权益。所以,研发人员在设计之初就应该将法律规范纳入设计框架,合规理念要深入到整个人工智能系统的生命周期中,要将算法监管和数据监管相结合,从建立模型、训练模型、投入使用与更新迭代,直至系统退出使用,每一个具体环节都要在法律框架内实施,并受到有效监管。同时,也要开展对人工智能伦理方面、权属方面的法律研究,封堵存在的理论漏洞,明确法律责任。

结 语

总的来说,NLP技术在银行业应用中有着广泛的前景和应用场景,可以为银行业带来更高效、更便捷的业务体系。但同时也存在着数据治理方面的潜在风险和挑战。
因此,银行业在应用该技术时需要建立严格的数据治理体系,划清数据的安全边界,加强新生成数据的审核与使用管理等,并在法律框架内合理应用新技术,以保证数据的准确性、完整性和安全性。只有这样,才能更好地发挥NLP技术的作用,为银行业数字化转型提供更加可靠的支持。

(来源:金融电子化)

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图 了解详情


文章来源: https://mp.weixin.qq.com/s?__biz=MzA5MzE5MDAzOA==&mid=2664222576&idx=6&sn=60b98399752d5e6e0e1a4cdc5a928765&chksm=8b59cd89bc2e449f2eb321ecf392a5437498443667a0011b9d816e6961c925f0de4b9222bad6&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh