引用
孙雄韬 , 刘干 , 李怡然 , 张舒越 , 文语欣. 文本隐私感知与保护研究综述[J]. 网络空间安全科学学报, 2023, 1(2): 2-21
SUN Xiongtao , LIU Gan , LI Yiran , ZHANG Shuyue , WEN Yuxin. Survey of Text Privacy Perception and Protection[J]. Journal of Cyberspace, 2023, 1(2): 2-21
背 景
随着互联网的兴起,信息化已经变成一个企业、地区、国家发展繁荣的重要指标。高度的信息化同时也给人们的生活带来极大的便捷,更加改变了人们的生活方式。人们在互联网上频繁的活动,使得互联网产生的实时信息越来越多。这些信息大部分是以文本的形式在网络中进行传播,敌手可以利用恶意爬虫代码从互联网中爬取这些文本,利用计算机技术进行隐私推理能够快速地推理出人们的隐私信息。同时,随着人工智能技术的快速发展,各种各样的大模型被相继提出,这给敌手进行隐私推理提供了快速高效的工具。近些年来互联网中个人隐私泄露越来越严重,这为网络诈骗、身份伪造、垃圾广告投放、位置追踪等恶意行为提供了原始数据,对用户造成经济损失、名誉损失甚至生命安全威胁。
由于个人隐私数据承载着个人权益、商业利益以及国家利益,个人隐私保护已成为全球共同关注的焦点。欧盟《通用数据保护条例》、加拿大《个人信息与数据保护法》以及我国颁布的《个人信息保护法》等,旨在加强个人信息的使用限制,从而保护个人信息安全。
虽然有了法律的保障,但是隐私泄露带来的损害还是相当严重。怎样将隐私泄露扼杀在摇篮中是学术界和产业界考虑的重要课题。
01.
本文第一节从探讨文本隐私感知的分类方法入手,将文本数据类型划分为结构化数据与非结构化数据,以便读者更好地理解和应对文本隐私泄露问题;之后按照现有的论文将文本隐私感知的应用场景分为四个部分:医疗场景、在线社交网络场景、政务文本场景以及隐私政策识别并分别对其进行介绍;最后,笔者归纳并形成了核心为文本数据隐私感知与保护系统的感知与保护框架。
图1 文本数据隐私感知与保护框架
Fig.1 Framework of Text Data Privacy Perception and Protection
02.
在第二节中,本文通过对比大量论文资料,从模式规则匹配、机器学习以及深度学习这三种技术路线梳理文本数据隐私感知的研究成果,总结出了各自的优缺点和应用场景,并最终以可视化的图表呈现。
图2 基于深度学习的文本隐私感知流程图
Fig.2 Text Privacy Perception Flowchart Based on Deep Learning
03.
在文本数据隐私感知的基础上,本文第三节从密码学、差分隐私以及数据合成三种隐私保护方法出发,归纳整理了现有的文本数据隐私保护相关研究。
图3 文本隐私的保护技术分类
Fig.3 The Sketch of Text Privacy Protection Technologies
未来研究方向
本文以文本隐私识别与保护为对象进行调研,对隐私感知现存在的相关技术进行总结和梳理,同时对现有的隐私感知场景进行归纳并进行详细的介绍以及对隐私保护现有的技术进行总结和分析。本文认为未来的文本数据隐私感知发展趋势将表现在以下几个方面:1)文本特征表达研究。2)隐私识别模型研究。3)多模态隐私识别研究。未来的文本隐私保护发展趋势将表现在以下几个方面:1)偏见与公平性研究。2)隐私度量与审计研究。3)大模型与数据集隐私研究。
论文全文下载方式
1 识别下方二维码;2 点击文末“阅读原文”。
来源:《网络空间安全科学学报》第二期
电话:010-89061756/ 89061778