一. 引言
在之前的文章[1]中,我们对图像领域的可搜索加密的主流方案进行了梳理。由于对图像的加密成本通常远高于文本,而检索是一项对实时性要求较高的任务;因而,如何兼顾检索精度、效率与安全是该领域的核心关注点。本文进一步深入,探讨了设计符合这些要求的图像加密方法,以及在基础工作上的几类优化策略。
二. 基础方案
在图像可搜索加密问题下,主要涉及三类实体:图像拥有者,授权用户以及云服务器。如图1所示:
图1:图像可搜索加密常见系统模型
图像拥有者:图像拥有者拥有一个较大的图像库,其负责上传加密的图像以及其余辅助的信息;同时,一般来说图像所有这还需要承担对授权用户进行授权的任务。
授权用户:由图像所有者授权并可在云服务器检索其上传图像的合法用户。
云服务器:云服务器负责存储密文图像,同时负责对授权用户的检索请求做回答。
为降低图像拥有者的计算开销,一个自然的需要是,图像拥有者只进行图像加密(以及存储密钥种子)而无需做任何其它事情。早期研究[2] 提出了一种极为简洁的图像加密方法,其核心包括:
图像置乱:图像本质是由一系列像素点组成,有意义的像素点组合形成了高价值图像。因此,如果将像素点进行全局打乱,杂乱无章的像素点所构成的无意义图像等同的起到了加密效果。同时,一个有着n个像素点的图像,其可能的打乱组合就有n!种,显然通过暴力穷举是不可恢复的。
值替换:图像的像素点实质是RGB值组合,RGB也是[0,255]范围内的数字;这些数字同样可通过长度为256的置乱方案进行替换,而攻击行为所需的最坏攻击次数为256!。
图2:值替换后图像特征的信息分布
然而,如何从加密图像中提取出有效的检索特征呢?尽管上述方法可以置换图像的像素位置和值,但图像的整体颜色统计信息或分布特性并未改变。因此,如图2所示,我们可以利用密文图像的RGB像素统计值作为特征值,保证即使是加密后的图像,其特征值计算出的距离与明文情况下的距离相同。
三. 优化
虽然基础方案有效降低了加密成本,但仍存在三个主要问题。首先,该方案使用全局的图像颜色统计信息作为密文特征进行检索,这类特征较弱,不足以满足实际需求。其次,值替换仅改变了数据分布的位置而非频率,攻击者可以利用已知的明文图像色彩分布,反推出密钥种子。第三,对图像的加密会严重的破坏图像压缩率,如一张JPEG的明文图像经过加密后可能膨胀6至10倍,给图像拥有者和检索用户带来了极大的网络开销,也增加了云服务器的存储压力。
针对上述问题,后续的研究者主要从三个方面给出了优化方案:
块内置乱与块间置乱:明文图像的特征提取方案在上世纪经历了从全局特征过度(如GIST)到局部特征(如SIFT)的发展,然而精准的定位局部特征并进行对应的加密处理是困难且耗时的。简单有效的方案是首先将图像看作若干个小块(如8*8),分别在小块内部进行置乱加密以及按照小块为单位进行全局置乱加密;最终提取出的特征也从一维的全局特征转换为二维的块内特征列表。部分研究[3]指出,此策略在典型数据集上可以获得超过15%的检索精度提升。
多值替换:本质上,检索是在比较两张图像特征之间距离的远近;因而,一个有效的可搜索加密方案并不需要维持距离的一致性,而只需要维持距离间大小的一致性。进而言之,特征之间的分布可以被模糊压缩,而只要模糊压缩的规则是类似的,那么原本距离较大的图像在模糊后仍有极高的可能保持相对更高的距离,从而保障检索的有效性。具体而言,对图像来说,不必使用同一个值替换的置乱规则来进行置乱,而随机使用多个值替换的规则对同一张图像进行值分布的替换,即多值替换,如图3所示。部分研究[3]指出,当同时使用5个表时,对检索精准的损耗不足1%,而图像的熵值能提升约15%。
图3:多值替换后图像特征的信息分布
JPEG格式下的密文图像压缩:JPEG是最主流的图像压缩方法,其依赖于空域和频域之间的转换与量化来完成压缩,通常图像的分布越单调规律,压缩的比例就可以做到越高,而上述的加密方案显然破坏了这一前提;更糟糕的是,一旦在密文图像上进行压缩而破坏了RGB信息,很可能导致明文图像无法正确恢复。要在保障加密的同时兼顾图像的压缩率,唯一的方法是深入到JPEG编码层次进行加密。总体而言,JPEG在编码阶段的主体信息会留存在若干个AC值所形成的(r,v)对中,直接在(r,v)对层次进行上述置乱加密方案,能够兼顾压缩率与检索有效性。部分研究[4]指出,使用上述方法,密文图像的膨胀率通常不超过60%,远远低于直接在空域中进行加密。
四. 总结
在本篇文章中,我们对基于统计特征的图像可搜索加密领域中的一些重要方法及其动机进行了梳理。本类方案对图像拥有者的负担最低且精度效率均在可接受范围,因而可落地性与实用价值最强。然而,本类方案局限于所提取的笼统特征,检索精度相较于最先进的明文图像检索仍有较大的追补空间,因而,从研究角度来看还有很多缺憾。在后面的文章中,我们将介绍如何让密文检索在可接受的时空代价内追平先进的明文检索方案。
参考文献
[1]: https://mp.weixin.qq.com/s/ICwRV6fjPqdlLboCzJM_pg
[2]: Practical privacy-preserving content-based retrieval in cloud image repositories[J]. IEEE Transactions on Cloud Computing, 2017, DOI: 10.1109/TCC.2017.2669999.
[3]: Xia Z, Jiang L, Liu D, et al. BOEW: A content-based image retrieval scheme using bag-of-encrypted-words in cloud computing[J]. IEEE Transactions on Services Computing, 2019, 15(1): 202-214.
[4]: Gu Q, Xia Z, Sun X. MSPPIR: Multi-source privacy-preserving image retrieval in cloud computing[J]. Future Generation Computer Systems, 2022, 134: 78-92.
相关文章:
内容编辑:创新研究院 顾奇
责任编辑:创新研究院 陈佛忠
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。
长按上方二维码,即可关注我