1. 研究目的与意义(文献综述)
1.1 研究目的及意义
随着现在计算机技术和数据库技术的迅猛发展,互联网中数据以井喷的态势增长。据统计全球数据量正以平均年增长率50%的速度增长,而当前数据总量的80%都是最近两年产生的。庞大的数据量带来的是越来越精准的预测,如亚马逊能根据浏览习惯来给用户推荐喜欢的书籍等。
2. 研究的基本内容与方案
2.1 目标(开发的系统概况描述)
本课题旨在通过指出对一组实际的数据使用两种经典的加密算法进行加密后在各种场合下存在的安全隐私问题,提出一种在保障数据发布中敏感数据的安全性的前提下最大化数据可用性的隐私保护算法。目标是用java语言实现一种能在数据安全性和可用性之间取得平衡的加密算法。
2.2 基本内容
1.研究和学习经典的加密算法,理解其原理。能使用k-anonymity和L-diversity对一组数据进行加密工作。同时也要了解两种算法存在的局限性,例如当存在背景知识的时候k-anonymity并不能起到很好的作用,而L-diversity却是损失了更多的数据可用性。
2.在理解两种经典加密算法的前提下,综合两种算法的优点,通过动态的调整数据加密中迭代的K值提出一种在数据保密性和可用性之间取一个平衡的加密算法。
3.实现采用java编写的对敏感数据加密的算法。完成数据的加密,实际验证算法的可用性。
2.3技术方案
1.数据建模
假设某医院有如下表的一组数据需要发布。
姓名 | 出生年月 | 性别 | 患病 |
张三 | 1990.09.12 | 男 | 否 |
李四 | 1992.10.20 | 男 | 是 |
王五 | 1993.12.02 | 女 | 是 |
刘六 | 1998.08.12 | 女 | 否 |
现在根据研究需要该医院需要将如上表格中数据发布到社会供研究人员进行数据研究。但处于隐私保护的原则,在数据发布的时候需要隐去隐私数据,在该数据表格中即患者姓名。但是只隐去姓名并不能完全的保障数据的隐私性。故需要数据隐私保护算法对数据进行再处理。
2.验证K-anonymity和L-diversity两种算法的表现
K-anonymity加密算法要求数据发布中的除非另外k-1条数据公布了才能知道第k条数据对应的人,在该情形下可以将数据处理为如下所示
出生年月 | 性别 | 是否患病 |
199*.09 | 男 | 否 |
199*.10 | 男 | 是 |
199*.12 | 女 | 是 |
199*.08 | 女 | 否 |
但是k-anonymity却不能保障已知背景数据的安全性,比如我们知道李四是一名男性,并且生日在10月份,这样再根据以上数据我们就可以直接知道李四患病的。所以就出现了L-diversity加密算法,L-diversity主体要求就是增加数据的多样性,即对199*.10月男性数据中必须得有患病的也有不患病的,而且相同的条目应该有多个。为了满足L-diversity的要求以上原始数据便无法进行发布,因为数据多样性不足。
3.提出改进算法。
k-anonymity算法加密对数据的要求比较低,而L-diversity对数据的多样性要求比较高,从以上两个方面着手提出一种新的据艾米算法。
4.实现加密算法并验证效果
用java语言实现新的算法,并对同一组数据进行隐私加密保护,实际验证算法的可行性。
3. 研究计划与安排
第1—3周:查阅相关文献资料,明确研究内容,了解研究所需知识与各项技能。确定方案,完成开题报告,书写摘要并完成相关英文文献翻译。
第4-6周:前期可行性研究,需求分析,进行系统的初步设计。
第7-12周:完成系统的编码与调试。
4. 参考文献(12篇以上)
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。