Information Security in Big Data: Privacy and Data Mining
The growing popularity and development of data mining technologies bring serious threat to the security of individualrsquo;s sensitive information. An emerging research topic in data mining, known as privacy preserving data mining (PPDM), has been extensively studied in recent years. The basic idea of PPDM is to modify the data in such a way so as to perform data mining algorithms effectively without compromising the security of sensitive information contained in the data. Current studies of PPDM mainly focus on how to reduce the privacy risk brought by data mining operations, while in fact, unwanted disclosure of sensitive information may also happen in the process of data collecting, data publishing, and information (i.e., the data mining results) delivering. In this paper, we view the privacy issues related to data mining from a wider perspective and investigate various approaches that can help to protect sensitive information. In particular, we identify four different types of users involved in data mining applications, namely, data provider, data collector, data miner, and decision maker. For each type of user, we discuss his privacy concerns and the methods that can be adopted to protect sensitive information. We briefly introduce the basics of related research topics, review state-of-the-art approaches, and present some preliminary thoughts on future research directions. Besides exploring the privacy-preserving approaches for each type of user, we also review the game theoretical approaches, which are proposed for analyzing the interactions among different users in a data mining scenario, each of whom has his own valuation on the sensitive information. By differentiating the responsibilities of different users with respect to security of sensitive information, we would like to provide some useful insights into the study of PPDM.
1 Introduction
Data mining has attracted more and more attention in recent years, probably because of the popularity of the lsquo;lsquo;big datarsquo;rsquo; concept. Data mining is the process of discovering interesting patterns and knowledge from large amounts of data . As a highly application-driven discipline, data mining has been successfully applied to many domains, such as business intelligence, Web search, scientific discovery, digital libraries, etc.
A. THE PROCESS OF KDD
The term lsquo;lsquo;data miningrsquo;rsquo; is often treated as a synonym for another term lsquo;lsquo;knowledge discovery from datarsquo;rsquo; (KDD) which highlights the goal of the mining process. To obtain useful knowledge from data, the following steps are performed in an iterative way :
bull; Step 1: Data preprocessing. Basic operations include data selection (to retrieve data relevant to the KDD task from the database), data cleaning (to remove noise and inconsistent data, to handle the missing data fields, etc.) and data integration (to combine data from multiple sources).
bull; Step 2: Data transformation. The goal is to transform data into forms appropriate for the mining task, that is, to find useful features to represent the data. Feature selection and feature transformation are basic operations.
bull; Step 3: Data mining. This is an essential process where intelligent methods are employed to extract data patterns (e.g. association rules, clusters, classification rules, etc).
bull; Step 4: Pattern evaluation and presentation. Basic operations include identifying the truly interesting patterns which represent knowledge, and presenting the mined knowledge in an easy-to-understand fashion.
B. THE PRIVACY CONCERN AND PPDM
Despite that the information discovered by data mining can be very valuable to many applications, people have shown increasing concern about the other side of the coin, namely the privacy threats posed by data mining. Individualrsquo;s privacy may be violated due to the unauthorized access to personal data, the undesired discovery of onersquo;s embarrassing information, the use of personal data for purposes other than the one for which data has been collected, etc. For instance, the U.S. retailer Target once received complaints from a customer who was angry that Target sent coupons for baby clothes to his teenager daughter.1 However, it was true that the daughter was pregnant at that time, and Target correctly inferred the fact by mining its customer data. From this story, we can see that the conflict between data mining and privacy security does exist. To deal with the privacy issues in data mining, a sub- field of data mining, referred to as privacy preserving data mining (PPDM) has gained a great development in recent years. The objective of PPDM is to safeguard sensitive information from unsolicited or unsanctioned disclosure, and meanwhile, preserve the utility of the data. The consideration of PPDM is two-fold. First, sensitive raw data, such as individualrsquo;s ID card number and cell phone number, should not be directly used for mining. Second, sensitive mining results whose disclosure will result in privacy violation should be excluded. After the pioneering work of Agrawal et al. numerous studies on PPDM have been conducted.
C. USER ROLE-BASED METHODOLOGY
Current models and algorithms proposed for PPDM mainly focus on how to hide those sensitive information from certain mining operations. However, the whole KDD process involve multi-phase operations. Besides the mining phase, privacy issues may also arise in the phase of data collecting or data preprocessing, even in the delivery process of the mining results. In this paper, we investigate the privacy aspects of data mining by considering the whole knowledge-discovery process. We present an overview of the many approaches which can help to make proper use of sensitive data and protect the security of sensitive information discovered by data mining. We use the term lsquo;lsquo;sensitive informationrsquo;rsquo; to refer to privileged or proprietary info
剩余内容已隐藏,支付完成后下载完整资料
大数据的信息安全:隐私和数据挖掘
随着数据挖掘技术的日益普及和发展,对个人敏感信息的安全带来严重的威胁,进年来,数据挖掘中一个被称为隐私保护数据挖掘(PPDM) 新兴的研究课题,,被广泛研究。PPDM的基本思想就是以这样一种方式修改数据:在不影响数据中包含敏感信息的安全的前提下进行有效的数据挖掘。PPDM的当前研究主要集中在如何降低带来的隐私风险的数据挖掘操作,而事实上,不必要的披露敏感信息在数据采集的过程中即数据发布和信息(数据挖掘结果)上传,也可能发生泄露。
在本文中,我们从更广泛的角度来看与数据挖掘相关的隐私问题,研究各种可以帮助保护敏感信息的方法。特别地,我们确定了四种不同类型的用户参与数据挖掘应用程序:数据提供、数据收集、数据挖掘和决策。为每种类型的用户,我们将针对他的隐私问题,讨论可以采用的来保护敏感信息的方法。我们简要介绍相关研究课题的基本知识,回顾最先进的方法,并在未来的研究方向上提出一些初步的想法。除了为每个类型的用户探索保护隐私的方法之外,我们也评估了游戏理论即提出了在数据挖掘分析不同用户之间的交互场景中,每个人都有自己的估值上的敏感信息方法。通过区分不同用户对安全的责任的敏感信息,我们想提供一些关于PPDM的研究有用的见解。
- 简介
可能是因为受欢迎的“大数据”的概念的影响数据挖掘近年来吸引了越来越多的关注。数据挖掘就是从大量的数据中发现需要的模式和知识。作为一个高度应用学科,数据挖掘技术已成功应用于很多领域,如商业智能、网络搜索、科学发现、数字图书馆等。
A KDD过程
“数据挖掘”这个词经常被视为另一个词的同义词“从数据中发现知识(KDD)”强调挖掘的目标的过程。从数据获取有用的知识,以迭代的方式执行以下步骤:
步骤1:数据预处理;基本操作包括数据选择(检索数据;从数据库中发现与任务相关的数据),数据清理(去除噪声和不一致的数据,处理缺失数据字段,等等)和数据集成(结合来自多个数据源的数据)。
步骤2:数据转换:我们的目标是将数据转换成适合挖掘任务的形式,也就是说,找到有用的特性来表示数据。基本操作是特征选择和特征转换。
步骤3:数据挖掘:这是一个必不可少的过程,好的方法是用来提取数据模式(如关联规则、集群、分类规则等)。
步骤4:模式评估和演示:基本操作包括识别代表信息的真正需要的模式,并提出以一种易于理解的方式挖掘信息。
B 隐私关注和PPDM
尽管数据挖掘发现的信息对于许多应用非常有价值,然而一个硬币有两面,人们逐渐由越来越多的担忧,硬币的另一面,即数据挖掘的隐私威胁。由于未经授权的访问个人数据、不愿意被发现的个人尴尬信息、以其他目的而不是以当初收集目的来使用个人信息等,也许会使得个人隐私被侵犯。例如,美国一个零售商Target 曾收到一个顾客的投诉,那位顾客很生气因为Target将婴儿的衣服寄给他已经是青少年的女儿。然而,他的女儿确实在那个时候怀孕了,Target通过挖掘客户数据正确地推断出这个事实。从这个故事中,我们可以看到数据挖掘和隐私安全之间的冲突确实存在。为了解决数据挖掘中的隐私问题,数据挖掘的一个子领域:被称为隐私保护数据挖掘(PPDM)在近年来有了很大的发展。PPDM的目是从未经请求或未经批准的信息披露中保护敏感信息,与此同时,保存数据的实用性。PPDM的考虑是双重的。首先,敏感的原始数据,如个人的身份证号码和手机号码,不应直接用于挖掘。第二,会导致侵犯隐私的敏感信息挖掘结果应该被排除在外。Agrawal等人开创工作后,针对PPDM已经进行了无数研究。
C 基于角色的用户方法
为PPDM提出的当前模型和算法主要是针对如何从特定挖掘操作中隐藏这些敏感信息。然而,整个KDD过程涉及多阶段操作。除了开采阶段,隐私问题也可能出现在数据采集和数据预处理的阶段,甚至在挖掘结果的交付过程。在本文中,我们通过考虑整个信息-发现过程,研究数据挖掘的隐私方面。我们提出一个关于很多可以帮助适当使用敏感信息和保护由数据挖掘发现的敏感信息的安全的方法的综述。我们使用术语“敏感信息”指特权或专有信息,只允许某些人看到,因此不是每个人都可以得到。如果敏感信息丢失,或者以任何不适最原始打算的目地使用,这个结果会严重的损害信息所属的个人或组织的利益。“敏感数据”一词是指可以提炼出敏感信息的数据。在整个论文中,我们认为这两个术语“隐私”和“敏感信息”是可以互换的。在本文中,我们开发一个基于用户角色的方法进行相关研究。基于KDD过程的阶段划分,我们可以识别四种不同类型的用户,即四个用户角色,在一个典型的数据挖掘的场景:
数据提供者:拥有一些数据挖掘任务需要的数据的用户。
数据收集者:从数据提供者中收集数据并且将数据上传给数据挖掘者的用户。
数据挖掘者:在数据中执行数据挖掘的用户。
数据决策者:为了达到特定目标,根据数据挖掘结果做决定的用户。
一个用户代表一个人或者一个组织。同样,一个用户可以扮演多个角色。例如,我们上面提到的故事中,客户扮演数据提供者的角色,零售商扮演的角色是数据收集者,数据挖掘者和决策者。通过区分不同用户角色的四个,我们可以探索数据挖掘中的隐私问题的原则。所有用户关心的敏感信息的安全,但每个用户角色从自己的角度关注安全问题。我们需要做的是确定每个用户角色关心的隐私问题,并找到合适的解决方案。在这里我们简要描述每个用户的隐私问题的作用。将在下面详细讨论。
1)数据提供者
数据提供者主要关注的是他是否能够控制他提供给别人的数据的敏感性。一方面来说,数据提供者应该能够让他的非常隐私的数据,命名为不希望别人知道的特定信息,不允许数据收集者访问。另一方面,如果提供者必须提供一些数据给收集者,他必须尽可能的隐藏他的敏感信息并且保证一旦隐私丢失可以获得足够多的赔偿。
2)数据收集者
从数据提供者那里收集到的数据可能包含一些特定的个人敏感信息。如果直接释放数据到数据挖掘者将违反数据提供者的隐私,因此数据修改是必需的。另一方面,修改后的数据应该还是有用的,否则收集的数据将毫无意义。因此,数据收集者的主要问题是保证修改后的数据不包含敏感信息,但仍保持很高的实用性。
3)数据挖掘者
数据挖掘者的数据挖掘算法适用于数据收集者提供的数据,他希望以一种保护隐私的方式来从数据中获得有用的信息。IB节中介绍,PPDM包括两种类型的保护,剂自身敏感数据的保护和敏感挖掘结果的保护。结合这篇论文中提出的基于角色的方法,我们认为数据收集者应该主要承担保护敏感数据的责任,而数据挖掘者可以专注于如何从不可信部分影藏敏感的挖掘结果。
4)决策者
决策者可以直接从数据挖掘者或者从一些信息发送者那里获得数据挖掘结果。发射者的信息很可能有意无意中改变了挖掘结果,这可能对决策者造成严重的损失。因此,决策者的担忧是挖掘结果是否可信。除了通过每个用户的角色调查隐私保护方法,在本文中,我们强调的是常见的一种方法,即游戏理论的方法,可以应用于很多问题包括应用于隐私保护数据挖掘。原理是,在数据挖掘的场景中,每个用户隐私保护方面的追求高自身利益或数据效用,和不同用户的利益是相关的。因此,不同的用户之间的交互可以建模为一个游戏。通过利用博弈论的方法,我们可以对每个用户角色应该如何行动得到有益的启示,试图解决他的隐私问题。
D 论文结构
本文的其余部分组织如下:第二部分第五部分分别讨论数据提供者,数据收集者,数据挖掘者和决策者的方法和隐私问题。游戏理论的研究方法在下文中第六章保护隐私的数据挖掘进行了综述。一些非技术问题相关的敏感信息保护在第七章讨论。本文的结论是在第九节。
2 数据提供者
A 数据提供者关注的问题
数据提供者拥有一些数据,可以提炼出有价值的信息。在数据挖掘如图2中所示的场景,微分隐私保护方法采用不同的用户角色,在本节中,我们限制自己为一个普通数据提供者,拥有相对少量的数据只包含有关自己的信息。数据报告有关个人信息通常被称为“微数据”。如果数据提供者将自己的微信息提供给数据收集者,他的隐私可能由于意想不到的数据破坏暴露敏感信息。因此,数据提供者需要关注的隐私问题是他是否可以控制别人从他那里可以获得什么样的信息,多少信息。通过调查数据提供者可以采用的保护隐私的方法,我们认为,由以下三个方面:
1)如果数据提供者认为他的数据非常敏感,也就是说,数据可能会透露一些他不希望别人知道信息,提供者可以拒绝提供这些数据。数据提供者期待的一些有效的访问控制措施可以防止他的敏感信息被数据收集者盗取。
2)意识到他的数据对数据收集者(以及数据挖掘者)是有价值的,数据提供者可能愿意交出他的一些私有数据,以换取一定的好处,比如更好的服务或金钱奖励。数据提供商需要知道如何与数据收集者谈判,所以,他可以从任何可能的损失的隐私得到足够的赔偿。
3)如果数据提供者既不能阻止他的敏感数据的访问,也不能与数据收集者做一个有利的交易,数据提供者可以扭曲数据收集着将获得他的数据,所以不能轻易透露他的真实信息。
B 隐私保护方法
1)限制访问
数据提供者以一个主动的或者被动的方式给数据收集者提供信息。通过“主动”方式,我们意味着数据提供者自愿选择在数据收集器发起的一项调查,或者填写登记表格去在一个网站创建一个帐户。通过“被动”方式,我们意味着数据是由提供者的日常活动中生成的,被数据收集者记录,数据提供者甚至可能没有意识到这些信息暴露了他的数据。当数据提供者主动的提供了他的信息,他可能简单地忽略了收集者需要的,认为很敏感的这些信息。如果他的数据是被动地提供,数据提供者可以采取一些措施来限制收集者的访问敏感数据。
假设这个用户提供者是一个担心他的网上活动可能暴露他的隐私的一个互联网用户。为了保护他的隐私,这个用户可以尝试通过清空浏览器的缓存,删除cookies,清理应用程序使用记录等来某网上活动的痕迹。同时,提供者可以利用各种为网络环境安全开发的工具来保护自己的数据。许多安全工具被设计为易于使用浏览器扩展。根据他们的基本功能,当前安全工具可以分为以下三种类型:
(1)反追踪扩展
我们知道有价值的信息可以从用户在网上的活动产生的数据中提取,互联网公司有很强的动机在互联网上追踪用户的动作。在浏览互联网时,用户可以使用一个反追踪扩展块的追踪器收集cookie。流行的反追踪扩展包括Disconnect, Do Not Track Me,Ghostery 等。一个主要的技术用于反追踪叫做Do Not Track (DNT),允许用户选择退出他们不访问网站的跟踪。用户选择退出偏好由HTTP报头字段命名为DNT暗示:如果DNT = 1,这意味着用户不需要跟踪(退出)。两个美国研究人员首先创建一个原型插件支持DNT头2009年Firefox web浏览器。后来,许多web浏览器添加了DNT的支持。DNT不仅是一种技术也是一种政策框架,对于接收信号的公司应该如何应对。W3C跟踪保护工作小组正试图标准化网站应该如何应对用户的DNT请求。
(2)广告和脚本阻滞插件。这种类型的浏览器扩展可以屏蔽广告的网站,并阻值脚本和小部件发送用户的数据给一些未知的第三方。示例工具包括AdBlock Plus ,NoScript ,FlashBlock等。
(3)加密工具。确保双方之间私人在线交流不能被第三方截获,用户可以利用加密工具,如MailCloak、TorChat来加密电子邮件、即时消息或其他类型的网络流量。此外,用户可以使用VPN(虚拟专用网络)服务加密所有的网络流量。
除了上面提到的工具,互联网用户应该始终使用反病毒和反恶意软件工具来保护自己的数据存储在数字设备,如个人电脑、手机和平板电脑。所有这些安全工具的帮助下,数据提供者可以限制访问他的个人数据。虽然没有保证敏感数据可以是完全不被不可信数据收集者窃取,使清理在线跟踪和使用安全工具它成为一种习惯也可以帮助减少隐私披露的风险。
2)利益贸易隐私
在某些情况下,数据提供者在需要隐私的损失和参与数据挖掘带来的好处之间做出权衡。例如,通过分析用户的人口统计信息和浏览记录,一个购物网站可以提供个性化产品推荐给用户。用户的敏感偏好可能会被揭漏但是,他可以享受一个更好的购物体验。由于一些好处,如个性化服务或货币激励,数据提供者可能愿意提供他的敏感数据给可信赖的数据收集器,承诺提供者的敏感信息不会透露给未经授权的第三方。如果提供者能够预测他能得到多少好处,他可以理性地决定什么样的,有多少敏感数据提供。例如,假设一个数据收集者问数据提供者提供的信息他的年龄,性别,职业和年薪。数据收集者告诉数据提供者为每个数据项他会付多少钱。如果数据提供者认为工资是他的敏感信息,然后根据提供的价格,他选择下列操作之一:i)不提供他的工资,如果他认为价格太低;ii)报告一个他的薪水的模糊价值,例如“不到10000美元”,如果他认为价格是可以接受的;iii)报告他的薪水的准确值,如果他认为价格足够高。在这个例子中,我们可以看到,数据提供者的隐私偏好和数据收集者的激励机制将影响数据提供者在其敏感数据上的绝定。另一方面,数据收集者可以从数据提供者身上获益,而且这个利益很大程度上取决于数据的质量和数量。因此,数据提供者的偏好对数据收集者的获益有很大的影响。当数据收集者决定激励机制时,收益在对其有重要的影响。这就是说,数据收集者在激励机制上的决定于数据提供者的喜好是相关的。因此,如果数据提供者想要通过“销售”他的数据给数据收集者获得令人满意的利益,他需要考虑的影响决定数据收集者的利益(甚至数据挖掘者的利益)的因素,这将反过来影响他从收集者那里可以得到利益。在数据交易场景中,卖方(即数据提供者)和买方(即数据收集者)想获得更多的利益,因此之间的交互数据提供者和数据收集器可以正式使用博弈理论进行了分析。同时,销售数据可视为机制设计理论可以应用的一个拍卖。考
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[148730],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料