1. 研究目的与意义(文献综述)
1.1 研究目的及意义
伴随着计算机网络的发展,海量数据的时代已经到来,而这巨大数据量主要来源于五个方面:其一是宽带的普及和提速直接导致访问量、网络访问日志、通讯记录等迅猛增加;其二是社交网络(facebook、twitter、微博等);其三是各类视频资料,主要包括视频通讯、医疗影像、地理信息、监控录像等产业视频;其四是移动网络和各种智能终端;其五是传感器、rfid阅读器、导航终端等非传统的it设备。这些数据表现出很大的多源异构的特点,所以怎样有效的处理这些多源异构的数据一直是个热门的话题。
海量数据集的共同特点主要包含三点:其一是超过的数据是非结构化的;其二是数据量在持续不断地增加;其三是这些数据需要长时间存储,而非热点的数据也会被随机访问。在这持续增长的数据集中,从数量级上来看,需要计算处理的数据大部分是数字、文本等结构化信息,但是从数据存储容量上来看视频、图片等非结构化数据在整个数据集中占有着超过的空间,而这所有的数量集都有可能被计算处理。
2. 研究的基本内容与方案
2.1 研究目标
(1)针对异构数据因数据源间结构异构性、分布性和自治性等特征,提出了基于hbase分区存储异构数据的设计,以达到尽量复用hbase源代码的基础上实现对异构数据的高效存储。
(2)作为一个存储系统,在满足写性能的同时也需要同时兼顾其读性能。如果在写的时候能保持hbase本身的强一致性,就能基于hbase本身的机制,快速的从文件中检索出用户请求的大对象数据以减少其读取延时。
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,学习研究基于hbase的异构数据存储系统的设计与实现,确定设计方案,完成开题报告。
第4-5周:搭建hadoop和hbase平台,并了解其基本操作原理。
第6-9周:研究并掌握基于hbase的异构数据存储系统的基本原理,及异构数据的基本处理方法。
4. 参考文献(12篇以上)
[1]bhupathiraju v,ravuri r p. the dawn of big data-hbase[c].it in business, industry andgovernment (csibig), 2014 conference on. ieee, 2014: 1-4.
[2]liu y, chen b, he w,et al. massive image data management using hbase andmapreduce[c].geoinformatics (geoinformatics), 2013 21st internationalconference on. ieee, 2013: 1-5.
[3]konishetty v k, kumark a, voruganti k, et al. implementation and evaluationof scalable datastructure over hbase[c].proceedings of the international conference on advancesin computing, communications and informatics. acm, 2012: 1010-1018.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。