1. 研究目的与意义(文献综述)
随着互联网、云计算、物联网、社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长,而数据的存储单位也不断扩大。例如, 欧洲粒子物理研究所(CERN)的大型强子对撞机每秒产生的数据高达40 TB(1 TB=1024 GB), Facebook每天处理的数据超过500 TB, 阿里巴 巴拥有的数据量超过100 PB(1 PB=1024 TB), 新浪微博用户数超过5亿, 每天产生的微博数超过1亿条. 中国移动研究院的一份简报中称, 2011年人类创造的数据达到180亿吉字节(GB),而且每年还在以高于60%的速度增长, 预计到2020年, 全球每年产生的数据将达到350万亿吉字节(GB)[1]。有关数据表明,过去三年人类的信息数据总量比以往4万年的数据量还要多[2]。因此可以说,我们已经进入大数据时代,大数据已经成为国家重要的战略资源,对大数据的存储、管理和分析也已经成为学术界和工业界高度关注热点。如此大规模的数据量已经无法在允许的时间内用常规的软件工具对其内容进行管理、分析和处理,但是另一方面,数据规模越大,对其挖掘可能得到的价值更大,因此学习大数据显得尤为重要。而要有效的学习大数据, 机器学习技术必不可少[3]. 数据的海量性将造成存储开销大、检索速度慢等问题,而数据的高维性将造成维度灾难问题,使得很多机器学习算法失效。哈希学习通过将数据表示成二进制码的形式, 不仅能显著减少数据的存储和通信开销, 还能降低数据维度, 从而显著提高大数据学习系统的效率。哈希学习的目的是学到数据的二进制哈希码表示,使得哈希吗尽可能地保持原空间的近邻关系,即保相似性。具体来说,每个数据点都会被一个紧凑的二进制串编码,在原空间相似的两个点应当被映射到哈希码空间相似的两个点。从而可以实现在大数据库中快速并且准确的找到与给定数据相似的数据。大数据已不仅仅是数据量大, 同时还伴随着数据的多源、动态、价值稀疏等特性, 因此为机器学习界提出了一些新的挑战. 近年来, 大数据机器学习受到了广泛关注[4], 成为机器学习领域的研究热点之一, 新成果不断涌现. 例如Kleiner等人[5]基于集成学习中Bagging的思想提出新型数据采样方法BLB,用来解决 Bootstrap在遇到大数据时的计算瓶颈问题 ;Shalev-Shwartz和Zhang[6]基于随机(在线)学习的思想提出了梯度上升(下降)的改进方法, 用来实现大规模模型的快速学习;Gonzalez等人[7]提出了基于多机集群的分布式机器学习框架GraphLab, 用以实现基于图的大规模机器学习。哈希学习由Salakhutdinov和Hinton[8,9]于2007年推介到机器学习领域, 于近几年迅速发展成为机器学习领域和大数据学习领域的一个研究热点,国内学者在这方面也进行了有意义的探索。根据学习模型(一般指度量学习阶段的模型)是否利用样本的监督信息(例如类别标记等), 现有的哈希学习模型可以分为非监督模型、半监督模型和监督模型,非监督模型又可以进一步细分为基图的模型和不基于图的模型,监督模型又可以进一步细分为监督信息为类别标记的模型和监督信息为三元组或者排序信息的模型,哈希学习目前已被广泛关注并在某些应用领域取得了初步成效, 但研究才刚刚开始, 有的学习场景和应用领域甚至还没有研究者进行哈希学习的尝试; 问题本质和模型构建有待于进一步深入思考。
2. 研究的基本内容与方案
基本内容1、研究大数据哈希学习算法。
2、研究哈希算法在图像检索中的应用。
3、图像哈希方法的实现以及在主流图像数据集上的实验验证。
3. 研究计划与安排
1-3周:查阅文献,完成开题报告4-6周:总体设计,完成论文综述
7-10周:设计算法,功能模块设计
11-13周:编码和测试
4. 参考文献(12篇以上)
[1]李武军,周志华. 大数据哈希学习:现状与趋势[j]. 科学通报,2015,z1:485-490.[2]李芬,朱志祥.大数据发展现状及面临的问题[j].西安邮电大学,2013
[3] zhou z h. machine learning and data mining (in chinese). commun chin comput fed, 2007, 3: 35–44 [周志华. 机器学习与数据挖掘.中国计算机学会通讯, 2007, 3: 35–44]
[4]jordan m. message from the president: the era of big data. isba bull, 2011, 18: 1–3
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。