1. 研究目的与意义、国内外研究现状(文献综述)
一、研究意义随着互联网的发展,信息过载(Information Overload)已经成为困扰每个互联网参与者的难题。尤其在移动互联网时代,面对手机等小屏幕终端,运营者如何利用有限的展示界面将信息精确传递给用户以及用户在面对海量的信息时如何快速获取自己想要的数据是信息过载的两个主要表现。推荐系统是解决信息过载的主要途径之一亚马逊、京东、ebay、天猫等相关企业均大力研究和应用推荐系统以提高流量转化率,其中,亚马逊在推荐系统领域的研究成果颇丰。推荐系统分类方法多样,实现方案众多。近年来,将聚类分析等统计学原理应用于推荐系统的各个环节以降低计算复杂度提高推荐效率和推荐结果产出速度成为一种趋势。对聚类分析在电商推荐系统中的应用进行探究,对于将统计学与数据科学融合以提高推荐质量和数据处理效率重要实践意义。二、国内外研究概况(一) 国内研究状况作为数据挖掘的子方向之一,将聚类分析等多元统计方法应用于推荐系统是近来推荐系统研究领域的方向之一。在国内学界科研机构方面,国内科研机构逐渐开展对于统计学和数据挖掘领域的研究,其中,中国人民大学统计学院数据挖掘研究中心是比较早在统计学科下研究数据挖掘的团队。在研究与论文方面,厦门大学黄秋婷(2014)基于大数据条件下个性化推荐等数据挖掘方法对统计学提出的挑战,提出结合聚类分析、关联规则等模型,将统计分析等方法应用到个性化推荐系统中以提高数据处理效率。针对基于内存的协同过滤算法在线计算量较大,数据稀疏且可扩展性较低的缺点,王伟、杨宁(2012)等人提出了基于奇异值分解的K-means协同过滤算法。张亮(2012)等人提出一种基于聚类分析处理原始信息,引入归属度的概念,将真实用户行为模型转化为兴趣模型从而提高推荐准确率的方法。葛润霞(2008)等人在着重研究基于蚁群聚类算法的基础上,提出了基于内容聚类的协同过滤推荐算法,将改进的蚁群组合聚类算法和协同过滤相融合,从而克服了单一使用内容聚类和协同过滤推荐算法的缺点。程岩(2005)等人基于ROCK聚类算法提出了一种基于协同过滤技术的推荐系统模型,可以有效地解决基于协同推荐的数据稀缺性问题。曹洪江(2014)等人提出一种与信息检索领域中的倒排索引相结合并采用成员策略的用户聚类搜索算法,缩短了最近邻计算的时间,并且在保证推荐正确性的前提下有效改善协同过滤推荐系统的可扩展性。清华大学高凤荣(2005)等人提出的基于矩阵聚类的协作过滤算法优于传统协作过滤算法,减少了近邻搜索范围,提高了算法的推荐精度。张宜浩(2014)在研究中针对针对协同过滤推荐方法存在计算相似度方式单一等问题,提出了基于距离度量与高斯混合模型的半监督聚类的推荐方法。利用聚类分析的方法替代用户兴趣的相似度计算,且综合考虑了用户行为偏好和物品内容信息。不仅考虑了数据的几何特征,也兼顾了数据的正态分布信息。在产业与应用层面,项亮(2012)等人认为,按照数据进行归类协同过滤、内容过滤、社会化过滤等诸多方法,聚类分析在协同过滤、内容过滤等方法中起着不同的作用。在互联网发展早期或项目发展早期,由于数据量较小且推荐技术发展处于起步阶段,在基于人口统计学的推荐和基于内容的推荐中结合聚类算法构建简单的推荐系统是常见的做法。随着大数据时代的来临,将聚类分析与协同过滤算法相结合以提高数据处理效率是目前业界常用的做法。IBM中国软件工程师赵晨婷、马春娥(2011)等也认为将聚类分析应用于推荐系统,是减少协同过滤等推荐策略计算量的最优选择之一,并且提出了基于Mahout和聚类分析实现个性化推荐系统的方案。(二)国外研究状况随着互联网的普及和电子商务的发展.推荐系统逐渐成为电子商务IT技术的一个重要研究内容,得到了越来越多研究者的关注。从相关国际会议的角度看,ACM从1999年开始每年召开一次电子商务的研讨会,其中关于电子商务推荐系统的研究文章占据了很大比重。推荐系统国际会议(ACM International Conference on Recommender Systems)每年举办一届,是推荐系统领域最高规格的国际会议。国外研究方面,Sneha Y. S.和Dr. G. Mahadevan(2011)等人详细研究了各种聚类方法在用户分析中的应用以提高推荐的质量。Dietmar Jannach(2013)等人在综合研究推荐系统发展基础上,提出推荐系统主要分为基于协同过滤的推荐、基于知识的推荐和基于内容的推荐等,并提出将聚类分析、主成分分析等应用于协同过滤中可以有效提高推荐质量。(三)对以上综述的评价通过对相关文献、专著和领域相关会议所发表报告的综合研究,我们发现,近期关于聚类分析在电商推荐系统中的应用方面的研究国内居多,国外相关研究的发表时间较早,在相关专著中提及的内容也相对较少。出现这种情况的原因,一方面是因为推荐系统相关理论由人工智能领域发展而来,因此国外相关研究方向主要集中在人工智能等领域;而国内研究则主要由一些统计学、经济学、电子商务等管理学科背景的研究者发起,因此研究方向着重于统计学与推荐系统同或者数据挖掘相交叉的领域。另一方面是因为国外计算机领域的研究成果先进,当遇到数据量导致的性能问题时,国外率先提出了基于分布式计算的先进理论以提高计算效率。但是国内外研究领域均认同,推荐系统作为电子商务项目的新入口,表现出国内外对于电商与推荐系统相关性的一致认可。
参考文献[1] 项亮.推荐系统实战[M].北京:人民邮电出版社,2012,(06).[2] 何晓群. 多元统计分析[M].北京:中国人民大学出版社,2012,(01)[3] 黄秋婷.基于统计学的个性化推荐算法研究[D].厦门大学,2014[4] 赵晨婷,马春娥.探索推荐引擎内部的秘密[EB/OL].http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/index.html,2011[5] Sneha Y. S,Dr. G. Mahadevan. A Study on Clustering Techniques in Recommender Systems [J]. International Conference on Computational Techniques and Artificial Intelligence,2011[6] Dietmar Jannach, Markus Zanker, Alexander Felfering, Gerhard Friedrich. Recommender Systems:An Introduction[M]. Cambridge: Cambridge University Press,2011[7] 王伟,杨宁. 基于SVD的K-means聚类协同过滤算法[J].软件时空,2012,(08)[8] 葛润霞.基于内容聚类的协同过滤推荐系统研究[D].山东师范大学,2008[9] Peter Harrington,李锐.机器学习实战[M]. 北京:人民邮电出版社,2013[10]程岩,肖小云,吴洁倩. 基于聚类分析的电子商务推荐系统[J].计算机工程与应用,2005[11]曹洪江,傅魁. 协同过滤推荐系统中聚类搜索方法研究[J]. 计算机工程与应用,2014,(5)[12] 高凤荣,邢春晓,杜小勇,王珊. 基于矩阵聚类的协作过滤算法[J].华中科技大学学报,2005[13]张宜浩.基于半监督学习的个性化推荐研究[D].重庆大学,2014[14]李珊.个性化推荐系统研究综述[J].科技论坛,2014,(11)[15]张娜. 基于聚类的协同过滤电子商务个性推荐系统的研究[J].信息与电脑,2014,(11)三、应用前景将聚类分析引入推荐系统的不同环节,可以取得不同的效果。一方面,可以有效提高推荐系统的实时计算速度,使得用户获取更好的用户体验;另一方面,将现有算法与聚类分析相结合,可以提高推荐的准确率,进而提高信息的转化率。
2. 研究的基本内容和问题
一、研究目标
本课题主要采用个性化推荐系统领域著名网站**的经典开放数据进行一个仿真研究。希望通过这个研究,对推荐系统的算法实现有更加深入的了解,并且形成对于大数据条件下实时性、高准确率(良好用户体验)的推荐系统的更加全面的认识。将聚类分析等多元统计方法应用于推荐系统以对其进行优化并解决冷启动、数据稀疏性等问题是学界和业界一直在进行的尝试,本课题以探究相关问题的基础上,期望对聚类分析等多元统计方法在推荐系统中的应用方面提出自己的思考。
二、研究内容
3. 研究的方法与方案
一、研究方法
本课题首先在综合运用电子商务、统计学、多元统计分析、机器学习等知识的基础上,综合文献研究法,跨学科研究法,实证研究法,模拟法,探索性研究等研究方法,着重探究聚类分析在推荐系统中的使用场景及实现问题。
二、技术路线
三、实验方案
本课题主要采用个性化推荐系统领域经典开放数据进行一个仿真研究。希望通过这个研究,对推荐系统的算法有更加深入的了解,并且形成对于大数据条件下实时性、高准确率(良好用户体验)的推荐系统的更加全面的认识。
首先将数据集分为训练数据和测试数据,针对训练数据进行仿真模拟并构建算法模块(PHP、python等语言编程实现),然后使用测试数据集进行测试,统计准确率和召回率。
本课题中,数据需要多次分组,不断对构建的模块进行测试。
四、可行性分析
本课题是在大数据与智能化互联网背景下展开的,具有实际的研究意义。课题研究目标很明确,即探究聚类分析在电商推荐系统中的应用。课题研究的技术路线清晰,研究内容切实可行。研究者本人拥有较为扎实的理论知识,指导老师具有丰富的研究经验,指导能力强。在课题研究过程中出现的问题,研究者可以通过阅读文献,咨询老师等途径解决。
4. 研究创新点
第一,将多元统计方法与应用于推荐系统算法实现和数据预处理中以提高推荐质量是近年来国内学界对于优化推荐系统算法进行的热门研究,也是将统计学、机器学习、数据挖掘等领域技术的综合运用。进行此方面研究并将相关方案予以实现,有利于培养经济类学生的数据挖掘能力与综合运用能力。
第二,本文在前人研究基础上阐述了针对推荐系统攻击及防御等相关问题,并创新性的提出给予聚类算法的防御策略,此方案具有一定的新颖度。
5. 研究计划与进展
第一, 对相关领域研究的文献综述查阅和整理,预计2月10日完成
第二, 数据收集和预处理,预计3月1日完成
第三, 结合已有的算法和方案构思并改进算法思路并着手模拟实现,预期3月28日完成
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。