1. 研究目的与意义(文献综述)
1.1研究背景:
随着互联网技术的发展,web上的信息量越来越庞大,用户迫切需要有效的网络信息导航。以 google、百度为代表的传统搜索引擎,提供了由关键词搜索出相关网站的这一功能,从而取得了巨大的成功。与此同时,随着越来越多的网络站点的出现,人们对一个站点感兴趣后,往往希望能找到与之主题相关的相似网站,即从网站到网站的搜索。
一般来说人们通常使用的解决方案为网站导航,如hao123、百度网址大全等,这类应用的主要缺点很明显:相似网站主要是需要更多的人工维护,更新不及时;主题有限,不能涵盖用户需求。这些只能称之为网站的分类,而相似网站自动推荐、自动发现的技术被迫切地需求着。
2. 研究的基本内容与方案
2.1基本内容(功能):
本次设计开发的同类网站查询系统大体分为三个模块,爬虫模块、离线计算模块以及用户查询模块。爬虫模块主要为抓取网络上的网站。离线计算模块主要工作为对网站的结构和内容进行分析整理,获取关键信息,得出各个网站之间的相似度。用户查询模块主要内容是用户提交待查询网站以及查询结果的展示。
需要实现的功能为:
3. 研究计划与安排
2016.01.11—2016.01.22 查阅参考文献,明确选题
2016.01.23—2016.03.07 进一步阅读文献,并分析和总结;确定技术路线,完成并提交开题报告
2016.03.08—2016.04.26 需求分析,算法或系统设计,分析、比较或实现等
4. 参考文献(12篇以上)
[1] dr.shruti kohli.an intelligent approach to miningthe related websites[j].web intelligence intelligent agent technology, ieee/wic/acminternational conferences on,2012,(1):254-257.
[2] t honda.automatic classification of websites basedon keyword extraction of nouns[j].springer vienna,2006,(1):263-272.
[3] t joachims.text categorization with support vectormachines: learning with many relevant features[j].springer berlinheidelberg,1998,(1398):137-142.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。