1. 研究目的与意义(文献综述)
随着信息化时代的到来,互联网技术不断得到发展,也越来越深入人们的生活,人们可以通过查询网络上的资源,获得自己的所需,实现了足不出户,了解天下事的愿望。并且通过时间的推移,互联网技术的越发成熟,人们对互联网的运用也逐渐趋于平常,对互联网的依赖程度比以往更加强烈。但是,随着网上的信息量急剧增加,人们对网络上搜索信息的准确性,可靠性等要求的逐渐提高,如何在众多信息中用最短的时间搜寻到与用户所需匹配度最高的信息,成为当今研究的热点。
现今,面对海量的信息,许多的搜索引擎的查准率非常低,比如关键字搜索,这种搜索方式只是简单的对关键字进行匹配搜索,在面对一个杂乱无章,毫无分类的信息库,通常反馈给用户的查询结果中,有效的结果经常是寥寥无几,甚至根本没有,可靠性与准确性极低。还有一个使用较多的搜索方式是分类目检索,通常用于门户网站,它是以分类目录浏览方式来实现信息检索,但是在时间内面对众多用户同时搜索,对于字词在不同领域里的意思不同,如何把握正确的词义,这对搜索引擎来说是很困难的,使得用户所搜到的结果也经常不是自己所需的。
对于搜索引擎来说,网络爬虫是其重要的组成部分。通常通过网络爬虫去搜索一个url,搜索出与其对应的页面,把这些搜索到的页面存入页面库中,通过关键字信息提取出有效页面,再把这些页面中的所有url提取出来,将新提取出来的url放入待提取的队伍中,再一次进行遍历指定页面抓取时,按照一定的规律和顺序进行url的爬行,然后不断循环上面过程,为了避免死循环,在达到一个条件时停止,通常采取设置一个阈值的方式。
2. 研究的基本内容与方案
研究的目的是在用户在进行信息搜索的时候,对于传统的搜索方式,搜索的结果要不是牛头不对马嘴,要不就是关键信息藏得很隐秘,不能很直观的表达出来,使得搜索结果有效度很低,为了能够在众多信息中用最短的时间搜寻到与用户所需匹配度最高的信息成为本文的目标,这里的匹配度高需要识别用户的语义,对其语义进行判定,找出最合适用户的反馈结果,并且反馈结果非常直观。研究设计的基本内容是用爬虫进行网页的爬取,从初始URL集合开始,在整个网络中搜集有效的页面,但是主题搜索并不是以搜索的覆盖面越大为主要目的,它更加偏向于爬取与主题相关性高的资源,这就需要分析网页,对于网页的分析,需要分析它的正文内容,网页链接地址,网页脚本,图片,视频等多媒体文件进行提取,再分析完页面所有内容后,需要对这些页面取舍,进行过滤处理,通过关键字和关键词等来对页面进行一个过滤(正则表达式的过滤规则)的处理,接着就是对这些过滤出来的页面进行页面本地化处理,通过这4个过程就基本能实现基于web的主体搜索。通过java编程,对页面采集,页面分析,页面过滤,和页面本地化进行一一实现。总体功能模块如图所示。
3. 研究计划与安排
(1)第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。(2)第4-5周:完成系统设计,掌握开发过程所需要的软件和编程语言。(3)第6-12周:系统的开发、调试。(4)第13-16周:系统测试,完成并修改毕业论文。(5)第17周:准备论文答辩。
4. 参考文献(12篇以上)
[1]郝以珍.基于页面分析的网络爬虫系统的设计与实现[d].华中科技大学,2012.
[2]陈丛丛.主题爬虫搜索策略研究[d].山东大学,2009.
[3]贺晟.搜索引擎中主题网络爬虫的研究与设计[d].安徽大学,2010.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。