基于网络爬虫的网站页面更新监测系统开题报告

 2022-01-02 16:51:07

全文总字数:5759字

1. 研究目的与意义(文献综述)

1.1设计背景

随着互联网上信息的爆炸式增长,人们对信息聚合和信息检索的需求也日益提升。为了满足用户的信息获取需求,分类目录、门户网站、搜索引擎、新闻资讯推送应用等服务陆续诞生。

分类目录是一种导航网站,以国外的yahoo和国内的hao123为代表。这种网站通过人工整理的方式把各种各样的高质量网站分类整理,以黄页的形式罗列出来,供用户自行查找和跳转。这种服务只适合桌面端用户,且仅能用作导航,已无法满足当今用户对简便性和高效性的需求。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1基本内容

l定时爬取并存储指定网站或页面的数据。

l捕获页面的变更信息及特征信息。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

2月28日之前:结合选题和任务书的目标要求,完成开题报告的撰写;2月29日至3月22日:学习系统开发所需的各项技术,并完成后端系统的部分开发;3月23日至4月15日:完成后端系统的全部开发,并进行主要测试;完成后端系统的文档编写;4月16日至4月25日:完成前端系统开发;4月25日至4月30日:进行系统优化;5月1日至5月25日:撰写及修改毕业论文;5月26日至6月5日:准备答辩

4. 参考文献(不低于12篇)

[1] 张俊林.这就是搜索引擎 核心技术详解[m].北京:电子工业出版社,2012.

[2] 宋春阳,金可音.web搜索引擎技术综述[j].现代计算机(专业版),2008(05):82-85.

[3] 王文钧,李巍.垂直搜索引擎的现状与发展探究[j].情报科学,2010,28(03):477-480.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。