1. 研究目的与意义
随着计算机技术的不断发展,新的编程语言层出不穷,Python,Html正是其中的佼佼者,相比较早期普及的高级语言,Python有着更加实用的模块和库,虽然牺牲了底层性,但却更加方便开发小型项目,此外,Html也已经普遍运用于网络前端,标记语言的特性结合CSS丰富了网页内容和格式。
本选题的网络爬虫就是基于Python编写的,爬虫程序是一种自动获取网站的程序,可以对针对性的网页内容进行有效的抓取,并按照设计保存在本地,方便使用。区别于传统的爬虫和引擎,选择Python来编写爬虫,不同于其他高级语言,Python相对于简单完成小型项目,它丰富的模块和良好的兼容性,使它成为编写爬虫程序的良好选择。
2. 研究内容和预期目标
对针对性的网页的特定内容进行抓取,按照设计保存在本地
对爬取的数据进行可视化分析与体现
写作提纲:
3. 国内外研究现状
爬虫在搜索引擎中比较普遍。目前几种比较常用的爬虫实现策略:广度优先爬虫程序,Repetiitive爬虫程序,定义爬行爬虫程序,深层次爬行爬虫程序,此外,还有根据概率论进行的可用Web的数量估算,用于评估互联网的Web规模的抽样爬虫程序,采用爬行深度,页面导入链接量分析等方法,限制从程序下载不相关Web页的选择性爬虫程序等,google的部分爬虫程序就是基于Python的,但由于Python自身的原因,更多的是作为一种粘合剂配合其他语言编写的内核使用。
4. 计划与进度安排
- 确定论文方向
- 以论文题目为核心,收集翻阅相关资料
- 论证分析论文的可行性,实际性,相关资料的整理
- 整合已有资料,搭建论文框架
- 代码的编写,项目的分析与实现
- 完成初稿,修改不当,补充不足
- 资料整合,最终定稿
5. 参考文献
周立柱,林玲 聚焦网络爬虫技术研究综述【j】.计算机应用,2005
周中华,张惠然,谢江 基于python的新浪微博数据爬虫【j】.计算机应用,2014
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。