1. 研究目的与意义
本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。
网络爬虫主体网站的特性。
对url进行构造。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 国内外研究现状分析
对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。
网络上比较著名的开源爬虫包括nutch,larbin,heritrix。
网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 研究的基本内容与计划
1.了解网页内容常用提取方法,如网页关键词、钓鱼网页跳转特点等,并为之构造学习模式;2.熟悉常用分析工具,如网络爬虫等工具的使用;3.熟悉cnn、tensorflow等工具;4.将上述应用问题与分析工具结合起来,分析所提取内容的特点;2019.03.182019.03.31查阅资料完成任务书,完成开题报告。
2019.04.012019.04.14开题报告会,学习基本机制 2019.04.152019.04.28查阅资料,进行论文基本章节的写作,与导师探讨设计缺陷,并提出解决方案,完成初稿,并完成基础代码编写。
2019.04.292019.05.12进行系统稳定性测试调试,修复bug。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
4. 研究创新点
针对爬虫的作用机制以及设计模式进行了优化,采用多线程的技术可以明显提高I/O操作的速度,同时因为采用了合适的设计模式,可以及时地将内存中的数据导入到数据库中,极大地减少了内存资源的占用,使爬虫程序在运行期间,尽可能少地占用计算机资源。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。