1. 研究目的与意义
本课题的主要目的是设计web页面图片提取程序,程序使用 crawler4j实现多线程,让程序具备更强大的抓取能力和灵活性。
程序要实现对特定url链接网页的图片的爬取。
还要完成图片信息提取任务, 即从抓取回来的网页提取出来 : 图片信息、url地址、图片标题等。
2. 课题关键问题和重难点
关键问题:(1)搭建服务器,开发服务端并连接数据库,实现数据库的数据存储和读取,并传送给客户端。
(2)在数据库里主要设计图片信息表、网址信息表。
图片信息表用于存储所提取的图像、图像标题,网址信息表用于存储网址的链接,网站信息。
3. 国内外研究现状(文献综述)
web页面图片提取程序的设计类似于爬虫技术,而对于网络爬虫的研究从上世纪九十年代就开始了, 目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。
爬虫的需求呈爆炸式增长的趋势,很多爬虫产品蜂拥而出,这是互联网创新的时代,但是很多用户不懂爬虫技术,而在淘宝等平台上出现了很多爬虫服务商,这对于只需要特定简单服务的用户来说,这种使用成本无疑大大提高,我有意开发这样的一个程序,针对只需要网页图片素材的用户,让用户不管是在微博、微信公众号、文章,还是政府门户的信息公开,或者门户网站、新闻社区等媒体,或者其他领域如金融的网站,都可以通过本程序提取到他们需要的图片,这种定制开发的服务,大大方便用户的分析和使用,也很容易实现供应和需求者的相互匹配。
然而,对于这其中的法律问题, 特别是知识产权问题, 不甚明了,除了 robots协议,很多数据网站都会另外声明其数据使用规范,同时,如大众点评等网站提供的 api 很难满足分析的需要,就形成了数据被独占而其价值得不到有效开发的不合理现象。
4. 研究方案
系统主要功能描述(1)登陆页面用户根据后台注册的用户名密码匹配,匹配成功进入程序的使用程序,失败则弹出用户名或者密码错误。
(2)目标网页的处理页面的下载选择并使用网络工具包(例如httpclient)下载指定url的网页源代码,用get/post的方式提交请求,并设置好请求的cookies参数,query/formdata参数,分析目的请求的各种必要参数的来源.对页面的分析,使用正则表达式工具获取网页图片数据。
然后编写脚本,将数据存储进mysql数据库。
5. 工作计划
2022.02.15 2022.03.01 :完成开题报告。
2022.03.02 2022.03.12 :根据任务书,完成原型系统设计和开发;学习网络爬虫基本机制,了解程序设计的基本的原理,学习使用mysql数据库,学习 java, 搭建maven环境,学习 webmagic 与crawler4j框架。
2022.03.12 2022.04.02 :查阅资料,进行论文基本章节的写作,与导师探讨设计缺陷,并提出解决方案,完成初稿,并完成基础代码编写。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。