Web页面图片提取与存储系统设计与实现开题报告-开题报告网

1. 研究目的与意义

本课题的主要目的是设计web页面图片提取程序，程序使用 crawler4j实现多线程，让程序具备更强大的抓取能力和灵活性。

程序要实现对特定url链接网页的图片的爬取。

还要完成图片信息提取任务，即从抓取回来的网页提取出来 : 图片信息、url地址、图片标题等。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 课题关键问题和重难点

关键问题：（1）搭建服务器，开发服务端并连接数据库，实现数据库的数据存储和读取，并传送给客户端。

（2）在数据库里主要设计图片信息表、网址信息表。

图片信息表用于存储所提取的图像、图像标题，网址信息表用于存储网址的链接，网站信息。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 国内外研究现状（文献综述）

web页面图片提取程序的设计类似于爬虫技术，而对于网络爬虫的研究从上世纪九十年代就开始了，目前爬虫技术已经趋见成熟，网络爬虫是搜索引擎的重要组成部分。

爬虫的需求呈爆炸式增长的趋势，很多爬虫产品蜂拥而出，这是互联网创新的时代，但是很多用户不懂爬虫技术，而在淘宝等平台上出现了很多爬虫服务商，这对于只需要特定简单服务的用户来说，这种使用成本无疑大大提高，我有意开发这样的一个程序，针对只需要网页图片素材的用户，让用户不管是在微博、微信公众号、文章，还是政府门户的信息公开，或者门户网站、新闻社区等媒体，或者其他领域如金融的网站，都可以通过本程序提取到他们需要的图片，这种定制开发的服务，大大方便用户的分析和使用，也很容易实现供应和需求者的相互匹配。

然而，对于这其中的法律问题，特别是知识产权问题，不甚明了，除了 robots协议，很多数据网站都会另外声明其数据使用规范，同时，如大众点评等网站提供的 api 很难满足分析的需要，就形成了数据被独占而其价值得不到有效开发的不合理现象。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 研究方案

系统主要功能描述（1）登陆页面用户根据后台注册的用户名密码匹配，匹配成功进入程序的使用程序，失败则弹出用户名或者密码错误。

（2）目标网页的处理页面的下载选择并使用网络工具包(例如httpclient)下载指定url的网页源代码，用get/post的方式提交请求，并设置好请求的cookies参数，query/formdata参数，分析目的请求的各种必要参数的来源.对页面的分析，使用正则表达式工具获取网页图片数据。

然后编写脚本，将数据存储进mysql数据库。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

5. 工作计划

2022.02.15 2022.03.01 :完成开题报告。

2022.03.02 2022.03.12 :根据任务书，完成原型系统设计和开发;学习网络爬虫基本机制，了解程序设计的基本的原理，学习使用mysql数据库，学习 java，搭建maven环境，学习 webmagic 与crawler4j框架。

2022.03.12 2022.04.02 :查阅资料，进行论文基本章节的写作，与导师探讨设计缺陷，并提出解决方案，完成初稿，并完成基础代码编写。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

Web页面图片提取与存储系统设计与实现开题报告

1. 研究目的与意义

2. 课题关键问题和重难点

3. 国内外研究现状（文献综述）

4. 研究方案

5. 工作计划

您可能感兴趣的文章

最新文档

联系我们

登录

1. 研究目的与意义

2. 课题关键问题和重难点

3. 国内外研究现状（文献综述）

4. 研究方案

5. 工作计划

您可能感兴趣的文章

最新文档

联系我们