基于hadoop平台的分布式网络爬虫研究与实现开题报告-开题报告网

1. 研究目的与意义（文献综述）

1、目的及意义（含国内外的研究现状分析）

1.1 研究目的及意义

21世纪以来，互联网进入了一个高速发展的时代，网民的数量每年都在进行大幅增长，人们获取信息越来越依赖网络这个渠道。而如此多的网民每天在网络上发布和获取数量庞大且种类庞杂的信息资源，导致网络的信息资源成指数模式向上增长。例如现在较为流行的社交网站：微博、sns、bilibili等，每天都有大量的信息数据产生，且时时都在进行数据的更新；便利的购物网站：淘宝、京东、亚马逊、当当等，每天都有数以万计的浏览数据、订单数据。据统计，如今网页的数量已超过2000亿个，涵盖了各个领域、各种语言、各种形式的资源；面对如此海量且以不同形式存在于不同位置的数据资源，如何获取并存储管理资源，如何从中快速找到个人所需的信息，如何保证信息的准确和有效性成为各界急需解决的问题。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

2、研究（设计）的基本内容、目标、拟采用的技术方案及措施

2.1研究目标

为了提升系统对海量数据的存储和处理能力，改善集中式网络爬虫的性能，本课题决定研究分布式网络爬虫技术。在Hadoop开源平台上实现分布式网络爬虫的算法，将集中式网络爬虫主要的几个环节进行分布式的实现，例如：网页的抓取采用多节点并行运行，网页数据的存储采用分布式存储方式，可以将资源分散开，便于后续的查询利用，链出链接的获取也采用分布式并行方式，加快处理速度；使现在正在开发的系统在数据获取和存储方面的能力得以增强，为后续系统实现各种应用提供强有力的基础支撑。

2.2研究内容

为完成上述目标，准备从以下几个方面去开展研究和实现：

1.研究Hadoop平台中HDFS（分布式文件存储系统）的运作方式，搭建实现课题所需的四个文件库（URL队列库、链出URL存储库、爬取网页存储库、最终资源库）。

2.研究Hadoop平台的MapReduce计算模型，运用该模型实现网络爬虫各部分的分布式运行。

3.研究并实现构成分布式网络爬虫的各个模块（分布式爬取模块、分布式URL提取模块、分布式过滤URL模块、网页去重模块、分布式存储模块）的算法。

4.将分布式网络爬虫的各个模块进行整合，最终实现基于Hadoop平台的网络爬虫系统。

2.3拟采取的技术方案及措施

在经过多方资料查询以及现有系统的对比，拟采用如下技术方案来实现该网络爬虫系统：

1.搭建Hadoop平台：首先准备好需要的安装包（CentOS-6.0-x86_64-bin、hadoop-1.2.1、jdk-6u45-linux-x64），在计算机上安装好CentOS操作系统，然后配置其Java环境，使用的JDK版本为jdk-6u45-linux-x64，在基础环境配置好后，进行Hadoop平台的搭建，在进行节点配置时，考虑到单谈计算机的内存等资源的限制，先设置两个节点。

2.进行分布式网络爬虫的设计与实现：将该系统分为五个主要模块进行分布式实现，各模块划分如下：分布式爬取模块、分布式URL提取模块、分布式过滤URL模块、网页去重模块以及分布式存储模块。其中分布式爬取模块用来并行抓取待抓取URL队列中各URL所对应的网页；分布式URL提取模块用来将爬取出的网页中所包含的所有链出链接提取出来；分布式过滤URL模块用来过滤掉上一模块中提取出的重复的URL；网页去重模块用来对比存储在系统上的网页信息是否重复，去掉重复的网页信息，避免存储资源的浪费；分布式存储模块就用来存储其他模块所产生的各种信息数据，而为了分别存储各模块的资源，在该模块部分设计了四个库：URL队列库、链出URL存储库、爬取网页存储库、最终资源库。

3.资源展示界面的设计与实现：由于存储在文件系统上的数据过于庞大，为了直观便捷地展示分布式网络爬虫系统的效果，初步设想制作一个简单的展示页面，将获取到的资源进行展示。

总的技术路线图如下所示：

3. 研究计划与安排

3、进度安排

第1－3周：查阅相关文献资料，明确研究内容，学习毕业设计研究内容所需理论的基础。确定毕业设计方案，完成开题报告。

第4－5周：完成hadoop平台的搭建，了解其基本操作。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

4、参考文献

[1]white t. hadoop: the definitive guide[j]. o’reilly media inc gravenstein highway north, 2010, 215(11):1 - 4.

[2]nesi p, pantaleo g, sanesi g. a hadoop based platform for natural language processing of web pages and documents[j]. journal of visual languages computing, 2015, 31:130-138.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于hadoop平台的分布式网络爬虫研究与实现开题报告

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

联系我们

登录

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

最新文档

联系我们