基于深度学习的网页内容提取方法研究开题报告-开题报告网

1. 研究目的与意义

本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，要考虑到网络爬虫的各种需求。

网络爬虫主体网站的特性。

对url进行构造。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 国内外研究现状分析

对于网络爬虫的研究从上世纪九十年代就开始了，目前爬虫技术已经趋见成熟，网络爬虫是搜索引擎的重要组成部分。

网络上比较著名的开源爬虫包括nutch，larbin，heritrix。

网络爬虫最重要的是网页搜索策略（广度优先和最佳度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究的基本内容与计划

1.了解网页内容常用提取方法，如网页关键词、钓鱼网页跳转特点等，并为之构造学习模式；2.熟悉常用分析工具，如网络爬虫等工具的使用；3.熟悉cnn、tensorflow等工具；4.将上述应用问题与分析工具结合起来，分析所提取内容的特点；2019.03.182019.03.31查阅资料完成任务书，完成开题报告。

2019.04.012019.04.14开题报告会，学习基本机制 2019.04.152019.04.28查阅资料，进行论文基本章节的写作，与导师探讨设计缺陷，并提出解决方案，完成初稿，并完成基础代码编写。

2019.04.292019.05.12进行系统稳定性测试调试，修复bug。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 研究创新点

针对爬虫的作用机制以及设计模式进行了优化，采用多线程的技术可以明显提高I/O操作的速度，同时因为采用了合适的设计模式，可以及时地将内存中的数据导入到数据库中，极大地减少了内存资源的占用，使爬虫程序在运行期间，尽可能少地占用计算机资源。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于深度学习的网页内容提取方法研究开题报告

1. 研究目的与意义

2. 国内外研究现状分析

3. 研究的基本内容与计划

4. 研究创新点

您可能感兴趣的文章

最新文档

联系我们

登录

1. 研究目的与意义

2. 国内外研究现状分析

3. 研究的基本内容与计划

4. 研究创新点

您可能感兴趣的文章

最新文档

联系我们