科研人力资源网站的识别与抽取开题报告

 2022-01-26 11:04:52

1. 研究目的与意义、国内外研究现状(文献综述)

1、本课题的意义(1)网页文档本身作为一种信息传递的载体,丰富人们信息来源的同时,也给人们获得有用信息带来了极大的困难。

准确地识别网页内容是否为所需内容能为我们省去很多的时间和精力,因此本课题拟在爬虫软件中加入识别网站内容的算法,使爬虫最终获得网页为人力资源网页,为之后的信息抽取提供相对准确的数据源。

(2)随着互联网的快速发展,人们越来越依赖于通过互联网来获取他们所需要的信息。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

1、研究目标通过爬虫对目标大学进行网页抓取并识别,得到大学科研人员的网页;利用算法对这些网页进行处理并提取科研人员的姓名,联系方式,邮箱等相关属性。

2、研究内容(1)算法研究在现有爬虫软件的基础上,加入网页内容识别的算法,来获得科研人员的网页;通过对爬虫收集到的网页进行人工查验,去除不是科研人员信息的网页;对查验后的网页源代码进行分析,设计算法从网页源代码中提取出科研人员的姓名,联系方式,邮箱,部门以及研究方向这五种属性。

3、拟解决的关键问题(1)分析科研人员网页的特征,得到此内容网页的识别算法,并加入到现有的爬虫软件中。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

1、研究方法选定几个美国大学,对其科研人员的网页进行特征的分析,定义识别规则并用算法实现;熟悉并了解爬虫webmagic的组成,将识别算法嵌入爬虫中,并进行测试;对收集的网页进行清洗,去除非科研人员的网页,分析总结这些网页源代码的特征,定义抽取规则,并用程序实现信息抽取。

2、技术路线(1)使用java语言对现有的爬虫软件进行拓展,加入网页内容的识别算法,来获取科研人员的网页。

(2)通过分析html语言结构,利用c#编程实现网页源代码的清洗。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

1、本课题的网页识别的算法是将识别出美国大学中科研人员的网页。

2、本课题建立的提取规则能够提取科研人员的姓名,邮箱,联系方式,部门以及研究方向。

5. 研究计划与进展

1、第一阶段,对国内外的相关算法研究成果进行文献调研。

2、第二阶段,分析爬虫软件,研究科研人员网页特征,构建识别算法并加入爬虫软件中。

3、第三阶段,对下载的网页内容进行清洗,分析网页源代码,建立规则并提取内容。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。