基于爬虫技术的污染气体浓度获取及分析系统开题报告

 2022-02-24 19:46:44

1. 研究目的与意义

伴随着经济的发展,环境污染特别是大气污染问题受到人们的重点关注,网络上也能查询到多种所关注的污染物浓度状况信息。但是由于各种原因,大气污染数据虽然能实时更新查询,却缺少数据保存进而进行数据分析的途径,同时数据种类繁多,甄选复杂。随着科技时代的飞快发展,使用技术和创新来搜索数据,是大数据研究的方向。基于Python的网络爬虫提取数据是目前使用频率较高的一种技术方式,Python 语言简洁、开发速度快、可以跨平台的特点,使用多种筛选技术对某个网页中的图片和文字进行提取。这样不仅能很精准地找到网页中所需数据,而且能自动快速地将这些数据永久地保存下来,大大减少寻找数据的时间,为包括环境污染在内的大量问题提供了重要分析途径。

2. 研究内容和预期目标

研究内容:①了解大气污染状况,以及主要关注的污染特征,如AQI、颗粒物、SO2、O3等;②基于Python等语言学习爬虫技术,了解数据提取基本原理;③使用如正则、XPath 和Beautiful Soup等手段提取网页图片和文字信息,获取污染数据;④对数据进行整合分析,进而获取大气污染状况和趋势。

预期目标:利用爬虫技术等手段(借助python等软件)抓取环境监测网站的污染气体数据(浓度数据会每小时更新或者每天更新,但是只能实时查阅记录,不能完全下载,因此需要借助软件获取),对苏州或周边不同监测站点每日的不同污染气体数据(AQI、PM2.5、PM10、SO2、NO2、CO、O3等)进行抓取,并进行存储,编写数据分析软件(或借助数学分析软件等)对结果进行展示和分析(一段时间的气体浓度序列、均值变化、变化趋势等等),进而了解苏州等地大气污染状况。

3. 研究的方法与步骤

研究方法:文献资料法,测试实验法

研究步骤:

第一步,选题为基于爬虫技术的污染气体浓度获取与分析系统

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] jie baoa, pan liu, hao yu, et al., incorporating twitter-based human activity information in spatial analysis of crashes in urban areas. accident analysis prevention, 2017,106, 358–369.

[2]shi zejian, shi minyong, lin weiguo, the implementation of crawling news page based on incremental web crawler, 2016 4th intl conf on applied computing and information technology/3rd intl conf on computational science/intelligence and applied informatics/1st intl conf on big data, cloud computing, data science engineering (acit-csii-bcd) 348 – 351.

[3]王芳, 基于python 的招聘网站信息爬取与数据分析,信息技术与网络安全,2019 ,38 (8),42-46

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

1) 2020-2-10~2020-3-08查阅文献资料,进行文献综述,撰写开题报告,翻译英文文献;

2) 2020-3-09~2020-3-22查阅相关资料,了解爬虫技术相关原理,学习python程序;

3) 2020-3-23~2020-4-12查阅相关资料,结合软件进行网页数据抓取和存储;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。