1. 研究目的与意义
伴随着经济的发展,环境污染特别是大气污染问题受到人们的重点关注,网络上也能查询到多种所关注的污染物浓度状况信息。但是由于各种原因,大气污染数据虽然能实时更新查询,却缺少数据保存进而进行数据分析的途径,同时数据种类繁多,甄选复杂。随着科技时代的飞快发展,使用技术和创新来搜索数据,是大数据研究的方向。基于Python的网络爬虫提取数据是目前使用频率较高的一种技术方式,Python 语言简洁、开发速度快、可以跨平台的特点,使用多种筛选技术对某个网页中的图片和文字进行提取。这样不仅能很精准地找到网页中所需数据,而且能自动快速地将这些数据永久地保存下来,大大减少寻找数据的时间,为包括环境污染在内的大量问题提供了重要分析途径。
2. 研究内容和预期目标
研究内容:①了解大气污染状况,以及主要关注的污染特征,如AQI、颗粒物、SO2、O3等;②基于Python等语言学习爬虫技术,了解数据提取基本原理;③使用如正则、XPath 和Beautiful Soup等手段提取网页图片和文字信息,获取污染数据;④对数据进行整合分析,进而获取大气污染状况和趋势。
预期目标:利用爬虫技术等手段(借助python等软件)抓取环境监测网站的污染气体数据(浓度数据会每小时更新或者每天更新,但是只能实时查阅记录,不能完全下载,因此需要借助软件获取),对苏州或周边不同监测站点每日的不同污染气体数据(AQI、PM2.5、PM10、SO2、NO2、CO、O3等)进行抓取,并进行存储,编写数据分析软件(或借助数学分析软件等)对结果进行展示和分析(一段时间的气体浓度序列、均值变化、变化趋势等等),进而了解苏州等地大气污染状况。
3. 研究的方法与步骤
研究方法:文献资料法,测试实验法
研究步骤:
第一步,选题为基于爬虫技术的污染气体浓度获取与分析系统
4. 参考文献
[1] jie baoa, pan liu, hao yu, et al., incorporating twitter-based human activity information in spatial analysis of crashes in urban areas. accident analysis prevention, 2017,106, 358–369.
[2]shi zejian, shi minyong, lin weiguo, the implementation of crawling news page based on incremental web crawler, 2016 4th intl conf on applied computing and information technology/3rd intl conf on computational science/intelligence and applied informatics/1st intl conf on big data, cloud computing, data science engineering (acit-csii-bcd) 348 – 351.
[3]王芳, 基于python 的招聘网站信息爬取与数据分析,信息技术与网络安全,2019 ,38 (8),42-46
5. 计划与进度安排
1) 2020-2-10~2020-3-08查阅文献资料,进行文献综述,撰写开题报告,翻译英文文献;
2) 2020-3-09~2020-3-22查阅相关资料,了解爬虫技术相关原理,学习python程序;
3) 2020-3-23~2020-4-12查阅相关资料,结合软件进行网页数据抓取和存储;
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。