1. 研究目的与意义
近年来,由于工业发展的大跃进,在能源的消耗日益俱增的同时,工业废弃物排放量也同步增长, 环境的质量逐渐恶化,特别是北上广深等一线城市,空气污染尤为严重。城市人口对生活环境的要求以及环保意识变得越来越强烈,空气质量直接影响着人们的各种活动和身体健康,改善环境质量、控制大气污染的呼声日益高涨。为此,采用网络爬虫技术,构造特定url,可以对一些天气网站进行信息的提取,这样能够获取国内主要城市近期空气质量信息,然后利用统计学方面的知识对获取到的信息进行分析,得出这些城市空气质量现状及污染变化特征,从而预测未来发展趋势,有利于更好的进行空气污染的预防,这对治理城市的空气环境有十分重要的意义。
2. 研究内容和预期目标
本项目要求利用网络爬虫方法获取我国主要城市近期的空气质量信息(pm2.5)及气温、风力、风向等其他气象信息,从空间和时间两个维度分析空气质量的分布特征或规律并进行可视化展示,进一步分析影响空气质量的可能因素,给出具有一定参考价值的结论。
主要内容包括:
1.我国主要城市近期的空气质量信息(pm2.5)及气温、风力、风向等其他气象信息,从空间和时间两个维度分析空气质量的分布特征或规律并进行可视化展示。
3. 研究的方法与步骤
主要借助互联网资源,参考网上开源的网络爬虫和各种网络相关的书籍、视频等信息,学习了解网络爬虫运行机制、基本原理。根据所爬取的目标网站设计自己的爬虫,自主学习Python语言,熟悉Scrap框架的搭建,了解Mysql的简单操作,对有关框架学习、编写、调试。
4. 参考文献
[1]李航,统计学习方法,北京:清华大学出版社,2012年1月
[2]于娟,刘强,主题网络爬虫研究综述,计算机工程与科学,2015年2月:231-237
[3]胡松涛,python网络爬虫实战 第2版,北京:清华大学出版社,2018年1月
5. 计划与进度安排
1、2022年2月24日-3月8日,完成开题报告;
2、2022年3月9日-5月31日,毕业论文写作,按开题报告撰写论文;
3、2022年4月13日-4月26日,中期检查,学生汇报课题进展情况,回答教师提问。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。