基于Python的二手房数据爬取与分析系统的设计与实现开题报告

 2022-01-04 20:41:48

全文总字数:5343字

1. 研究目的与意义(文献综述)

近年来,随着互联网技术的不断发展,互联网上的数据、信息出现了爆发式的增长,全球已经进入了大数据时代。在当今的社会,各行各业都在被互联网技术,特别是大数据相关技术所影响,大数据技术也在持续推动着社会发展和行业变革。

如今,面对逐渐庞杂、过载的信息量,无论是社会、企业还是个人在浏览、选择、甄别信息时,经常会出现信息渠道过多、获取信息低效、信息质量差、非相关信息等情况,不但浪费时间,同时也会影响决策的准确性。基于此,如何对数据挖掘和分析,从而更好的辅助社会、企业以及个人进行决策,成为了大数据时代的一个基础应用课题。为了解决上述问题,网络数据爬虫技术应运而生,它是用来高效的获取、整合散落在互联网数据的有效手段,能够高效,准确提供用户所需求的数据信息。

针对“基于python的二手房数据爬取与分析系统的设计与实现”这个设计课题的研究目的和意义,以下将分为技术和应用两个方面进行阐述。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本设计使用python语言结合scrapy分布式爬虫技术对武汉市房源信息网站上的二手房数据进行爬取、分析和可视化展示,并通过可视化界面给用户提供二手房数据背后隐藏的房源趋势和二手房买卖的建议。

本设计的开发和实现基于 scrapy 爬虫框架的数据采集系统,使用windows 10操作系统和python 3.8开发,使用pycharm, visual studio code等作为集成开发环境,通过pip安装各种python标准库,计划使用redis, mongodb作为数据库。

爬虫的分布式计划通过scrapy-redis进行实现。scrapy-redis 是一款开源的 python 库,是以scrapy 为基础针对分布式进行的改进。把 scrapy 爬虫框架与 redis 数据库相结合,将 redis 作为缓存,利用redis 进行 url 去重,实现爬虫的分布式。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

(1)2020.3.1 –2020.3.7完成系统的架构细化设计,明确详细的需求文档和实现路径;

(2)2020.3.8 - 2020.3.12完成相关资料的查阅和开发前序知识的学习,更深入地了解所需要的分布式爬虫的相关细节知识;

(3)2020.3.13 - 2020.4.5完成数据库设计、大部分后端开发工作;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]michael milton. 深入浅出数据分析[m]. 电子工业出版社,2012.

[2]周志华.机器学习[m].清华大学出版社,2016.

[3]弗朗索瓦·肖莱(francoischollet)[美],python深度学习[m].人民邮电出版社,2018.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。