基于Python的新浪微博POI数据获取与分析开题报告

 2022-03-04 20:20:41

1. 研究目的与意义

研究背景:

随着互联网信息技术的发展,在这个信息时代,数据量的增长速度已经远远超过的我们的想象。迅速的对这些数据进行处理,进行信息的提取已经成为目前计算机领域一个巨大的难题。而且无论是政府还是企业,对于大数据的掌握都可以起着至关重要的作用。数据处理技术蕴含的巨大的商业价值必将被慢慢的挖掘出来。

微博作为web2.0时代新生网络应用形式,在最近几年中得到了迅猛的发展。新浪微博中一条用户状态限定280字符的内容长度,不但更适合现代社会快速生活节奏的需要,而且也更方便用户通过移动通信终端上传和分享自己感兴趣的微博信息,我们可以把微博理解为“微型博客”或者“一句话博客”。用户可以将看到的、听到的、想到的事情写成一句话,或发一张图片,通过电脑或者手机随时随地分享给朋友,一起分享、讨论;还可以关注朋友,即时看到朋友们发布的信息。在中国,已有14%的互联网用户开始使用微博,而新浪微博的市场份额占有率接近87%,是中国微博产业的主导力量。微博的使用人群数量基数大,状态信息更新频繁、信息传播迅速。并且微博平台媒介用户占有率相对集中,因此基于微博数据的分析研究成为了十分值得关注的研究方向。

新浪微博的签到功能可以使用户分享发微博的位置,在做什么以及其他poi(即 point of interest,兴趣点)空间数据信息。在新浪微博上,通过获取并分析大量用户的签到poi数据信息,可以大概得出该地区用户消费水平、习惯喜好等内容结论,从而可以该地区发展提出对应的建议,使该地经济水平、服务业服务质量可以有相对性的提高,同时也可以使该地区居民生活水平有明显的提升。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

研究内容:

本论文基于地理学、制图学以及地统计分布等相关理论,利用python对新浪微博的poi数据进行抓取并分析。

预期目标:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

研究方法:

(1)聚类分析法:聚类分析是指通过计算点之间的距离,对位置相近的点进行聚类,即把所有的点分成若干个类,使得类内差异最小、类间差异最大。每个类根据该类所有点的位置可以产生最小外接多边形或椭圆,通过多边形内的点数与多边形面积的比值,得到该多边形单位面积签到数,高于平均数的即可认为是签到热点区域。

(2)空间自相关分析法:空间自相关是分析相邻对象属性值的差异,如相邻对象属性值相似,则相邻对象为正相关;如相邻对象属性值相异,则相邻对象为负相关;如相邻对象属性值随机,则相邻对象无相关性。当一个区域具有高的签到数据,且和周围区域为正相关,则该区域就可以认为是个热点。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] wen e,sun v.新浪微博研究报告[z/ol].(2011-05-20),http://www.techweb.com.cn/data/2011-02-25/916941.shtml. [2] 周立柱,林玲.聚焦爬虫技术研究综述[j].计算机应用,2005,25(9):1965-1969.

[3] 欧健文, 董守斌. 模板化网页主题信息的提取方法 [j] . 清华大学学报: 自然科学版, 2005, 45(09) : 1743-1747.

[4] 张晶. 网络地理信息应用中用户行为数据获取与分析研究[d].解放军信息工程大学,2015.

[5] 张子昂,黄震方,靳诚,关健,曹芳东. 基于微博签到数据的景区旅游活动时空行为特征研究——以南京钟山风景名胜区为例[j]. 地理与地理信息科学,2015,(04):121-126.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1)接受任务,内容理解,指导教师讲解、讨论、阅读指导教师规定的文献,撰写开题报告(2022.3.7-2022.3.13)。

(2)进行poi数据抓取并保存(2022.3.14-2022.3.20);

(3)制作数据地图:利用crimestat、arcgis等软件制作散点图、分区统计图、分区密度图和栅格制图(2022.3.21-2022.3.31);

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。