基于Python的新浪微博签到数据获取与分析开题报告

 2022-03-04 20:20:43

1. 研究目的与意义

研究背景:

新浪微博是一款为大众提供娱乐休闲生活服务的信息分享和交流平台,于2009年8月14日开始内测,2009年11月3日,sina app engine alpha版上线,可通过api用第三方软件或插件发布信息。截止2014年3月,微博月活跃用户1.438亿,日活跃用户6660万,其中包括大量政府机构、官员、企业、个人认证账号,开放的创博机制使新浪微博成为中国的“公共议事厅”。新浪微博api覆盖了新浪微博的全部功能,可以通过api发微博,传照片,加关注,甚至搜索等全部功能。

在国外有twitter、instagram、youtube,但在国内,微博更像是这三者的合体,国内移动大数据服务商questmobile发布2016年度报告———“2016年度app价值榜”,数据显示,2016年12月,微博月活跃用户再次实现46%的增长,在所有app中排名第八位,其中价值用户比例高达76.3%。据2016年微博发布的第三季度财报中显示,截止2016年9月30日,微博月活跃人数已达到2.97亿,较2015年同期相比增长34%;其中9月份移动端在mau总量中的占比为89%;9月的日活跃用户达到1.32亿,较去年同期增长32%。摩根士利2017年针对微博发布的一项报告预测,在2017年内,微博的月活用户将达到四亿。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

研究内容:

本论文通过新浪微博平台提供的api接口,利用python获得微博的签到数据,并对签到数据进行一系列处理,运用arcgis中的核密度分析、叠加分析、地统计分析工具,最终得到具有统计显著性的聚类地理要素的空间特征,包括苏州商圈范围、苏州市的时空热力图。

预期目标:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

研究方法:

  1. 格网化处理:数据格网化,常用的方法有两种算法,一种是nearest neighbor gridding 和gridding with splines in tenson。本论文主要采用第一种方法,邻近格网化处理将会指定数据范围和格网间隔,从而即可确定格网节点,另外还需要确定搜索半径,有了节点和半径即可搜索出该节点附近分部的点值,利用距离做权重,计算出节点处的值,即为格网点的值。该算法要求在每个节点的搜索范围内只要有一个点。离散签到数据格网栅格化的算法主要对每个格网进行栅格化,其格网权重算法是以格网中的每个签到点的签到总次数与分配的权重等级相乘并累加获得每个格网的权重值,格网类型则用每个签到点的同类型类型与权重的积再相加进行比较得到。

  2. 密度分析法:是通过离散点数据或者线数据进行内插的过程,根据插值原理不同,主要是分为核密度分析和普通的点\线密度分析。核密度分析中,落入搜索区的点具有不同的权重,靠近搜索中心的点或线会被赋予较大的权重,反之,权重较小,它的计算结果分布较平滑。在普通的点\线密度分析中,落在搜索区域内的点或线有相同的权重,先对其求和,再除以搜索区域的大小,从而得到每个点的密度值。

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    4. 参考文献

    [1] 禹文豪,艾廷华, 杨敏,等.利用核密度与空间自相关进行城市设施兴趣点分布热点探测[j].武汉大学学报(信息科学版),2016,41(2): 221-227.

    [2] ghosh d, guha r. what are we ‘tweeting’about obesity? mapping tweets with topic modeling and geographic information system[j]. cartography and geographic information science, 2013, 40(2): 90-102.

    [3] 隋正伟, 邬伦, 刘瑜, 等. 基于签到数据的城市间交互网络研究[j].地理与地理信息科学,2013,29(6): 1-6.

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    5. 计划与进度安排

    (1)接受任务,内容理解,指导教师讲解、讨论、阅读指导教师规定的文献,撰写开题报告(2022.3.6-2022.3.13)。

    (2)收集相关参数,通过网络、期刊、报纸、书籍进行相关资料搜集(2022.3.14-2022.3.20);

    (3)爬取新浪微博数据:利用新浪微博api爬取苏州市一定时间范围内的新浪微博签到数据,并存放于数据库中(2022.3.21-2022.3.31);

    剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。