1. 研究目的与意义
随着网络的迅速发展,万维网成为大量信息的载体,各种新的数据应用场景层出不穷,医疗、电商、金融、政务等越来越多领域都隐藏着数据的身影。在这个数据大爆炸的时代,数据就是资产,数据资产的获取成为了众多公司发展重要一环,如何有效地提取并利用这些信息成为一个巨大的挑战。而传统数据获取方式存在着一定的局限性,如:不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页,以及通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。而爬虫系统则能很好的解决上述问题。它根据既定的抓取目标,有选择的访问手机app与相关的链接,获取所需要的信息。将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 因此作为互联网数据批量自动采集的工具-爬虫,正在被各个领域重点研究应用。
本课题旨在基于appium这样一个移动端的自动化框架基础上开发一个爬虫系统,通过移动端搭建appium环境并进行抓取设计来抓取移动端的app数据。而app抓取不同于网页抓取,无法用最简单和效率最高的的方式通过直接分析网页请求,通过构造网页请求模拟发送取得返回值,从返回数据提取出需要的字段。对于app而言,请求的参数构造是在app内部进行的,这也是我们需要通过appium的主要原因。
目前移动互联网的快速发展,人们越来越习惯于借助手机网络去寻找自己想要的事物,各大主流移动端app的数据价值与数量与日俱增,如抖音app博主粉丝数量,京东app商品销量等数据需求价值日渐增长。而市面上针对网页数据的爬虫系统较多,而针对移动端数据的抓取能力较为有限,因此设计一个面向移动端设备抓取数据的爬虫系统显得尤为需要。
2. 研究内容和预期目标
研究内容:
1. 如何基于appnium实现爬虫系统,有效从移动端获取数据用于科研分析
2. 代码的两个主要模块,一个appium控制手机,一个mitmproxy抓包工具抓取数据;
3. 研究的方法与步骤
研究方法:
1. 观察法,收集网上各种主流爬虫系统在移动端抓取数据的效率及结果进行观察;
2. 经验总结法,总结设计爬虫系统的经验,追求系统界面友好;
4. 参考文献
4.本课题主要参考文献 |
[1] 钱雪忠. 数据库原理及应用[M]. 北京:邮电大学出版社,2007. [2] 刘敏贤. SQL Server数据库应用系统中数据完整性的设计与实施[J]. 航空计算技术, 2002(02). [3] 陈晓勇. MySQL DBA修炼之道[M]. 北京:机械工业出版社,2017. [4] 何斌武. 电子邮件概述[M]. 北京:高教出版社,2004. [5] 张若愚. Python科学计算[M]. 北京:清华大学出版社,2012. [6] 张宝华. SQL Server2008数据库管理项目教程[M]. 北京:化学工业出版社,2010. [7] 芒努斯·利·海特兰德. Python基础教程第3版[M]. 北京:人民邮电出版社,2018. [8] 李辉. 数据库技术与原理(MySQL)[M]. 北京:清华大学出版社,2016. [9] 刘丽霞. 基于SQLServer的数据库技术及应用[M]. 陕西:西北工业大学出版社,2007. [10]王志刚.MySQL高效编程[M]. 北京:人民邮电出版社,2012. [11]迈克尔 T. 古德里奇. 数据结构与算法-Python语言实现[M]. 北京:机械工业出版社,2018. [12]钱雪忠. MySQL数据库技术与实验指导[M]. 北京:清华大学出版社,2012.
|
5. 计划与进度安排
5.本课题的具体新小进度安排(包括序号、起迄日期、工作内容) | ||||||||||||||||||||||||||||
|
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。