1. 研究目的与意义(文献综述)
1.1研究的目的及意义
网络爬虫是一种按照一定的规则,自动抓取万维网信息的程序或脚本。在如今的大数据时代,网络信息繁杂,人工筛选是一个近乎不可能的任务,所以要如何实现高质量、高精度、高速度的自动筛选出需要的网络信息是一个关键的问题。而通用的搜索引擎通常都存在一定的局限性,若是想要检索某些特定领域或特定主题的信息,则需要使用能够满足特异性需求的网络爬虫。
在生活节奏日益加快的时代,人们满足娱乐需求的时间变得越来越碎片化,由此也催生了一大片娱乐产业,如短视频、网络小说等。据统计,截至2020年,单阅文集团下注册的网文作者数已超780万人次,再加上其余各大小网站,网文作者人数逾千万。相对于网文本身,他们更注重的是网文的各项数据,如此便有了需求。
2. 研究的基本内容与方案
本次设计的基本内容为:通过网络爬虫爬取各大网站的网文信息,主要为收藏情况,推荐/月票情况,每日更新字数情况等,再将数据储存整理后,将其可视化。在安卓平台上设计软件,便于用户对数据的查看和检索,同时完善软件的各项基本功能。
安卓软件拟需实现的功能有:能够通过书名或作者名检索书籍,并查看该书籍的各项数据信息;能够对感兴趣的书籍添加关注用以查看书籍数据,以及加入/移出书架用以对书籍进行阅读等操作;用户可以根据自己的喜爱进行书单设置,给书单点赞、关注、评论等操作;能够根据用户检索的频次,按热度向用户推荐书籍、书单;实现用户可以自行设置昵称、头像等个人信息,可修改密码,删除以往评论等功能。同时需要完善后端应用,实现管理用户账号,能进行封号、解封、禁言以及接收和回复用户反馈等操作。
采用的技术方案:先通过网络爬虫爬取需要的数据,再进行安卓开发设计出具有相关功能的软件,将数据进行整理和可视化后,在软件上进行展示。客户端采用安卓开发技术,用activity来处理事件,界面使用xml技术,数据储存使用sqlite数据库。应用架构大概分为三层,顶层为activity、fragment和view等视图渲染和业务调用,中层为三方业务库,实现主要业务逻辑,底层为与业务无关的框架库。而在服务器端采用apache、php、mysql等技术。
3. 研究计划与安排
第1-4周:查阅相关文献资料,明确研究内容,了解研究所需理论基础,确定方案,完成开题报告,完成英文文献的翻译。
第5-6周:熟悉掌握基本理论,熟悉开发环境。
第7-13周:分步实施,完成软件的开发并测试,撰写论文初稿。
4. 参考文献(12篇以上)
[1]王洪威.主题网络爬虫的分析与设计[d].北京:北京邮电大学,2012.
[2]sunshin lee,mohamed m. g. farag,edward a. fox.focused crawler for events[j].international journal on digital libraries,2018,19(1):3-19.
[3]yong-bin yu,shi-lei huang,nyima tashi, et al.a survey about algorithms utilized by focused web crawler[j].电子科技学刊,2018,16(2):129-138. doi:10.11989/jest.1674-862x.70116018.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。