基于Python爬虫的网上商城比价系统的实现开题报告

 2022-01-12 20:58:20

全文总字数:3884字

1. 研究目的与意义(文献综述)

电子商务的规模随着互联网的发展得到了极大的提升,方便了人们的购物活动。其中,电商平台和平台中商家数量的激增,充分地扩大了消费者在购买商品时的选择权,但海量的商品信息以及复杂的价格变换,在很大程度上给消费者的选择带来困惑。消费者购买商品比较价格时需要登录不同的电商平台,切换大量不同商家的商品网页,这种手工操作在电子商务早期,规模较小时具有可行性,但在当前的电子商务环境中,采取这种操作费时费力,消耗消费者大量的精力和购买热情。另外,消费者面对海量的商品信息,且不能明确对商品的需求时会出现“信息迷航”,为了买到有服务保障且物美价廉的商品,消费者往往需要投入大量的时间对各电商平台和商品做比较,浪费很多时间和精力,这与网络购物的便捷性相违背。在这样的背景下,采用网络爬虫这种可以实现自动化及自定义化的信息采集工具帮助消费者进行价格对比是十分必要的。网络爬虫是一种可以按照设定策略自动且持续的完成网页信息采集技术,其从给定的初始URL链接队列中取出一个URL,自动分析页面上的信息,提取页面中未访问过的URL加入待访问URL队列,重复,直到满足停止的条件。网络爬虫能够帮助用户从互联网海量的信息资源中获取目标信息,是一种被广泛应用的自动化信息采集工具。网络爬虫的优势不仅在于可以自动化采集信息,还允许使用者自定义信息采集的规则与采集数据的格式,具有极大的灵活性。

爬虫比价可以通过网络爬虫,获得各电商平台中商品的价格以及其他相关信息,综合展现给用户,使用户可以方便快捷地获得同一商品在不同平台的销售价格及销售状况,简化用户购买商品中的搜索比价过程。此外,电商平台中各商家推出各种名目繁多的促销活动中可能存在虚假的促销以及价格陷阱等行为,消费者可以通过爬虫比价清晰地发现这些问题。爬虫比价程序通过网络爬虫,可以直接在商家的商品销售的网页中获取价格信息,监测价格的波动,使消费者避免误入虚假促销。

电子商务兴起于国外,借助电子商务规模的扩大,国外对比价系统的研究起步较早,并且已经成功地培养了用户的使用习惯。根据调查显示,美国的网民中在电商平台中购买商品前习惯使用比价购物网站的比例已达到68%。比较成熟的比价网站列举如下:

ShopLocal是美国一个比较有影响力的电商比价网站。ShopLocal主要搜集各电商平台的商品信息,并且在为用户提供购物比价服务的同时会收集用户的反馈,对大量用户评价较差的商品进行曝光。并且可以为用户提供更隐秘的信息,包括正在清仓降价的商家,哪些商家的商品质量最有保障等。该网站的特色在于可以把电商平台上的商品价格与用户所在地的实体店的价格相比较。

BizRate网站正式上线于1996年,主要为用户提供购物比价服务,并以此为基础,逐渐演变为一个专注于购物的搜索引擎。用户在该网站通过检索可以比较目标商品包括价格在内的各种相关信息,可以为用户的购买决策提供丰富的信息支持。

Nextag在1998年正式创建,同样是美国比较著名的比价购物网站。该网站不仅可以搜索比较普通商品,比价服务同时也包含旅游业务、金融理财产品、房地产等。

限于国内的互联网起步较晚,国内的比价购物行业的发展也晚于一些国家。随着国内互联网的快速发展以及电子商务的强势崛起,比价购物网站也取得长足的进步,比价购物行业的发展逐渐成熟。其中一些成熟的比价网站包括:慢慢买比价网,一个为用户提供商品比价服务的导购平台。用户在该网站进行全网比价,并且能够对商品的历史价格进行查询,避免“先涨价再降价”的促销陷阱。该网站倡导理性消费,并以为消费者推荐质优价廉的商品为目标。

盒子比价网于2010年上线,专注于提供数码产品的比价购物服务。该网站的网络爬虫会定向抓取主流电商平台的商品信息,包括价格,商品评分等信息,只抓取主流电商平台的商品信息有利于保证推荐的商品为正品。

比一比比价网,比一比可以进行全网商品信息的搜索,为用户提供尽可能全面的商品信息,同时具备历史价格查询的功能。比一比比价网的一个特色在于可以为用户推荐淘宝商家亏本冲量的促销信息,推荐超低价的商品。

2. 研究的基本内容与方案

研究基本内容:利用python和爬虫框架requests或scrapy对淘宝、京东、亚马逊等电商的网页商品价格数据进行获取,在对价格数据进行清洗和处理后,完成数据挖掘与分析,帮助用户完成商品的价格分析和比较。

研究的目标:本次设计旨在帮用户从多个电商的成千上万件产品中获取最合适用户需求的产品,即根据用户的要求,如电商、产品价格、店家位置、商品已售数量、评价数量等等指标(用户可以选择其中一个或多个指标以满足自己的预期),筛选出合适的产品。

拟采用的方案和措施:拟爬取的商城为淘宝、京东以及亚马逊。用户根据个人喜好自己选择其中一个或几个商城,最后返回的结果为用户选择的商城中多个产品的对比。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-3周:查阅相关文献资料,明确研究内容,了解python语言和开发工具,初步搭建并熟悉开发环境。确定方案,完成开题报告。第4周:完成外文5000字的翻译。第5-7周:编写代码,能够实现对淘宝、京东、亚马逊商城基本数据的获取

第8-10周:修改完善代码,使爬虫代码能够按照要求获取三大商城的商品数据,并解决爬去过程中出现的问题。第11-12周:完成商品价格以及其他数据的分析得到最终结果,并设计界面、完善代码提交互性。

第13-15周:完成并修改毕业论文。第16周:准备论文答辩。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] 李玉香,王孟玉,涂宇晰.基于python的网络爬虫技术研究[j].信息技术与信息化,2019(12):143-145.

[2] 陈乐.基于python的网络爬虫技术[j].电子世界,2018(16):163 165.

[3] 王碧瑶.基于python的网络爬虫技术研究[j].数字技术与应用,2017(05):76.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。