基于主题爬虫和词频统计的新闻内容相似度研究开题报告

 2022-01-21 21:23:07

1. 研究目的与意义、国内外研究现状(文献综述)

一、研究意义自2005年起以国内新兴互联网势力三巨头bat(百度、阿里巴巴和腾讯)纷纷上市为标志,传统的互联网三大门户(新浪、搜狐和网易)开始逐渐走出群众视野[1],新闻行业也开始脱离互联网世界。

幸运的是,由于硬件性能的提升和大数据流量的不断增长,提倡基于数学统计的人工智能学者终于彻底使坚持从语法做算法的团队信服,人工智能迎来了黄金发展时期。

上世纪90年代美国众多名校研究的分词和文本相似度算法,以及20世纪初中国一流高校开始研究的中文文本的分词[2],都成为了核心直接应用在新闻的自动标注、分类、聚类和智能推荐等诸多方面。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容和问题

一、研究目标本次毕设着眼于接近底端的分词和文本相似度算法,通过了解现有的开源成熟算法和结合本科阶段所学的数理知识,尝试基于实体关联和矩阵的秩设计并实现新的文本相似度算法。

同时,以基于b/s模式和ssm框架的网站作为平台完成数据预处理模块的开发和展示。

二、研究内容1、项目控制与展示利用版本控制工具、开发框架完成服务器和本地部署连接平台的搭建,使得可以实现本地代码到服务器代码的热更新。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与方案

一、算法思路:语义网络、知识图谱等技术的兴起,使语义相似度的计算又有了新的高效的算法,已经有部分开源框架可以通过api调用的方式获得两个词之间的相关度。

图2关系矩阵图邻接矩阵是数据结构中的词汇,用于存储图结构中节点与节点之间是否有路径或者存储节点之间的距离。

如果将邻接矩阵定义中的节点换成对应的单词实体,边或者长度换成语义相关度,即如图2所示,成为关系矩阵,该矩阵可以一定程度上反映两组实体之间的关系。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究创新点

1、算法与系统相结合,具有良好的交互2、利用企业框架和开源环境进行系统开发3、利用传统的优秀算法作为参照,提高新算法的开发效率和正确率

5. 研究计划与进展

研究计划及预期进展:2017年10月 - 2018年2月:进行基础知识如数据结构与算法、操作系统、c或java的stl库源代码、主流框架和设计模式、基本数据库、计算机网络等知识点的复习和巩固。

2018年3月:数据预处理模块网站的分析、设计、开发和测试。

2018年4月:算法的实现、评价和迭代优化。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。