1. 研究目的与意义(文献综述)
背景资料:
随着互联网应用的快速发展与变革,使得互联网上每天产生的数据量难以估计,并且互联网产生的数据多数是以文本形式或者最终会呈现为文本形式存在,比如新浪微博腾讯说说每天产生的大量新数据,比如百度每天产生的大量搜索日志,比如一些服务性问答系统的问答日志,这些数据以每天tb量级的增长着,而在大量的文本中,短文本的数量尤为庞大。因为除了一些大段的类似于完整的文章或者日志这样的长文本外,更多的人使用简短的话进行交流。比如微博的140字限制,比如人们经常使用一个问题或一句话或几个关键词进行搜索,比如自动问答系统中的问题也是短文本的形式,比如购买东西后的评价,比如用于日常交流的即时通信软件,人们也不会使用大段文字交谈,而是一来一往的用简短的语言交流。短文本比长文本更能体现人们的思想,消费倾向,情绪等信息。如何对这浩瀚的短文本数据进行挖掘和分析,进而帮助决策者提高产品用户体验甚至发现商机,成为当前文本挖掘的重要问题。
短文本挖掘的主要问题,在于如何结构化短文本为计算机能理解的形式,短文本因为其短小,具有语义的稀疏性,使用传统方法进行建模,会产生特征矩阵稀疏问题,所以,对短文本进行准确合理的建模,是短文本挖掘可靠分析的基础。而文本相似度计算是文本挖掘技术的基础,短文本相似度可以发展为各种短文本比较的理论依据。比如自动问答系统中,把用户的提问同数据库中已有问题进行相似度计算,来找出已有问题的答案;比如搜索过程中,把用户搜索的关键词同片段相似度进行相似度计算来找出相关内容;比如短文本的分类、聚类需要用到短文本的相似度或者距离。[1]
2. 研究的基本内容与方案
基本内容与目标:
1)通过阅读相关文献,理解词语相似度、句子相似度、文本相似度、语义的相关概念与计算方法;
2)基于实用性,针对短文本的特点,从词语、句子出发,设计基于语义的短文本相似度计算方法,并利用尼尔森公司问卷调研数据,测试其匹配率。
3. 研究计划与安排
1.2016/1/11—2016/1/22:查阅参考文献,明确选题;
2.2016/1/23—2016/3/7:进一步阅读文献,并分析和总结;确定技术路线,完成并提交开题报告;
3.2016/3/8—2016/4/26:需求分析,算法或系统设计,分析、比较或实现等;
4. 参考文献(12篇以上)
[1]张芸.基于btm主题模型特征扩展的短文本相似度计算[d].安徽:安徽大学,2014.
[2]裴运亮.基于切词和语义的中文相似度研究与应用[d].西安:电子科技大学,2011.
[3]江大鹏.基于词向量的短文本分类方法研究[d].浙江:浙江大学,2015.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。