1. 研究目的与意义(文献综述)
计算机技术及internet的迅速发展与广泛应用促进了信息时代的到来,尤其是科技文献的网络化更是为人们展开科学研究提供了方便,但同时网络中大量文献资源的无序、非结构化的状态也导致了文献检索的困难,因此对它们进行合理、有效的组织就成了提高文献检索效率的重要前提。 传统的文献组织方法不能很好地体现文献内容间的关联,而被称为“电子索引”的新兴组织技术——主题地图是适应文献资源的网络化而产生的,它结合了传统组织方法的优点,可以通过主题及其之间的关联来对文献内容进行有效的组织,并能通过主题间复杂的关联提供资源导航机制。聚类分析,又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
目前,随着中文文本挖掘技术的不断发展,使以内容分析为基础的科技文献计量成为可能。以我国知识管理研究出现以来的5000余篇学术期刊载文为分析对象,以特征选择算法抽取出10,000个特征词为基础,采用向量空间模型(vsm)和文本挖掘技术中的有序聚类方法,揭示出知识管理学科领域的研究内容在我国经历的三个发展阶段,同时还从特征词入手对这三个发展阶段的研究特点进行了归纳总结.将文本挖掘的相关技术应用到学科领域发展的研究中是一个很有意义的尝试,也为今后相关领域的研究工作起到一个很好的借鉴作用,这体现了我国在文本挖掘技术方面研究的重大进展。
另一方面,在国外,随着科技的快速发展和信息化时代的快速到来其对于科技文献的聚类分析的研究也日趋的重视起来,目前已提出了多种算法。
2. 研究的基本内容与方案
关于科技文献聚类方法的研究的基本内容是对日益繁多且种类交错复杂的科技文献进行一个科学的分类整理和归纳,其目的是为了实现对科技文献的有效整理还有分类,以便于我们平时工作和科研过程中能够便利的找到想要的文献,并加以利用,提高我们工作和科研的效率,更有利于我们社会经济的发展和进步。
本文正是以此为着眼点,提出了基于科技文献的文献组织方法。
本文的核心工作可以概括为以下几点: (1)采纳主科技文献中的主题、关联、事件的概念,将主题域进一步分为多层,提出了一个基于科技文献的多层文献组织模型:从文献内容中概化出能表达文献类别的主题,并根据文献类别的不同定义主题位于不同的层次;通过各层主题之间的关联来表达领域文献间的关联。
3. 研究计划与安排
1-3周:查阅文献,完成开题报告4-6周:完成论文综述,了解各种聚类分析方法7-10周:学习科技文献的聚类方法,重点学习数据挖掘方法11-13周:利用Matlab仿真,改进算法14-15周:完成论文写作及外文翻译,准备答辩
4. 参考文献(12篇以上)
[1]王琼.一种改进的k-means文本聚类优化方法[j].计算机与现代化,2015
[2]孟海涛陈笑蓉.基于模糊相似度的科技文献软聚类算法[j].贵州大学学报(自然科学版),2007
[3]杨彩莲谢福鼎.基于主题概念聚类的中文文本聚类[j].现代电子技术,2007
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。