1. 研究目的与意义、国内外研究现状(文献综述)
本课题的意义、国内外研究概况、应用前景等(列出主要参考文献) 1、本课题的意义 (1)网络信息总量急剧增长的时代,社会标签的数量十分可观。以社会标签的合理利用和组织为出发点,提升其在信息组织中的利用率已成为当前的研究热点。 (2)中文图书的自动分类是传统信息组织领域的研究内容,在web2.0时代,利用社会标签对其进行自动分类,是学科知识的一种创新。 2、国内外研究概况 社会标签在文本自动分类中的应用,引起了很多学者的研究兴趣:一些研究了其有效性的验证及算法改进、并预测了将来的研究方向及存在的问题。自从社会标签产生以来,研究人员就试图将这种用户产生的标引词用于文本分类中,围绕社会标签的规范控制开展了很多研究。靳延安等[1]从情报检索的角度阐述了对社会标签进行规范控制的重要性。目前,对社会标签进行规范控制处理的研究大致可以分为两个方面:挖掘社会标签内部的语义关系;将社会标签与传统的知识组织系统进行融合。针对社会化标注的同义、多义、缺乏层次等不足,目前研究的主要思路都是一方面是从标注系统中提取出浮现语义;另一方面是借助常识工具增加标签语义,提高对标签的正确理解,减少社会化标注系统中的混乱[2]。由于社会化标注所形成的大众分类与传统的分类互有利弊,融合方法的主要思路是利用规范的受控词汇对不规范的社会标签词进行约束,从而提高社会标签的质量。Munk等[3]指出,社会标签的本质是用户自主创造的、描述性的元数据在文本的标注和分类中的应用。这表明社会标签的一个具体应用是用于文本的自动分类。相关的社会标签的自动分类研究,则是主要集中在探究其有效性验证研究和算法改进研究两个方面。已有学者对其进行实证研究,已有学者对其进行实证研究,如Sun等[4]以博文为研究对象,对比了基于社会标签、社会标签结合博文摘要以及博文摘要三者的分类结果。最终指出,基于社会标签结合博文摘要的分类精度最高,而基于社会标签的分类效果也比基于博文摘要的分类效果要好。虽然如此,社会标签在文本自动分类中的应用效果还不是十分理想。对此,不少学者也做了相关研究。丛鲁丽[5]将社会标签应用到中文博客的分类中,提出一种基于社会标签的新型分类算法。卢露等[6]提出基于标签的博客文章分类方法,该方法将文本分类问题转化为图优化问题,并提出一种利用迭代算法计算图中节点属于各类别的概率值,有效的提高了博文的分类性能。 综上,社会标签的规范控制研究充分地揭示了社会标签的语义内涵,鉴于社会标签属于自然语言,方便与传统知识组织系统的受控语言进行融合,经过严格的受控语言的约束,社会标签的标注质量明显得到了提高。而社会标签的自动分类研究则表明在文本分类领域,对网络信息资源的自动分类具有可行性。并且,也证明社会标签的分类效果可以通过提出一些新型自动分类算法来提高。因此社会标签与中文图书同属 |
自然语言,语义关联较紧密,但以往的分类效果普遍不高,标签本身的规范性和严密性都有待于加强。基于此,何琳等[7]提出一种新型的内核受控,外壳非控的分类模型,搭建了社会标签-主题词概念空间,来实现对中文图书的自动分类。本文使用此方法对一批标签进行了处理,并实现了对中文图书的自动分类。 3、应用前景 Web2.0时代下,社会标签已成为草根大众参与网络资源发布、组织等的平台,利用庞大的社会标签资源可将用于中文图书的自动分类,将会大大提高社会标签的使用效率,同时也为自动分类研究方向注入新的活力。 主要参考文献: [1]靳延安,李瑞轩,文坤梅等.社会标注及其在信息检索中的应用研究综述[J].中文信息学报,2010,24(4):52-62. [2]魏建良,朱庆华.社会化标注理论研究综述[J].中国图书馆学报,2009,184(6):88-96. [3]MunkTB.,MorkK..Folksonomy:ThePowerLawtheSignificanceoftheLeastEffort[J].KnowledgeOrganization,2007,34(1):16-33. [4]SunA,SuryantoMA,LiuY.BlogClassificationUsingTags:AnEmpiricalStudy[C].Proceedingsofthe10thInternationalConferenceonAsianDigitalLibraries.Berlin,Germany:Springer,2007:307-316. [5]丛鲁丽.基于大众分类法的中文博客分类方法[J].情报杂志,2009,28(9):50-52. [6]卢露,魏登月.基于博客标签的博文分类算法[J].上海电力学院学报.2013,29(06):544-548。 [7]何琳,万健,何娟,郭诗云.基于社会标签的中文图书自动分类研究[J].现代图书情报技术,2014(9):1-9. |
2. 研究的基本内容和问题
1、研究目标
本文基于豆瓣网上中文图书的社会标签,利用一种内核受控,外壳非控的分类模式对中文图书分类进行了实证研究。
2、研究内容
3. 研究的方法与方案
1、研究方法
本文采用的方法主要是何琳等提出的内核受控,外壳非控的分类模型,该模型利用主题词对社会标签进行规范,构建主题词-社会标签概念空间,以替换不规范的社会标签,进一步提高分类效果。然后,预利用svm算法对中文图书自动分类,检验社会标签对中文图书自动分类的效果。
2、技术路线
4. 研究创新点
1、从豆瓣网上抓取一部分图书的标签进行统计分析,将标签与图书的主题词进行比较。
利用内核受控,外壳非控的分类模型对下载的中文图书进行分类
5. 研究计划与进展
1、第一阶段,下载豆瓣网上的经济管理类目下的中文图书社会标签和对应的opac主题词。
2、第二阶段,建立社会标签与对应的主题词概念空间。
3、第三阶段,预使用svm算法来检验规范前后的社会标签以及主题词的分类效果。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。