1. 研究目的与意义
指代消解在语言篇章中是很常见的一种用法,可以使得文章的表述更加简洁明了。然而这种简洁明了的表述却增加了机器学习在篇章处理方面的难度。如果需要让机器取代人工在这一方面有所应用的话,指代消解便成了这一项工作中首先需要解决的大问题。因为如果不首先解决这个问题,就无法使得机器进行对整个篇章的理解。因此指代消解成了机器理解篇章内容的重要基础。
通常人们在撰写文章的过程中为了语言的简洁凝练,减少冗余,就会使用到指代这一语言现象。但如果能对指代的现象进行很好的处理,使得文章达到连贯,先行语和照应语也形成了对应关系,即已经完成了指代消解的过程,那么指代消解将可以在机器学习、机器翻译、自动问答以及文本摘要等方面拥有极大的应用价值。
2. 研究内容和预期目标
在汉语方面,有一个十分关键的领域,就是汉语篇章中汉语人称代词消解以及中文名词短语消解的现象。
当前,对中文或者英文的代词的指代消解已经有了相当的进展,也已经提出了一些方法针对这些代词的指代消解。所以用什么办法来提升对指代消解在名词与代词方面的应用的性能成为了目前的最重要问题。于是,基于树核函数的方法就被提出了。树核函数的指代消解也是利用语法分析树进行的,通过动态的扩展树的结构来达到目的。在此过程中涉及到中心理论、集成竞争者信息和融入语义相关角色。
近些年来,随着核方法来处理各种内核树结构句法信息的广泛应用,人们比较语法树卷积核树之间的相似数定义可以通过计算两棵树之间的相同的子树语法树来实现。也可以利用某些转换规则(如主题依赖于谓语形容词修饰它们所依赖的名词等),语法树生成依赖关系树,在树节点上添加词性定义,实体类型,语块,上位词等功能,实现了基于树核的依赖关系树的定义。
3. 研究的方法与步骤
本课题的具体任务是基于微观话题结构,利用机器学习相关技术,研究并实现一个指代消解自动分析系统。
而其实指代消解的过程就是一个确定照应语的过程,所以若要实现指代消解自动分析系统,且结合本课题中基于微观话题结构代替传统指代消解中的mention单元,于是采用了微观话题链抽取上下文相关特征,在机器学习的基础上来实现指代消解系统。
在整个实验过程中采用先整体感知,后逐步设计的步骤来完成系统实现。在毕业设计的初步阶段要做到整体感知就是要重现整个实验流程,从而能够从整体上来对实验有一个初步的印象,也为后面的程序设计指明了前进的方向,不至于在编写程序的时候毫无头绪。由于本课题的研究中涉及到大量的标注语料的使用,当完成了对系统的初步了解后就需要对标注好的语料库进行分析,只有完成了分析的过程才能开展软件的设计过程。
4. 参考文献
[1]陈勤,自然语言处理基本理论和方法[m],哈尔滨工业大学出版社,2013.08.
[2]chrismanning/hinrichschütze著,苑春法/李伟/李庆中译,统计自然语言处理基础[m],电子工业出版社
[3]米歇尔(mitchellt.m.)(作者),曾华军(译者),等(译者),机器学习[m],机械工业出版社
5. 计划与进度安排
(1)1月15日至2月15日 分析课题,查找资料。
(2)2月16日至2月28日 完成需求分析。
(3)3月 1日至3月16日完成开题报告。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。