基于深度学习的基因-疾病实体关系抽取开题报告

 2021-12-14 21:32:23

1. 研究目的与意义(文献综述)

近年来,生物文献数量急剧增长,这些文献包含着大量的可挖掘的信息,基因与疾病的关系是一直被关注的热门话题,生物文献数量的增长与手工挖掘信息速度的矛盾日益突出,如何让机器自动的挖掘基因与疾病的信息是我们的研究方向。

实体关系抽取主要有,1.基于词典的抽取方法,基于词典驱动的关联抽取方法非常灵活,但它只能识别以动词为中心词的关系,对于名词同位语之类的关联抽取则很难实现,且使用这种方法无法对系统中没有对应词汇入口的新关系进行探测[1]。2.基于规则的抽取方法,采用语言学家人为构造模板完成,其中选取的特征主要包括统计信息、标点符号、关键词等。通过模式和字符串匹配进行实体识别。需要领域专家穷举可能的关系模型来匹配所有能出现的关系形式。耗时耗力[2]。3.基于本体的抽取方法,本体是组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则的集合。借助已有的本体层次结构和其所描述的概念之间的关系来协助进行关系的抽取,在已建立领域本体的情况下也是一种行之有效的方法,但本体的建立本身也需要投入大量工作[3]。4.基于机器学习的抽取方法,使用深度学习方法自动进行特征提取,可以较好地解决传统机器学习带来的问题[4]。在利用深度学习方法强大的内在特征提取和表现能力的基础上结合传统机器学习方法的部分特征既可以利用这些传统人工特征。又不致于过分依赖特征的主观性和代表性不足的问题,从而让在实体关联抽取任务中取得更好的效果,同时在深度学习模型引入注意力机制可以使得模型表现的更好[5]

对于基因与疾病的关系抽取,牟冬梅等人是采用基于词典的实体识别技术, 构建实体抽取规则, 提出疾病与基因实体间关联关系发现模型。选取一定规模的摘要对模型进行验证, 应用聚类分析方法对疾病关联基因进行分析[6-7]。该方法需要大量手工操作,不符合我们研究的目的。康旭琴等人使用了基于机器学习的研究方法来进行关系抽取任务,其中使用的结构是cnn with multi-sized window kernels[8-9]。但不同的词在不同的relation中的重要程度是不一样的。使用统一的embedding 可能会有噪音影响。 kim等人采用lgscore的模型,该模型是首先利用文本挖掘的结果构建了一个疾病相关基因网络。然后根据pubmed获得的抽象数据中的共现点提取基因-基因交互作用,并利用z-score法计算基因网络中边缘的权重。利用google获得google搜索结果,通过网络分析给每个基因打分[10]。这种方法受噪音影响比较明显,而且表现效果也不好。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本研究的基本内容是:(1)生物命名实体识别,要根据生物医学论文摘要,通过pubtator[11]文本开发工具来生成基因以及疾病实体。(2)关系抽取模型的设计,通过第一步获得命名实体,再根据文本摘要,1、使用双向rnn模型[13],通过引入position indicators来对文本进行操作,对比引入注意力机制与为引入注意力机制模型的表现。2、使用cnn模型[14-15],利用word embedding position embedding进行输入,卷积层固定尺寸的卷积核(window-size=3),池化层均使用maxpooling,对比使用损失函数softmax cross-entropy的方式和margin based的ranking-loss模型的表现,并对比是否引入注意力机制对模型表现的影响(3)可视化查询界面的设计,将存储基因-疾病关系的数据库存入mysql并使用python语言制作简单的前端与查询。

本课题的研究的目标是建立比较完整的基因与疾病的实体集的基础上,提高关系抽取的表现,着力解决生物、医学从业人员需要耗费大量时间查找文献、阅读文献来了解某个基因与哪些疾病有关的问题。

拟采用的技术方案及措施

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

(1)2020/1/13—2020/2/28:确定选题,查阅文献,外文翻译和撰写开题报告

(2)2020/3/1—2020/3/15:利用pubtator建立基因-疾病的数据集

(3)2020/3/16—2020/4/15:在数据集上实现已有方法,观察效果,并设计出表现较好的神经关系抽取模型。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]宁时贤. 基于生物医学词典的实体表示及其应用研究[d].大连理工大学,2019.

[2]李昊迪. 医学领域知识抽取方法研究[d].哈尔滨工业大学,2018.

[3]吴楠,王庆林,刘禹.基于百科词条的领域本体关系抽取方法[j].中南大学学报(自然科学版),2013,44(s2):347-350.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。