1. 研究目的与意义(文献综述)
在科学文献中,除了基本的文字描述之外,还包含许多非文本的元素,例如图片,表格等等,这些元素通常都含有丰富的信息,但是往往阅读文献的人并不能直接通过非文本元素来理解文章要表达的内容,而需要通过文献中的文字结合起来理解。然而这些相关的直接信息在文章中并不一目了然,因此需要在全文中寻找与该元素相关的句子,并将句子结合在一起组成一个对此非文本元素足够详细的描述。
实际上,文献的作者会使用大量的非文档元素来实现各种各样的目的,比如基本结果(图、表)、描述过程(流程图)或给出算法(伪代码)。非文档元素被定义为一个实体,与文档中正在运行的文本分离,图表和伪代码等用来扩充或总结运行文本中包含的信息。因为算法是科学文献中最常用的非文档元素,也是有价值的信息。在生物学中,数字及其相关的文字描述占了50%之多,文档元素构成了科学文献的重要组成部分。然而,通常情况下,重要的实验结果和思想是使用非文本文档元素呈现的。
正常的文档搜索,一个专门的搜索引擎,允许终端用户在其中搜索数字文件。类似地,一个专门用于生物文档的搜索引擎,为终端用户提供了在文档中搜索图形和表的能力。这种特殊用途的非文档元素搜索引擎通常返回文档元素和的列表,由文件构成的片断。在大多数情况下,文档元素标题被用作片段。
2. 研究的基本内容与方案
基本内容和目标:
基于特征提取相关句子设计与实现;
包含以下6个子任务:
3. 研究计划与安排
(1)2020/1/13—2020/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2020/3/1—2020/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2020/5/1—2020/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1] bhatia s, mitra p. summarizing figures, tables, and algorithms in scientific publications to augment search results[j]. acm transactions on information systems (tois), 2012, 30(1): 3.
[2] choudhury s r, mitra p, kirk a, et al. figure metadata extraction from digital documents[c]//2013 12th international conference on document analysis and recognition. ieee, 2013: 135-139.
[3] atkinson j, gonzalez a, munoz m, et al. web metadata extraction and semantic indexing for learning objects extraction[j]. applied intelligence, 2014, 41(2): 649-664.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。