1. 研究目的与意义、国内外研究现状(文献综述)
课题的意义:
从夏商的青铜器皿到春秋战国的百家争鸣,先秦时期繁星璀璨,被誉为中国历史的“头颅”,含有起源,智慧之意;研究先秦历史有着溯源历史与精神根基,弘扬我国优秀传统文化的重要意义。而随着人工智能与大数据技术的发展,数字人文这一应用数字技术研究人文领域的新研究范式出现,其研究与实践的重点之一在于使用数字技术对数字化或原生的数字人文信息资源进行采集、描述、组织与分析[1]。随着计算机技术的发展,深度学习方法逐渐在关系抽取任务中成为了主流,用于从大规模非结构化文本中获取结构化的信息。本文正是以从百度百科爬取的先秦人物词条为原始语料,首先制定实体模板,用基于规则(字典)的方法进行命名实体识别;再制定实体关系模板,用深度学习模型抽取人物实体之间的关系、人物实体与其他实体之间的关系,并进行抽取结果评测与模型比较。本文的研究是对弥补cbdb唐朝之前人物收录空白的一次尝试,以期一窥光辉灿烂的先秦文明,发扬我国优秀的传统文化。
2. 研究的基本内容和问题
研究目标:
本项目主要研究先秦人物的关系抽取,目的在于从现有的深度学习框架中找出一种最适合该领域的深度学习模型,提高其抽取的效果,并进行模型的评测与对比。
3. 研究的方法与方案
研究方法:
1、文献法:通过查阅相关文献了解国内外数字人文及关系抽取的研究进展
2、实验法:通过实验对比不同条件下关系抽取的效果。
4. 研究创新点
1、针对我国先秦历史人物领域,专门构建了实体模板、关系模板,并标注了语料
2、针对我国先秦历史人物领域,挑选合适的关系抽取模型
3、探究了不同关系模板与句子长度对于关系抽取效果的影响。
5. 研究计划与进展
本项目预计在3个月内完成,具体进展如下:
2020.1:寻找开源关系抽取工具,并爬取相应语料,进行试标注。
2020.2:根据标注结果完成关系模板的构建,并使用开源工具完成不同条件下关系抽取效果的对比。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。