1. 研究目的与意义、国内外研究现状(文献综述)
近几年来,中国的信息产业得到了高速的发展,随着计算机网络规模的日益扩大,尤其是互联网的普及,各种电子出版物、数字图书馆得到了迅速发展,网络中的信息急剧膨胀,大量的信息以电子文档的形式出现在人们面前,形成了空前的信息大爆炸。
每年仅通过电子邮件在全球流通的信息量就已达到4千亿兆字节,这相当于几万座大型图书馆。
如何从海量的、非结构化的文本中快速有效而且准确地获取真正需要的信息和知识己经成为自然语言处理领域的一个研究热点。
2. 研究的基本内容和问题
研究目标:本本文研究的主要问题,是通过对时间表达式的识别来对条随机场模型的性能进行研究。
课题的研究目标主要是针对最大熵模型和条件随机场模型的优良先进行一个比较,例如用召回率、精准率以及f值等个参数,来反映突出条件随机场的性能的优良,然后用条件随机场模型对不同语料规模的语料进行测试,看条件随机场模型在哪个规模的语料库下性能最优。
研究内容:1、比较条件随机场模型和最大熵模型的优良。
3. 研究的方法与方案
研究方法: 采用了实验与对比的研究方法。
技术路线及实验方案: 首先要了解并会使用模型的调用语句,在dos环境下先对模型进行训练,然后在调用测试语句,对模型的性能进行测试,通过返回的召回率、精准率和f值分析模型的优良。
可行性分析:1、研究命名实体识别的文章很多,便于参考与借鉴。
4. 研究创新点
目前,大部分的文章所研究的重点是在于对比隐马尔科夫模型、最大熵模型和条件随机场模型的优良,以及每个模型的优缺点。
而本文是真对语料库的规模来讨论模型性能的优良,验证了并不是语料库的规模越大模型性能越好。
而是存在一个一定规模的语料库使得模型的性能最优。
5. 研究计划与进展
计划:2015.01.16至2015.03.17 收集资料,学习有关书籍文献,完成开题报告。
2015.03.18至2015.04.01 对模型的工作原理进行分析,拟定方案。
2015.04.02至2015.04.14 完成设计初稿和实验方案及中期报告2015.04.14至2015.05.06 根据实验结果设计出可行性方案,并完成毕业论文。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。