1. 研究目的与意义(文献综述)
随着生物医学文档数量的快速增长,生物医学文本挖掘变得越来越重要。
随着自然语言处理(nlp)的发展,从生物医学文献中提取有价值的信息越来越受到研究者的青睐,深度学习促进了有效的生物医学文本挖掘模型的发展。
然而,将自然语言处理技术的发展直接应用于生物医学文本挖掘往往会产生不理想的结果。
2. 研究的基本内容与方案
本次研究的主要内容是:基于深度学习的生物医学命名实体识别研究。
目标是:对生物命名实体的识别。
拟采用的技术方案以及步骤:1.获取语料,2.语料预处理,拟采用基于统计最大概率输出词性和基于 hmm 的词性标注,3.进行特征工程,建立词袋模型,将字符串转换成数字,4.进行特征选择,构造特征向量,得出特征子集,拟采用df,ig等方法,5.进行模型训练,拟采用bilstm-crf,stm,mtms网络等,6.评价指标采用f1衡量。
3. 研究计划与安排
对语料库进行处理。
4. 参考文献(不低于12篇)
[2]lee j, yoon w, kim s, et al. (2019). biobert: a pre-trained biomedical language representation model for biomedical text mining. bioinformatics. sep 10 2019
[3] kaewphan s, hakala k, miekka n, salakoski t, ginter f. wide-scope biomedical named entity recognition and normalization with crfs, fuzzy matching and character level modeling. database (oxford). jan 1 2018;2018:1-10.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。