1. 研究目的与意义、国内外研究现状(文献综述)
课题研究意义
词作为微小的语言成分,在日常生活中可以独立活动且具有实际意义。对于不同语言来讲,机器识别方式不同。如英文的单词与单词之间存在空格,因而不存在分词问题。但日文文本没有空格之类的显示标志来标示词的界限。所以,日语分词和词性标注是任何日文自然语言处理系统都不可避免的基本“工序”。
只有逾越词法分析的障碍,日文处理系统才能称得上初步实现“智能”,构建于词平面之上的后续语言分析手段才可继续进行。
2. 研究的基本内容和问题
研究目标及内容
以目前计算机日文分词技术应用和研究现状为背景,通过研究目前已有的、常用的日文分词算法基本原理,改进设计日文分词算法,设计出新的模型。
并依据模型,设计出算法,实现一个日文分词系统。
3. 研究的方法与方案
研究方法及技术路线
借助统计方法首先处理日文词库,设计过程中将参考国外一些模型与算法,优化分词功能,并将课题要求的基本功能合理组织起来。
算法优化完后,采用开发工具——python进行后续实现。python摈弃了c语言中非常复杂的指针,简化了python的语法。python也提供了非常完善的基础代码库,覆盖了网络、文件、gui、数据库、文本等大量内容,可以极大减少工作量。总而言之,python的重要特性是简单并且非常适合人类阅读。加上系统具有较高安全性。故选择进行后续开发。
4. 研究创新点
特色或创新之处
借助统计的方法优化日文分词。提出了新的分词算法,可以对分词系统进行优化。同时传统分词和词性标注方法将两个步骤串行执行,可以是的分词效率和精确度都有大幅度提高。此外词典提供词性、邻接关系、此行变换等很多先验知识,这些都是字符特征无法获得的。
5. 研究计划与进展
研究计划及预期进展
1.2020.2.1-2020.3.1分析目前常用的日文分词算法的原理及优缺点
2.2020.3.2-2020.4.1比较最大概率分词原理与其他方法
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。