1. 研究目的与意义(文献综述)
随着互联网的普及,以“互联网 教育”为特征的远程教育得到了迅速发展,成为新时代教育的特色。但在目前的开放式远程教育系统中,答疑、作业批阅等助教工作均是人工完成,而参与学生众多,这导致教师团队的工作量相比传统教育方式,变得非常巨大,研究以qq为平台的新型教育模式是十分有必要的基于qq的电子信息类专业课程智能答疑助教系统因此而生。
1.1研究目的
本毕业设计针对远程教学过程中的这一实际应用需求,旨在开发一个支持远程教学过程中的网络答疑的智能对话系统。该系统利用机器学习和自然语言处理等人工智能相关技术,基于qq这一学生中常见的网络交互平台,开发一个针对电子信息类专业课程的智能答疑助教系统,并可实现实时分析学生的提问和讨论,自动完成答疑、自我学习、组织和参与讨论,对学生答疑讨论情况进行统计分析等功能。
2. 研究的基本内容与方案
2.1基本内容与研究目标
针对远程教学过程中的这一实际应用需求,旨在开发一个支持远程教学过程中的网络答疑的智能对话系统。该系统利用机器学习和自然语言处理等人工智能相关技术,基于QQ这一学生中常见的网络交互平台,开发一个针对电子信息类专业课程的智能答疑助教系统。
了解人工智能、机器学习、专家系统、自然语言处理。查阅相关资料了解如今国内外研究水平。分析研究当前系统的工作原理、特点以及不足。在此基础上设计开发基于QQ平台进行远程教育面对特定的电子信息专业领域的智能答疑系统。
本系统设计拟采用酷Q平台进行编写,具备群发消息、@消息、根据条件自动批准入群、踢人等常见的QQ群管理能力,具备一定的智能性能够分析处理学生输入的自然语言问题,自动匹配合适的答案以及推送相关学习视频辅助学生理解问题。具备一定的学习能力,能通过分析群内讨论发言过程记录,基于机器学习技术,实现自我学习提高、对知识库的自行扩展,以及对学生答疑讨论情况进行统计分析等功能。如何基于QQ平台合理设计插件。需要甄别现存的中文分词技术,合理选用方法处理学生输入的自然语言输问题,选用合适的文本分类算法,进行问题分类以及问题文本的匹配。如何解决系统的自我学习更新知识库。
2.2拟采用的技术方案及措施
2.2.1拟采用方法
采用双向最大匹配算法对输入问题进行中文分词,然后利用Word2Vec模型计算词向量,通过对词向量加权平均得到句子向量,然后计算余弦距离返还TopN返还用户最终答案。
采用双向最大匹配算法对输入问题进行中文分词,然后利用TF-IDF算法计算词向量,得到每个句子的词频向量后,计算两个向量的相似程度,得到对应问题答案。
2.2.2算法介绍
最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描,同时可通过字数设计字典,然后根据字数分别从不同字典中进行扫描,提升扫描效率。比如词典中最长词为“高频电子线路”共6个汉字,则最大匹配起始字数为6个汉字。然后逐字递减,在对应的词典中进行查找,本论文设计的是面向特定领域的智能答疑助手,所以可以通过设定词典加入本专业专业词汇来提高准确率。其中正向最大匹配法和逆向最大匹配法,都有局限性,因此利用双向最大匹配法即两种算法都进行切词,根据最大颗粒度词越多越好,非词典词和单字词越少越好的原则,选择其中一种分词结果输出。据SunM.S. 和 Benjamin K.T.(1995)的研究表明,只有不到1%的句子,或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。[28]
word2vec模型其实就是简单化的神经网络是一种无监督特征学习,输入是One-Hot Vector,Hidden Layer没有激活函数,也就是线性的单元。Output Layer维度与Input Layer的维度一样,用的是Softmax回归。训练好此模型之后得到这个模型通过训练数据所学得的参数,例如隐层的权重矩阵。CBOW(Continuous Bag-of-Words Model)模型的训练输入是根据某一特征词上下文相关的词对应的词向量进行输入,选用CBOW模型是因为我们使用的是小型数据库。[29][30]
图1 CBOW训练模型图
|
TF-IDF算法可以拆分成两个词进行理解,TF(Term Frequency)既词频,一个词在文中出现的次数,统计出来就是TF。
TF(词频)=nm (2.1)
其中n为这个词在文章中出现的次数,m为文章总词数,TF越大,这个词相对于这个文本就十分重要,同时利用停用词语料库对一些“的”之类的词语进行处理。以及对于得到的关键词进行加权处理,利用统计学的语言表达,在词频的基础上对每个词分配一个重要的权重。最常见的词给予最小的权重,较不常见的词给与较大的权重。这个权重被称为逆文档频率"(Inverse Document Frequency),它的大小与一个词的常见程度成反比
IDF=log(语料库中文档总数包含该词的文档数 1) (2.2)
得到的TP与IDF的值相乘,从而得到一个词的TF-IDF值。所以一个词的TF-IDF值越大,这个词对文章而言重要性越高。
TF-IDF=TF×IDF (2.3)
2.2.3技术路线
采用word2vec模型进行实验流程图如下:
图 2 word2vec模型技术路线图 |
首先根据教学科目选取合适的语料库对word2vec模型进行训练,然后根据教师的教学经验,把每章节的常见重难点问题进行汇总并给出解答,得到FAQ集合。对问题进行向量化得到句子向量,然后入库。学生在QQ群中输入相关问题,插件读取相关问题并通过word2vec模型计算出句子向量,然后计算知识库中的句子向量与学生问题的余弦距离,返还最为接近的几个问题,进而选取最优的答案,后由机器人发送给对应学生。在问题答案反馈给学生后,并调查学生对于问题的满意度,并且对问题进行存档,并由教师选择较为重要的问题入基础库,从而实现自我学习,不断更新基础库。
采用TF-IDF算法进行实验流程图如下:
图 3 TF-IDF算法技术路线图 |
根据教师的教学经验,把每章节的常见重难点问题进行汇总并给出解答,得到FAQ集合。对问题进行分词计算词频,之后根据词频生成对应的词向量,然后计算句子向量后入知识库,学生则可通过在QQ群内进行智能问答,输入待解决的问题,由群内的管理机器人收集问题信息,后对问题进行分词得到词列表之后利用TF-IDF计算词频利用词频得到句子向量,然后计算知识库中的句子向量与学生问题的余弦距离,返还最为接近的几个问题,进而选取最优的答案,后由机器人发送给对应学生。
在问题答案反馈给学生后,并调查学生对于问题的满意度,并且对问题进行存档,并由教师选择较为重要的问题入基础库,从而实现自我学习,不断更新基础库。
2.2.4方案对比
TF-IDF算法实现比较简单,原理易于理解,但是TF-IDF算法严重依赖语料库,引入IDF是抑制某一文档内无意义高频词的负面影响,但是在总文档里关键词出现文档比值较大时,高频词会被抑制,低频词由此凸现。但是常见词并不等于无意义词,比如一些公众人物,热点事件,同样的,低频词的偶然出现将被当作高权值关键词,这过渡放大了生僻词的重要性。由于是面对特定领域的专业名词,不应该被当作高频词处理,因此在选用语料库时要十分注意。Word2vec模型理解起来较为困难,它可以利用一个词和它在文本中的上下文的词将所有的词向量化,省去了人工去标注。并且词与词之间可以定量的去度量他们之间的关系,深度挖掘词的联系,可以以高效的训练方法进行负采样。相比于TF-IDF可以有效的避免低频词被过度放大,准确度更高。
3. 研究计划与安排
第1-2周(2.26-3.8):完成课题调研、文献阅读和外文翻译,收集相关资料,完成开题报告,进行小组内选题答辩,修改定稿开题报告,并上传开题报告到教务网。
4. 参考文献(12篇以上)
[1]程洁.智能聊天机器人:对话未来[j].科技经济导刊,2018(02):14-15.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。