1. 研究目的与意义(文献综述)
进入21世纪,随着互联网的蓬勃发展以及知识的爆炸式增长,搜索引擎被广泛使用。 但面对互联网上不断增加的海量信息,仅包含网页和网页之间链接的传统文档万维网已经不能满足人们迅速获取所需信息的需求。人们期望以更加智能的方式组织互联网上的资源,期望可以更加快速、准确、智能地获取到自己需要的信息。为了满足这种需求,知识图谱应运而生。它们力求通过将知识进行更加有序、有机的组织,对用户提供更加智能的访问接口,使用户可以更加快速、准确地访问自己需要的知识信息,并进行一定的知识挖掘和智能决策。从机构知识库到互联网搜索引擎, 近年来不少学者和机构纷纷在知识图谱上深入研究,希望以这种更加清晰、动态的方式展现各种概念之间的联系,实现知识的智能获取和管理。
2012 年 11 月 google 公司率先提出知识图谱 (knowledge graph,kg) 的概念,表示将在其搜索结果中加入知识图谱的功能。据 2015 年 1 月统计的数据,google 构建的 kg 已拥有 5亿个实体, 约 35 亿条实体关系信息,已被广泛用于提高搜索 引擎的搜索质量。另一个代表性的知识图谱系统是微软公司构建的probase。根据微软公司官网上的数据显示,截至 2016年 4 月,probase 已拥有总量超过千万级的概念,其中核心概念大概有 270 万个,probase已成为知识库系统中拥有概念数最多的系统。上海交通大学的zhishi. me是国内构建的最早的知识库,zhishi. me知识库通过整合维基百科(中文)、百度百科、互动百科中的数万方数据 据以提供关联开放数据(linking opendata,lod)的服务给知识库用户。中国科学院机构知识库 (chinese academy ofsciences institutional repository, cas-ir)对 dspace 软件进行的二次开发。截止到 2013 年 9 月,cas-ir 累计采集和保存超过 44 万个的科研成果,其中,超过 70% 的科研成果可获取全文,cas-ir是目前国内机构知识库网络中规模最大的一个;此外,国内知名搜索引擎公司也纷纷投入对知识图谱的构建,并在其搜索引擎中添加了知识图谱的功能,比如百度的“知心”和搜狗的“知立方”。
2. 研究的基本内容与方案
2.1研究(设计)的基本内容
1. 主要研究如何构建证券领域的知识图谱。
3. 研究计划与安排
序号 | 任务 | 日期 |
1 | 阅读参考文献,了解相关概念、原理及方法,结合论文题目进行需求分析,撰写开题报告。 | 2020/1/13-2020/2/28 |
2 | 学习知识图谱构建技术所涉及到的各个步骤及相应的算法。 | 2020/2/29-2020/3/15 |
3 | 爬取证券领域数据源,清洗数据。 | 2020/3/16-2020/3/25 |
4 | 系统架构设计,后端业务逻辑开发 | 2020/3/26-2020/4/15 |
5 | 前端开发,实现知识图谱的可视化 | 2020/4/16-2020/4/25 |
6 | 系统测试及完善 | 2020/4/26-2020/4/30 |
7 | 撰写及修改毕业论文 | 2020/5/1-2020/5/25 |
8 | 准备答辩 | 2020/5/26-2020/6/5 |
4. 参考文献(12篇以上)
1.蔡建东, 马婧. web2.0教育应用领域知识图谱研究[j]. 远程教育杂志, 2012, 30(2):57-62.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。