全文总字数:4916字
1. 研究目的与意义(文献综述)
在金融领域,每一家公众公司都具有相关信息披露义务,由此也产生了大量的公告阅读和信息抽取需求。而目前金融领域可供使用的文件信息结构化工具较为匮乏,但是通过自动化的技术来从各类公告中抽取信息的意义十分重大。在金融领域来完成文件内容的结构化需要在满足海量公告文件的自动化结构抽取的要求下,能够对投研分析,风险控制,金融监管和事件关联有所帮助。本课题主要目标是针对公告文件(均以pdf或扫描件的方式发布)中的信息抽取。作为知识图谱构建的基础,结构化数据是必不可少的。由此,如何通过自动化的技术来从各类公告中抽取信息,将非结构化数据转化为结构化数据是知识图谱领域所面临的一大挑战。
这个课题目前主要是两个任务:公众公司定期报告中财务报表的信息点抽取(从公司年报pdf文件中提取母公司资产负债表等内容)以及公众公司定期报告中文本段落内的信息点提取(从人事变动类型公告pdf文件中获取离职高管信息和继任者信息的结构化数据)。通过对财务报表和人事变动两方面研究来达到金融领域的一部分信息抽取功能。
信息抽取是很重要的部分。信息抽取的意义是从海量的非结构外的文本中抽取出有用的信息,并结构化成下游工作可用的格式。我们需要从公众公司的报告中提取信息来进行信息结构化处理。
2. 研究的基本内容与方案
基本内容与目标:
1.公众公司定期报告中财务报表内的信息点提取:根据公众公司年报pdf文件,提取出年报中的包括合并资产负债表、母公司资产负债表、合并利润表、母公司利润表、合并现金流量表和母公司现金流量表在内的信息,并将其转化为结构化数据表示形式。
2.公众公司定期报告中文本段落内的信息点提取:根据人事变动类型公告pdf文件,提取包含离职高管信息和继任者信息的结构化数据。
3. 研究计划与安排
第1-4周:确定选题,查阅文献,撰写开题报告,外文翻译,搭建框架
第5周:搭建tensorflow/pytorch框架,实现pdf文本解析功能,通过python实现简单的pdf表格提取的功能要求第6-7周:调整表格提取的程序,以满足财务报告中表格信息的提取第8-10周:通过tensorflow/pytorch来实现bi-lstm-crf模型对于人事变动类型公告pdf的处理
第11-12周:对于两个任务准确率和速度的优化调整
4. 参考文献(12篇以上)
[1]ashish vaswani,noam shazeer,niki parmar,jakob uszkoreit,,llion jones,aidan n.gomez,ukasz kaiser. attention is all your need.
[2] yusuke shinyama. pdfminer: python pdf parser and analyze. retrievedon(2015/6)
[3] taochen,ruifengxu, yulanhe, xuanwang. improving sentiment analysis via sentence typeclassification using bilstm-crf and cnn. expert systems with applications(2017/4)
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。