全文总字数:1990字
1. 研究目的与意义
伴随着信息处理技术的发展,各行各业都已建立起了大量的计算机信息系统,每天都在产生着大量的数据。
在数据时代的背景下,数据特征的价值显得愈发重要,数据分析(data analysis)也就随之诞生。
目前,数据分析技术已涉及多行业多领域,如医药、商业、网络营销、社会需求研究等。
2. 国内外研究现状分析
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。
数据可视化领域的研究主题呈现出由关注于数据挖掘和可视化呈现演化为关注于数据挖掘和基于可视化进行相关分析。
目前,国内对数据清洗技术的研究还处于初级阶段,直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多,大多是在数据仓库、决策支持、数据挖掘研究中对其作一些比较简单的阐述,银行、保险和证券等对客户数据的准确性要求很高的行业都在做各自的客户数据的清洗工作。
3. 研究的基本内容与计划
(一)研究内容利用python编程,对源于faers系统的原始数据进行清洗处理,去掉重复、无用、错误数据,保证整体数据的有效性和一致性,从而便于数据特征的分析总结。
1.学习python数据可视化编程应用库:numpy;matplotlibnumpy(numerical python), 是一个python科学计算的基础包。
它不但能够完成科学计算任务, 而且还能够被用作高效的多维数据容器, 可用于存储和处理大型矩阵。
4. 研究创新点
数据清洗技术虽应用十分广泛,但目前缺乏专门针对于FDA药物数据的技术,首次将数据清洗技术应用于具有大数据量的该领域,对FDA药物数据的提纯与药物学发展将具有及其重要的影响。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。