- 文献综述(或调研报告):
Neo4j是当前最流行的图数据库,其上的图查询语言Cypher因其简洁直观也已成为图数据库查询语言的事实标准。而图数据库因其特殊的存储结构,在很多场景下有着不可替代的性能优势。
1、图数据库的相关应用案例
图数据库运用图论对世界进行直观建模,可以直接描述各种复杂的现实世界系统,才使其具有广泛的适用性和更高的应用价值。Neo4j主要应用于社交网络,人力资源,金融,保险,知识图谱,欺诈检测等领域。在欺诈检测领域,张芸芸[1]等人利用Neo4j图谱,提出了一种检测信用卡欺诈的方法,让金融机构的欺诈认定率从56%提高到了81%。郑帅[2]使用Neo4j图数据库,设计出来了一种可以快速检测利用伪造虚假身份信息进行信用卡恶意透支诈骗的技术,结果证明图数据库具有高性能以及很好的灵活性。Juan Liu[12]等人利用图分析算法,设计了一个可以检测大型医疗保健数据集中的可疑活动的系统。此外,在社交网络领域,李雨桥[3]等人利用社交图谱模型,结合传统的监督学习方法,提出了一种虚假评论识别的方法,实验结果显示社交图谱的方法能提高5%的识别准确率。Bryan Hooi[13]等人利用图理论提出了一种欺诈检测算法,用于检测社交网络上的伪装欺诈并验证了算法的有效性以及伸缩性。
2、数据建模存储与性能表现
传统关系型数据库在很长一段时间里一直处于数据管理的核心。大数据时代的来临使得关系型数据库出现越来越多的问题,如建模困难,灵活性差,性能瓶颈等。图数据库被称为大数据时代的新利器,尤其适合存储关系并进行关系分析。
马义松[4]等人使用Neo4j对电力大数据进行建模,使用节点表示具体设备,边表示设备间的关联,属性不做约束且可以动态更新。可以把所有的设备信息转化为节点与边的属性存储到图数据库之中。使用Neo4j既可以保证数据完整性,也可以表达出电网设备的拓扑关系。与MySQL进行性能对比时,在遍历深度低于6时,两种数据库的遍历时间接近,在更深的遍历深度下,MySQL的遍历时长增加明显,而Neo4j的性能则相对稳定,在遍历深度为9时Neo4j性能已经远好于MySQL。郭航[5]等人为了满足当前天文元数据爆发性增长的存储需求,设计了一种基于Neo4j的天文元数据存储模型。可以实现对海量,多源,异构天文观测元数据的存储。将坐标,时间信息存储为节点,归属关系存储为边,将基于时空维度的天文数据存储到图数据库中。在200万到2000万数据量级的范围中,单字段查询Neo4j性能略好于MySQL。对于复杂时空维度多字段查询,数据量在400万以下时,两者性能接近,但MySQL的查询时间随数据量增加近似指数增长,而Neo4j的查询时间变化相对平稳。宫法明[6]等人基于Neo4j,提出了一个改进海量石油领域本体数据存储的存储模型。将资源描述框架(Resource Description Framework,RDF)数据映射到Neo4j之中。相比传统存储方法存储空间可以节省10%,同时通过两层索引的架构设计,搜索效率相比传统SQL查询高30倍。Daniela Minkovska[14]等人使用Neo4j对输电网中的数据进行建模处理,充分利用图数据库的特点,构建了一个有着良好性能表现以及灵活性的系统,改善了输电网数据处理过程。施鹏佳[7]等人提出了一种基于Neo4j的大数据存储方法,结合图数据库与关系型数据库的优点,将数据分类,分别存放在两种数据库之中,可以有效的处理PB级数据量,并拥有良好的可扩展性。奥渊博[8]等人提出了一种MySQL数据迁移到Neo4j数据库的模型,将结构化数据转化为非结构花数据,构建统一的数据管理系统。
3、基于图的反欺诈算法
Emil Eifrem[15]论证了图数据库在预防欺诈方面的可行性,他指出图数据库在关系分析方面有独特的优势,这对欺诈的检测与预防有着重要意义。温晋英[9]等人提出了一图异常检测的在反金融欺诈方面的应用,利用图来描述用户的行为特征,用以甄别出客户和账户的异常特征。他阐述了基于同一登记电话的图异常检测,基于关联MAC地址的图异常检测,以及基于资金黑洞的图异常检测。管雨翔[10]等人提出了基于图挖掘的网络钓鱼检测算法,网络钓鱼是指欺诈者利用短信,邮件,聊天工具等手段引导用户访问一些钓鱼网站,骗取用户的隐私信息。他们预处理数据,计算节点声望的初始值并采用带环置信传播算法(Loopy Belief Propagation)修正节点声望并得出阈值。结果证明在大数据集上平均检出率超过90%。张芸芸[1]等人提出了一种基于Neo4j的信用卡欺诈检测的模型。结合FICO评分标准识别信用卡欺诈,结果是金融机构欺诈认定率从56%提高到81%。郑帅[2]提出的使用Neo4j实时检测恶意透支信用卡诈骗中的算法。查询出具有共同注册信息的账户开户人,以此评估经济风险。张辉[11]提出了基于图模型的C2C电子商务欺诈行为检测算法。将电子商务用户角色分为欺诈者,同谋者,伪同谋者和诚实者四种角色。建立用户社会网络混合图并分别用贝叶斯网络技术和马尔可夫随机场技术对欺诈行为的理论与技术进行分析研究。JOSH JIA-CHING YING[16]等人设计了一种图挖掘算法FrauDetector用来高效的检测电信欺诈,解决电信欺诈的适用性和效率问题,可以在并行计算的环境中执行图挖掘,将HITS算法运用于存在欺诈行为的子网络上,实现高效的图学习。在实时检测模型中使用用户体验值的散列结构来支持快速的实时电信欺诈检测。
参考文献:
- 张芸芸, 方勇, 黄诚. 基于Neo4j图谱的信用卡欺诈检测[J]. 计算机工程应用技术, 2018(21): 23-25.
- 郑帅. 图数据库在恶意透支型信用卡诈骗检测中的应用[J]. 网络完全技术与应用, 2014(9): 90-91.
- 李雨桥, 符红光. 基于社交图谱模型的虚假评论识别[J]. 计算机应用, 2014(34): 151-154.
- 马义松, 武志刚. 基于Neo4j的电力大数据建模及分析[J]. 电工电能新技术,2016, 35(2): 24-29.
- 郭航, 蔡宇. 基于Neo4j图数据库的天文元数据存储方案研究[J]. 广东通信技, 2018:49-52.
- 宫法明, 李翛然. 基于Neo4j的海量石油领域本体数据存储研究[J]. 计算机科学, 2018, 45(6A): 549-554
- 施鹏佳, 吴桂联, 邓黎芃, 张林垚.一种基于Neo4j图数据库的大数据存储方法: 中国, 108170847 A[P], 2018.
- 奥渊博, 胡志勇. 一种MySQL数据迁移到Neo4j数据库的模型[J]. 内蒙古经济与科技, 2018(3): 90-92.
- 温晋英, 李翔宇, 宋津旭, 王莹. 图异常检测在反金融欺诈中的应用[J]. 计算机工程应用技术, 2016(9): 36-37.
- 管雨翔, 邹福泰, 易平. 基于图挖掘的网络钓鱼检测算法[J]. 微型电脑应用, 2016,32(7): 1-5.
- 张辉. 基于图模型的C2C电子商务欺诈行为检测研究[D]. 重庆: 重庆大学计算机学院, 2014: 6-55.
- Juan Liu, Eric Bier, et al. Graph Analysis for Detecting Fraud, Waste, and Abuse in Health-Care Data[J]. AI MAGAZINE, 2016: 33-46.
- Bryan Hooi, Kijung Shin, et al. Graph-Based Fraud Detection in the Face of Camouflage[J]. ACM Trans. Knowl. Discov. Data 11, 4, Article 44, 2017.
- Daniela Minkovska, et al. Modeling and Processing Big Data of Power Transmission Grid Substation Using Neo4j[J]. Procedia Computer Science,2017(113): 9-16.
- Emil Eifrem. Graph databases: the key to foolproof fraud detection?[J]. Computer Fraud amp; Security, 2016: 5.
- Josh Jia-ching Ying, et al. FrauDetector: An Incremental Graph-Mining Approach for Efficient Fraudulent Phone Call Detection[J]. ACM Trans. Knowl. Discov. Data 12, 6, Article 68, 2018.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。