数据挖掘技术在图书馆系统中应用的实证研究外文翻译资料

 2022-09-19 11:15:58

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


数据挖掘技术在图书馆系统中应用的实证研究

Veepu Uppal Gunjan Chindwani

印度费尔达巴德市的Manav Rachna 印度费尔达巴德市的Manav Rachna

学院的计算机科学与工程系 学院的计算机科学与工程系

概要

几年前,图书馆中流动的信息非常简单并且技术的应用也被限制。然而当我们进入一个更加一体化的世界里,技术已成为业务流程的一个组成部分,信息传递的过程变得更为复杂。今天,图书馆所面临的最大挑战之一就是爆炸式增长的图书馆数据以及运用这些数据来提高来提高管理决策的质量。数据挖掘技术是可以被运用到从很大的数据集中提取有意义的信息的分析工具。本文针对数据挖掘在图书馆中的应用从大型数据集中提取有用信息,并提供分析工具来查看,以及采取现实生活中的例子将这些信息用于决策过程。

通用术语

数据挖掘、关联规则、集群。

关键词

图书馆、分类、预测、异常值分析、支持、置信度。

1.简介

在现在世界中,能够被有效运用于产生有用信息的庞大数据是可以获得的。获取的信息可以被应用于医学、教育、商业、农业等等领域。随着庞大的数据被收集并被存储在数据库中,传统的统计技术和数据库管理工具已经不再适用于分析如此庞大的数据。数据挖掘,也被称为数据与知识发现,已成为日益重要的领域,因为它有助于从不同的角度分析数据并将它们汇总为有用的信息。如何提高图书馆资源的使用效率,怎样更好的服务读者以及怎么扮演更多积极的角色都已成为图书馆未来的具体任务。在图书馆自动化系统中有关图书流通和用户需求的数据挖掘为图书馆管理提供了有效的支持。很多种类的信息都可以在图书馆数据中利用数据挖掘来发现。发现的信息可以被应用于图书分配,是的图书流通更加容易,这样能够有助于提高读者的兴趣以及他们对图书馆的忠诚度。发现的信息还可以被应用于通过行为来聚集学生或者部门,以及是的图书管理员能够明白那些需要他特殊关注的部门。书目勘探也可以被应用于预测未来的读者需求。通过从高使用率的书目中发现模式,图书管理员能够更好地预测新书目的需求,以便于决定要订购多少一件作品的复印本。图书馆可以观察图书被学生借阅的频率,因此,图书馆应该增加被借阅频率高的图书的馆藏量。发现的信息可以被图书管理员用来寻找普遍存在于丢失/被盗书籍与高使用费用之间的关联模式。一旦那些模式被发现,适当的政策可以落实到位,以减少库存损失。

2.数据挖掘的定义和技术

简单地说,数据挖掘指的是从庞大的数据中提取或是“挖掘”信息。数据挖掘技术用于对大量数据进行操作,以发现隐藏的对决策有帮助的模式和关系。从数据中提取信息的准确步骤是:

信息

模式评估

数据挖掘

数据筛选和转换

数据清理与整合

图1:从数据中提取信息的步骤

2.1关联分析

关联分析是显示经常同时出现在一组给定的数据属性-值条件的关联规则的发现,关联分析广泛应用于市场购物篮或交易数据分析。大多数正式的关联规则形式是:X Y, ie A1 ^^ Am B1 ^^ Bn ,Ai和Bj是属性值对,

i=1hellip;hellip;hellip;m,j=ihellip;hellip;hellip;hellip;m

关联规则被解释为满足X中的条件也可能满足Y中条件的数据库元组。规则X=gt;Y,在D中的支持度(support “s”)是D中事务包含Xcup;Y的百分比“s%”。 规则中若有“s”大于用户指定的载体是说有最小的支持度。规则在D中的置信度(confidence “c”)是D中事务包含X的情况下包含Y的百分比“c%”。规则中若有“c” 大于用户指定的载体是说有最小的置信度。

2.2分类和预测

分类是发现一系列描述和区分数据类型和概念的模型的过程,它的目的为了能够用这些模型去预测不知道标类型签的对象的类型。派生模型可以各种形式,如分类规则,决策树,数学公式,或神经网络来表示。分类可用于预测的数据对象的类别标签。然而,在很多应用中,人们可能喜欢预测一些丢失或不可获得的数据值,而不是类的标签。这通常是在当预测值是数字数据的情况下,并且通常特别称为预测。IF-THEN规则指的是:IF条件THEN结论

监督分类:-该组可能的类事先知道

无监督分类:-该组可能的类事先不知道。分类之后我们可以尝试指定一个名字给该类,无监督分类被称作集群。

2.3集群分析

不像分析类标记的数据对象的分类和预测,集群分析没有一个已知的可供参考的类标签。通常,类标签不存在于简单的练习数据中,因为一开始它们不被了解。集群可以用来生成这样的标签,这些对象被基于最大化组内相似性和最小化类间相似性原理群集或分组,即分组形成对象集群,使得集群内对象相比之下有较高的相似度,但是它们和其他集群内的对象有很大不同。所形成的每个集群可以被视为一个可以衍生规则的类对象。集群在图书馆中的应用可以帮助图书馆将每个学生个体分组到具有相似的行为的类中。将学生划分到集群中,这样在学生就和同集群中的其他学生相似,而与不同集群中的学生不相似,对应发行书籍给同一个集群中的学生。

2.4异常值分析

一个数据库中可能包含的不遵守数据普遍行为的数据对象,叫做异常值,对这些异常值的分析可能有助于欺诈检测和预测异常值。造成异常值的原因如下:

    • 较差的数据质量/污染
    • 低质量测量,设备故障,人工错误
    • 正确但异常的数据

3.潜在应用

3.1预测书籍的分配

对于图书馆来说,用一种方法分配数据改进书籍流通过程来帮助学生查找书籍是很重要的。有了这些强大的书籍类型关联规则,图书馆能够有很好的决策以实现设备和资源的优化配置。这将会使各类书籍有合理的,更好地采购方案,以及更合理的库存和资源分配方案。

表1:书籍数据库

图书编号

学科

K3

传记

L1

中国文学

Y2

通用外语

关联规则K3,L1=gt;Y2(支持度:17.784%和置信度:70.777%)意味着超过70.777%的读者在借阅K3(传记)和L1(中国文学)的同时会借阅Y2(通用外语),因此,考虑到这些类型的书应方便读者,以加快图书流通借阅,那些书籍应该被摆放在相邻的位置。

传统一直依据“等待读者”的理念,但是这个理念和模式将不能适应现代图书馆的服务。在收集和处理了涉及大量读者借阅书籍时的行为的信息之后,数据挖掘明确了特定的个人或者群体读者的兴趣、习惯、趋势及需求,然后推断出相应团体或个人的下一行为。因此,可以为他们提供自定义内容的特定服务。这些个性化的信息服务不仅能提高读者的满意度和使得资源更好地利用,而且和消极的“等待读者”服务相比,它更有利于图书馆未来的发展。例如,当读者光临由图书馆及时建议的新的信息或者书目数据时,强大的书籍关联规则为了给与书籍推荐以达到更好的个性化服务,就会提供给读者相关的话题信息,或者引导读者通过提示来发现信息。规则K3,Y2=gt;L1(支持度:0.252%,置信度:83.333%)意味着当读者借阅L1时如果图书馆推荐K3和Y2会提高读者的兴趣和对图书馆的忠诚度。尽管读者的兴趣会随着时间的推移而改变,拥有数据挖掘技术应用的图书馆系统有能力自动发现读者的最新需求。

3.2保护顾客隐私

当一项借阅被返还时,很多图书馆就会删除有关此次事件的全部信息。然而,就会有一个很有价值的决策信息会丢失。尽管业务系统是一个以用户为中心的数据源,数据仓库却是一个以项目为中心的数据源。因此,在删除事务信息之前,一条结合了有关项目的信息和有关学生的统计信息一起应被创建在数据仓库中。这将捕获有关事务的重要信息而无需识别所涉及的学生。

表2:原始流通记录

书籍编号

科目

学生

QA76.9

计算机科学

392-33

PS159.G8

美国文学

575-49

H5415.125

市场

392-33

表3:原始学生数据库

学生编号

姓名

班级

学院

373-34

Abhay

Grad

物理

392-33

Sophie

U.G.

数学

575-49

Kenneth

Faculty

英语

表4:数据仓库结合清理流通数据库

书籍编号

科目

学生班级

学生学院

QA76.9

计算机科学

U.G.

数学

PS159.G8

美国文学

Faculty

英语

HF5415.125

市场

U.G

数学

3.3确定学院需求

集群分析的结果被用来提高服务质量和通过统计分析来优化图书馆管理模式,中文、金融、外语、数学学院是最活跃的几个学院,它们学院的学生比其他学院的学生借阅的书籍多得多。但是上述几个学院的学生人数也比其他学院多得多。这并不能反映客观的读者需求。从基于学院平均借阅率(借阅数量/人数/年数)的集群分析结果中,我们可以看出有一些学院的学生人数很少,但他们的平均借阅率却很高。所以他们的需求不应该被忽略,例如精美艺术学院和音乐学院,他们学生较少但拥有很高的书籍需求,因此,对于有关艺术和音乐书籍的采购深度和广度应该被加强。图书馆管理员不仅要更加注重各学科的特色和学术研究,而且不应该忽视一些小学院的需求。因此,图书馆也可以专注于向活跃的小组推荐书籍,和读者有互动交流,扮演一些积极的角色在集群分析结果之上去实现高效的接近读者需求和合理的书籍采购的目标。

3.4库存损失的模式识别

除了关联规则挖掘,序列模式挖掘可应用于从涉及了时间参数的数据库数据中提取新的、有用的有趣的模式。在序列模式挖掘中,我们把时间戳放到账户中,然后发现合适的规则。通过使用序列模式挖掘,图书馆可以提高他们的服务。图书馆可以观测学生的借阅频率。因此,图书馆应该增加这些书籍的馆藏数量。序列模式挖掘展示了学生在图书馆中借阅书籍时的行为。

表5:书籍借阅流通记录

学生编号

图书编号

事务时间

1

K3

22/

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[148405],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。