为什么雪花模式是一个好的数据仓库设计?外文翻译资料

 2022-10-17 18:50:39

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


为什么雪花模式是一个好的数据仓库设计?

马克·列文,乔治Loizou *

计算机科学与信息系统,伯克贝克学院,伦敦大学,马利特街,伦敦WC1E 7HX,UK在 2001年5月8日收到了; 在2001年10月20收到了修订后的表格; 2002年2月20接受。

摘要

数据仓库数据库设计是基于雪花模式的概念,其重要的特殊情况下,

星型模式。雪花架构代表了它是由一个中央事实表和一个三维模型设置组成维表可以进一步分解成子尺寸的表。我们形式化的概念在一个非循环数据库架构,其连接树满足特定结构性能方面雪花模式。我们然后定义雪花模式正常的形式,就抓住了它的直观含义是一组功能和包容性的依赖。我们表明,在这个范式雪花模式是独立的,以及可分离当关系模式是两两无比。这意味着,在数据仓库中的关系可以被更新相互独立地,只要参照完整性得以保持。此外,我们表明,一个数据仓库中雪花正常形态可以通过在事实表的关系,在其加盟维的关系进行查询和子尺寸表。我们还检查了雪花模式和显示的信息理论解释该事实表的主键的冗余是零。保留R 2002 Elsevier科学有限公司保留所有权利。

关键词:数据仓库的设计; 星型和雪花模式; 独立和分开的数据库架构; 无环数据库模式

1.简介

数据仓库是一个综合和时间不同的数据库,主要用于支持管理决策[1-3]。数据仓库房子通常集成来自不同数据多个与分布信息来源和

包含历史和汇总的数据。例如,销售数据仓库可能包含关于产品的信息出售,出售时,销售地点和销售人员。通常情况下,这样的数据仓库将是订单要比操作数据库较大它不包含具体的销售数据,但而包含公司的详细信息,其中包括关于产品范围,插座的位置和细节人员。

在数据建模而言是有利的,以查看在一维模型的术语数据仓库它是由一个中央事实表和一组周围的维表的每个相应ING的部件或尺寸中的一个事实表。在上面的例子中的事实表模型的实际销售数据和每个维。如:产品的细节,销售的时候,出口在产品售出,销售人员,是由一个独立的尺寸建模表。在关系数据库术语的事实表包含所有必需的外键的属性引用的构成的主键维度表。概念上,这导致了星状的数据结构,这就是所谓的星形架构。根据金博尔等。[3]维度简称AE,下同造型其实早于实体-关系建模方法,这是在其中设计关系常规方式数据库加上规范化理论[4,5]。星型模式可提炼成 雪花模式通过提供属性层次结构的支持让维度表有subdimen-锡安表。例如,维度表存储在产品售出出口可具有包含子尺寸表人口统计学出售的面积的图形信息。有关于具有这种subdimen-的好处辩论锡永表,因为它会在一般情况下,减缓查询处理,但在某些情况下,它提供了一个数据的必要逻辑分离,如在的人口统计信息的情况下subdimen-锡永[3]。

作为一个正在运行的例子,用于一个数据仓库雪花模式保持在大学生田径学生的出勤。这个模式的事实表出席,和它的维表的日期,房间,

讲师,学生和课程; HOLI-当天日期的子尺寸和DEPART-MENT是讲师一子尺寸,学生和课程。为的清晰度图中我们省略了对边缘的标签,这

对于两个表之间的各边是交叉点的它们的属性。雪花模式是结构以这样一种方式,边缘的标签代表了国外对主键关系父表和它的孩子之间。该

表的意义是不言而喻的从其属性,观察该部门表象在货物内该过程被赋予部;我们注意到,这不一定是部到的学生所属。因此,没有讲师,学生没有当然不仅在独特某一个部门的环境。

虽然雪花模式相对结构简单,它们被广泛用于实践[3],并在所有的数据仓库推荐我们设计方法知道日期。该原因是他们的成功,他们是:直觉且易于理解,适合查询因为任意 N -way 优化与联接事实表可以通过单遍进行评估通过事实表,可容纳汇总数据,并且通过添加容易扩展新属性的事实表或到一个或多个维度表和新的维度表在不与现有的干扰模式数据库程序。

已经有一些最近的研究正式使用的曲线图,西奥数据仓库网状细胞的方法来雪花模式建模。在[6]中它示出了雪花模式如何可以衍生从一个实体关系图,然后相应的修改删除无趣属性。[7]定义了几种范式对于一般multidimen-内数据仓库简称AE,下同模型,其中函数依赖在-达斯属性层次结构。最近,方法用于导出雪花模式从操作数据库模式已中提[8]。最后,值得提到[9]其中,Web数据仓库的概念介绍。web数据仓库本质上是一个数据仓库为了捕捉点击流日志对于电子商务的决策数据。

尽管广泛使用的雪花模式,为我们所知,没有理论基础有被赋予日期可能指向有形好处。此外,传统的关系数据库设计理论是许多理论富人区和实际的结果[4,5],这可能有利于数据仓库的设计。为了改变这种情况我们定义数据仓库正常形态,被称为雪花型架构范式(SSNF),这捕捉雪花背后的直觉架构通过建立从相关概念关系数据库设计理论(另见EX-往往雪花型架构范式(ESSNF)。

SSNF的说定义规定的自然对数据库模式R句法限购令它是无环,从而促使对连接树结构-[R [10,11]。(精确子树加入我们感兴趣的是在定义3.1给出;我们注意到星型架构是雪花的特例有一个连接树高度为一个模式。)此外,我们要求的任何的交点2关系模式R中;哪些标签中的边缘连接树,是一个关系的外键架构引用其他的主键。在SSNF数据库模式的进一步情况是连接树的层次结构诱导而言其完整性约束函数依赖(FDS)和限制类夹杂物的依赖关系(的INDS)。最后,连接树的根,其关系模式对应的事实表,必须在BCNF(SSNF的精确配方给出定义3.3)。

我们SSNF的定义抓住直觉后面的数据仓库的设计和我们的结果为定义提供语义理由SSNF。为了激励这些结果,我们简要地描述的概念独立[12-14]和可分离[15]数据库模式R,其中相对于的完整性约束集S由文件描述符和R上的INDS:鉴于在R A数据库D;独立意味着保持局部CON-在D关系的一致性;即确保使d满足在S且在d关系的IND满足S中的文件描述符;足以保证全球一致性,即有代表性的存在,例如,在集中所有的R中属性的uuml;文件描述符的满足设定F(见定义2.14)。该

理由代表事例是一个重要的概念是,它为我们提供了一个装置测试相互关联的CON-满意straints,其可以在加入的几个保持在D的关系:是可分离的延伸独立,这意味着更新D中的关系是独立的在这个意义上,我们不能推断出额外通过加入几元组在D任何关系在数据库D的关系:我们表明当R是在SSNF相至S那么它是独立的,并且如果,此外,该关系R中的模式所无法比拟那么它也是可分离。因此,对于在SSNF数据库模式在更新的存在诚信维修容易执行。我们还表明,在元组在uuml;代表事例;即元组在事实表扩展相关信息在组成维表,可通过计算雪花加入(参见星型连接[16])。这意味着,在一个查询结果数据仓库是在SSNF维持其一致性,即在满足诱导组FDS的其架构。

我们还检查了信息论继雪花模式的解释Malvestuto [17],卡瓦洛和Pittarelli的工作[18],李[19],Malvestuto [20],这使我们能够

适应的概率信息数据仓库。这是特别重要的,因为决策往往涉及概率说明原因soning [21]。我们表明,在冗余事实表的主键的加入雪花为零,也就是说,它是最小的。反对这项措施冗余,这是标准的评价标准评估关系数据库模式,SSNF是最佳的。

总之,本文建立了理论通过建设-用于支撑数据仓库设计ING在无环结构和利用该独立性和可分性的概念。一直以来,以我们的知识,有的没有正式的定义雪花模式的概念在发现数据仓库的文献,这是不可能给SSNF的等价的形式证明和雪花模式的直观概念。我们可以提供的最好的是在A证据的概念“这个意义上,雪花模式的所有实例我们已经在文献中遇到满足SSNF。

本文的其余部分的编排如下。在第2节我们提出的背景必要的其他关系型数据库理论的纸张。在第3节,我们形式化的概念雪花架构,定义SSNF和现在我们有关的有益特性结果雪花模式。在第4节,我们考虑的一个形式化的延伸节介绍,以包括更广泛的类雪花模式。在第5节,我们分析了雪花从一个信息理论点模式查看和显示,其熵具有特别

简单的形式。最后,在第6节,我们给我们总结发言。

2.关系和数据依赖

我们现在提出的背景材料必要写下在思想的发展;参见[5]对关系的其他详细信息数据库理论。

我们使用符号ĴSj表示的基数集合S的:若ST的一个子集,我们写S.D。T和如果ST的子集,我们写CT:此外,ST无法比拟的,如果的SjŤTJ。我们经常表示FA简单地通过;和两组S的结合;;即S,T; 仅仅通过ST:

定义2.1(数据库架构和数据库)。

设U是一个有限的属性集。一个关系模式R是不同的属性的有限序列从U。

在U A 数据库架构是一个有限集合R(R0,R1,R2.....RN),这样的话每个Ri都属于集合R并且UiRi等于U。

我们假设的可数无限域值,D;部分有序;无损失一般性,我们假设D是反链,本的R域;表示为DOM(R)被定义为笛卡尔乘积D A? A D DJř进行j次)。一个- [R元组(或仅仅是一个元组,只要R是理解从上下文站)是DOM(R)的成员。一个关系RR是一个有限的(可能为空)

的R-tuples。在R A 数据库d是一个家庭。

数据库在 R:此外,我们令r A D是关系在一个关系模式 R A R:像往常一样大写字母(其可以下标)从yacute;; 字母表如X 的端部Z的是用于表示属性集,而来自B:;字母如A的开始C的温度将用于表示单属性或单套的属性。

定义2.2(投影)。

投影- [R元组ŧ到一组属性Y D 的R;ŧfrac12;yuml;S;tY的限制:一投影关系 R R上到Y D - [R; 表示为pyuml;eth;第r; 是用p定义yuml;

eth;第rfrac14;F Tfrac12;YScaron;ĴT A R G:中的投影关系 结束了uuml;到ř; 表示为p

- [Reth;第s个; 是个数据库FP- [R0eth;第s个; p- [R1eth;第s个; yuml;; p- [Rntilde;eth;小号THG:

定义2.3(加入依赖)。

一个连接依赖新生dency(或简称为JD)的数据库模式R是该形式的语句Tfrac12;R 5:一个JDtfrac12;R 5为表示是平凡的,如果它的组件之一是U:一个JDtfrac12;R 5为一个关系R在ū满意;(可替代地,R无损连接分解U),表示为 r Ftfrac12;R 5;

定义2.4(功能依赖)。

一个功能在U(或只是一个FD)TIONAL依赖是一种形如 X 的声明 - Yuml;; 其中X,Y是杜套的属性。形式 X

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[150881],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。