研发进步
计算应用 虚拟扩展

技术意见:哪个数据仓库架构最优

贴上
  1. 导 言
  2. 调查与发现
  3. 结论
  4. 作者类
  5. 脚注

公司在过去15年中花费数以亿计的美圆和仓库然然此经验, 一个重要的设计决策 仍然引起热讨论:哪个数据仓库架构最优

多位咨询商和商贩都称特定架构最优,文献往往描述架构,提供案例研究实例或提供各种架构受欢迎度调查数据缺乏实证研究启发我们研究

关于研究,除审查数据仓文献外,我们还组成20名专家组帮助识别学习架构和成功度量使用Bill Inmon和Ralph Kimball是现场主要权威和两大竞争架构倡导者(即中心话总线和总线)是参与专家之一。

最终我们调查五大架构:独立数据玛特、总线、枢纽和语音集权化(非依存数据玛特)和联结文献中提及其他架构(例如混合结构),但五大结构往往变化不定

多组织独立数据marts初始努力提供决策支持数据存储器光圈通常独立于其他数据存储器,服务于局部特有需求,例如为特定应用或业务单元提供数据数据存储于数据模型中最能支持数据使用方式(例如OLAP立方体)。

上头总线架构数据图解支持各种业务流程,如订单、交付或客户通话imart为单业务流程搭建,使用维度测量法用于其他marts(即相容维度)。额外玛特使用这些相容维度开发,产生逻辑集成玛特和企业视图数据架构中没有归并关系数据完全维

上头中继和语音架构先从企业级数据需求分析开始注意力集中在建设可缩放和可维护的基础设施上。使用企业视图数据架构以迭代方式开发,主题区逐个主题区在此架构中,原子级数据保留在3号仓库华府正则形式依存数据数学从仓库生成源数据, 并维护“ 单版事实 ” 。 依存数据数学可开发面向省、功能区或专用目的( 例数据挖掘), 并视用户需求实现归并、 非归并或汇总维数据结构

上头集中式架构相似中心并说话,除无依存数据marts仓库内存原子级数据、一些汇总数据以及数据逻辑维观架构逻辑化而非实战化

上头联想架构当决策支持数据环境支离破碎并需要至少整合部分数据时,即代言使用合并、收购和公司重组时往往出现这种情况。联合架构保留现有决策支持结构(例如操作系统、数据marts)数据或用共享密钥、全局元数据、分布查询或用其他方法逻辑或物理集成

文献和专家访谈确定了两大类成功度量产品计量与信息和系统质量相关联,对单个用户的影响和对组织的影响项目度量相关时间和成本实施架构

回顶

调查与发现

web基础调查查询应答公司数据仓、实施架构、架构成功性、应答公司和应答者454个回复者提供完整的问答表a/

答卷者相对均衡分布于数据仓库管理员、数据仓库工作人员、IS管理员和独立咨询员/系统集成器后者被要求怀着特定客户的心来完成调查

参与调查的公司范围从小到大不等(即收入不足1 000万美元)至大不等(即超过10B美元)。公司大都位于美国60%)并代表各种行业,金融服务业提供最多响应

枢纽语系最常用架构(39%),紧随其后的是总线架构(26%)、中央集权式(17%)、独立数据marts(12%)和联结式(4%)。最常用数据仓库平台为Oracle(41%),其次是微软(19%)和IBM(18%)。

多数数据仓库支持数个业务单元(38%)或全公司(36%)。不到12%仓库支持单功能区或子单元仓库域或范围随架构而异枢纽和语音集权架构拥有最广域并有超过40%的组织大公司总线架构广达约30%的公司,紧随其后的是Federate公司(26%)和独立数据mats架构(18%)。

计算出平均产品成功度量独立数据mart架构所有计量得分最低下最小度测量是联想架构最有趣的是总线、中枢和语音集成架构成功分相似性三大架构产品成功度量均没有发现统计上的重大差分(MANOVA使用)。这三个架构在所有产品成功度量器上都提供相似、持续高分数(一般介于1-7尺度上5分中)。

调查工具请求回复者说明仓库实施第一个主题领域或业务流程平均所需时间离独立数据剖面图 公交总线和集权架构短短9个月下一个最长时间由联想架构需要,枢纽和语音架构耗时最多,为11.5个月。

平均初始开机成本居中并讲在所有结构中最昂贵接近2.5M这也是费用最高的架构维护,平均费用为1.24M

回顶

结论

我们发现为什么在哪个架构最优方面有协议和分歧研究结果断然显示,独立数据孔雀是最弱的解决方案,信息质量、系统质量、个人影响和组织影响方面这符合传统智慧结联架构虽然不弱,但成功度量取优这一点也不足为奇联想架构必须用现有的决策支持基础

最重要的发现是总线、中枢和语音与集中架构在产品成功度量评分上如何相似并解释这些竞技架构为何持续生存-它们同样能成功

产品相似性总线、中继站和语音集成架构可能不怎么奇怪随时间推移,每种方法都从其他方法中汲取长处。举例说,枢纽和声道架构通常包括维数据mats,这对总线架构至关重要。所有架构代言人现在都认识到快速推出初始版的重要性,以便实现早期wins或Financelift并维护管理支持

开发时间和成本有差异因前端规划、大型组织域和附加组件(如依存数据marts),枢纽和声道架构耗时最长,初始开发成本最高开发时间和成本方面其他架构趋向相似

整体而言,我们发现大型数据仓架构可提供良好的信息质量、系统质量、个人影响和组织影响研究没有发现清晰的“赢家”,产品成功度量与总线、枢纽和语音集成架构非常相似公司可以基于其他相关因素选择架构,如资源可用性、仓储需求紧迫性、管理者对仓库的战略观、组织服务领域、与现有系统和技术兼容性、咨询师建议等

回顶

回顶

    a.研究报告全文见网站:http://www.terry.uga.edu/~hatson/DW_Artituarture_Report.pdf

    DOI: http://doi.acm.org/10.1145/1400181.1400213

加入讨论(0)

加入或签名发布注释

CACM最新消息

形状计算未来

ACM鼓励成员直接决定协会的未来有比以往更多方式参与

获取卷积

ACM通讯现为完全开放存取出版物

通过向世界开放CACM,我们希望加强广大计算机科学界的参与并鼓励非成员发现ACM提供的丰富资源

学习更多
Baidu
map