数据仓库的由来
全文请看:http://yyq123.journalspace.com/?entryid=408
本文是阅读《企业数据仓库 规划建立与实现》一书的笔记。作者Eric Sperley,在第一章《信息技术简史》中,讲解了企业对信息的渴求以及IT提供信息的进展。其中,精彩精准的指点俯拾皆是,特成此文,详加记述。
“ 世界的历史是一门对事业进行投资以产生更多财富的学科。[P2]”作者以此角度向我们展示了信息的价值。在农业时代,人们在土地上投资,以产生更多财富;工业革命之后,生产物品的能力变得比钱更重要,人们开始投资于工厂;而如今,人们更懂得使用信息来获得金钱或节省金钱。数据仓库就是一种增加利润的信息系统,可以用来减少费用、避免将来的花费或通过为公司决策人员提供信息以增加收入。那么,数据仓库到底是什么呢?它又是如何发展而来的呢?
“企业运行部门进行信息系统的开发导致了信息筒仓(Silo)或信息井(Well)等计算机系统的开发。这些系统可以提供公司特定部门中的详细数据,但是它们不能从公司其他部门中集成信息。因为没有关于公司状况的单一、集成的数据源,所以很难(如果不是不可能的话)通过查询这些筒仓得到公司的全貌。[P5]”
Silo
“ 对于不同数据筒仓中看似相同的数据的迥然不同的定义,给公司用户和IT社区造成了巨大的混淆。商业专业人士认为IT专业人士不对,因为对于相同数量应该产生相同数字的两个不同报表却得出了不同的数字。尽管人们的第一个想法可能是IT部门不能胜任其工作,或公司同事的沟通不够直接,但是通常情况并不是这样。报表上的数字是使用不同源系统中的不同数据计算得到的。这种情况的结果是公司花费了大量的时间在数据一致性上,而只花费了很少的时间对数据进行操作。[P8]”产生混淆的根本原因是,分离的信息筒仓在单独建设过程中未经规划和未经结构化。更不用说,历史数据与当前数据的可比性,内部数据与外部数据的整合性等等问题。所有这一切最终将导致,公司被一个个信息孤岛所割裂,大量资源被用于维护分散的信息筒仓,决策者面对不完整、甚至是相互抵触的数据做出不恰当的决定。
为了解决未经规划的数据环境造成的严重问题,并满足支持经营决策的需求,数据仓库应运而生。很多人都为数据仓库这一思想的出现作出了贡献,但是大家公认1993年,William H. Inmon在其《Build the Data Warehouse》一书中对数据仓库的定义:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程。”
* 面向主题(Subject Oriented)意味着数据仓库设计成提供与公司单个领域相关的数据。
* 集成性(Integrated)意味着数据仓库将从多个源系统抽取数据,然后经过清洗,再将一致、完整的数据导入。
* 非易失性(Non-Volatile)是指一旦数据加载到数据仓库之后,它就不能被改变。
* 随时间变化(Time Variant)是指数据仓库既保存当前数据,也保存历史数据。
本文是阅读《企业数据仓库 规划建立与实现》一书的笔记。作者Eric Sperley,在第一章《信息技术简史》中,讲解了企业对信息的渴求以及IT提供信息的进展。其中,精彩精准的指点俯拾皆是,特成此文,详加记述。
“ 世界的历史是一门对事业进行投资以产生更多财富的学科。[P2]”作者以此角度向我们展示了信息的价值。在农业时代,人们在土地上投资,以产生更多财富;工业革命之后,生产物品的能力变得比钱更重要,人们开始投资于工厂;而如今,人们更懂得使用信息来获得金钱或节省金钱。数据仓库就是一种增加利润的信息系统,可以用来减少费用、避免将来的花费或通过为公司决策人员提供信息以增加收入。那么,数据仓库到底是什么呢?它又是如何发展而来的呢?
“企业运行部门进行信息系统的开发导致了信息筒仓(Silo)或信息井(Well)等计算机系统的开发。这些系统可以提供公司特定部门中的详细数据,但是它们不能从公司其他部门中集成信息。因为没有关于公司状况的单一、集成的数据源,所以很难(如果不是不可能的话)通过查询这些筒仓得到公司的全貌。[P5]”
Silo
“ 对于不同数据筒仓中看似相同的数据的迥然不同的定义,给公司用户和IT社区造成了巨大的混淆。商业专业人士认为IT专业人士不对,因为对于相同数量应该产生相同数字的两个不同报表却得出了不同的数字。尽管人们的第一个想法可能是IT部门不能胜任其工作,或公司同事的沟通不够直接,但是通常情况并不是这样。报表上的数字是使用不同源系统中的不同数据计算得到的。这种情况的结果是公司花费了大量的时间在数据一致性上,而只花费了很少的时间对数据进行操作。[P8]”产生混淆的根本原因是,分离的信息筒仓在单独建设过程中未经规划和未经结构化。更不用说,历史数据与当前数据的可比性,内部数据与外部数据的整合性等等问题。所有这一切最终将导致,公司被一个个信息孤岛所割裂,大量资源被用于维护分散的信息筒仓,决策者面对不完整、甚至是相互抵触的数据做出不恰当的决定。
为了解决未经规划的数据环境造成的严重问题,并满足支持经营决策的需求,数据仓库应运而生。很多人都为数据仓库这一思想的出现作出了贡献,但是大家公认1993年,William H. Inmon在其《Build the Data Warehouse》一书中对数据仓库的定义:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程。”
* 面向主题(Subject Oriented)意味着数据仓库设计成提供与公司单个领域相关的数据。
* 集成性(Integrated)意味着数据仓库将从多个源系统抽取数据,然后经过清洗,再将一致、完整的数据导入。
* 非易失性(Non-Volatile)是指一旦数据加载到数据仓库之后,它就不能被改变。
* 随时间变化(Time Variant)是指数据仓库既保存当前数据,也保存历史数据。
有关键情节透露