企业信息工厂

Bill Inmon的企业信息工厂(Corporate Information Factory, CIF)是两种主要的数据仓库建设模式之一。(因蒙) Inmon关于数据仓库的组成是这样描述的: “面向主题的、 整合的、 随时间变化的、 包含汇总和明细的、 稳定的历史数据集合”。 

1) 面向主题的。 数据仓库是基于主要业务实体组织的, 而不关注功能或应用。
2) 整合的。 数据仓库中的数据是统一的、 内聚的。 保持相同的关键结构, 结构的编码和解码、 数据定义和命名规范在整个仓库中都是一致的。 因为数据是整合的, 数据仓库不是简单的运营数据的副本。 相反, 数据仓库变成了一个数据记录的系统。
3) 随时间变化的。 数据仓库存储的是某个时间段的数据。 数据仓库中的数据像快照一样, 每一张快照都反映了某个时点的数据状态。 这意味着基于某个时间段的数据查询总是得到相同的结果, 无论什么时候去查询。
4) 稳定的。 在数据仓库中, 数据记录不会像在业务系统里那样频繁更新。 相反, 新数据只会追加到老数据的后面。 一组记录可以代表同一个交易的不同状态。
5) 聚合数据和明细数据。 数据仓库中的数据包括原子的交易明细, 也包括汇总后的数据。 业务系统很少聚合数据。 数据仓库一旦建好, 出于成本和空间的考虑, 都会有把数据汇总的需求。 在当前的数据仓库环境中, 汇总数据可以是持久地存在一个表里, 也可以是非持久的、 以视图的形式展现。 汇总数据是否持久化的决定因素通常是性能上是否需要。
6) 历史的。 业务系统的重心是当前的数据。 数据仓库还包括历史数据, 通常要消耗很大的存储空间。

CIF架构

1) 应用程序。 应用程序处理业务流程。 应用程序产生的明细数据流转到数据仓库和操作型数据存储中, 继而用作分析。
2) 数据暂存区。 介于业务系统源数据库和目标数据仓库之间的一个数据库。 暂存区是用于数据抽取、 转换和加载的地方, 对最终用户透明。 暂存区中的大部分数据是短时留存的, 通常只有相当少的一部分数据是持久性数据。
3) 集成和转换。 在集成层, 来自不同数据源的数据被转换整合为数仓和ODS里的标准企业模型。
4) 操作型数据存储(ODS) 。 操作型数据存储是业务数据的集成数据库。 数据可能直接来源于应用系统, 也可能来自其他数据库。 操作型数据存储中通常包括当前的或近期的(30~90天) 数据, 而数据仓库还包含历史(通常是很多年的) 数据。 操作型数据存储的数据变化较快, 而数据仓库的数据相对稳定。 不是所有的组织都会建设操作型数据存储, 操作型数据存储的存在满足了企业对低延迟数据的需求。 操作型数据存储可以作为数据仓库的主要来源, 还可用于对数据仓库做审计。
5) 数据集市。 数据集市为后续的数据分析提供数据。 这里说的数据通常是数据仓库的子集, 用于支持特定分析或特定种类的消费者。 例如, 数据集市可以聚合数据, 以支持更快的分析。 多维模型(用反范式的技术) 通常针对面向用户类型的数据集市。
6) 操作型数据集市(OpDM) 。 操作型数据集市是专注于运营决策支持的数据集市。 它直接从操作型数据存储而不是从数据仓库获取数据, 具有与操作型数据存储相同的特性: 包含当前或近期的数据, 这些数据是经常变化的。
7) 数据仓库。 数据仓库为企业数据提供了一个统一的整合入口,以支持管理决策、 战略分析和规划。 数据从应用程序系统和操作型数据存储流入数据仓库, 然后流到数据集市, 这种流动通常只是单向的。 需要更正的(不符合要求的) 数据将被拒绝进入, 理想情况是在其源头系统完成更正, 然后通过ETL流程系统重新加载。
8) 运营报告。 运营报告从数据存储中输出。
9) 参考数据、 主数据和外部数据。 除了来自应用程序的交易数据, 企业信息工厂还包括理解交易所需的数据, 如参考数据和主数据。对通用数据的访问简化集成在数据仓库中。 当应用程序使用当前的参考数据和主数据时, 数据仓库还需要它们的历史值及其有效的时间范围

“您的支持是我持续分享的动力”

微信收款码
微信
支付宝收款码
支付宝

黄金_shmaur
不积跬步,无以至千里;不积小流,无以成江海
目录关闭