数据管理基础知识 | 第一章 | shmaur
引言 #
数据管理(Data Management):为了交付、控制、保护并提升数据和信息资产的价值,在其整个生命周期中制订计划、制度、规程和实践活动,并执行和监督的过程。
数据管理专业人员(Data Management Professional):指从事数据管理各方面的工作(从数据全生命周期的技术管理工作,到确保数据的合理利用及发挥作用),并通过其工作来实现组织战略目标的任何人员。
数据管理专业人员:高级技术人员(如数据库管理员、网络管理员、程序员);战略业务人员(如数据管理专员、数据策略师、首席数据官等)。
数据管理需要技术和非技术的双重技能。责任由业务人员和信息技术人员共同承担。数据管理的主要驱动力是使组织能够从其数据资产中获取价值。
管理数据的目标:
1)理解并支撑企业及其利益相关方的信息需求得到满足。
2)获取、存储、保护数据和确保数据资产的完整性。
3)确保数据和信息的质量。
4)确保利益相关方的数据隐私和保密性。
5)防止数据和信息未经授权或被不当访问、操作及使用。
6)确保数据能有效地服务于企业增值的目标。
【满足自己和利益方的需求、数据完整性、质量、隐私和保密性、防止不当行为、服务增值目标】
基本概念 #
数据的定义
1)数据代表事实,数据是这个世界中与某个事实结合在一起的一种真实表达。
2)数据既是对其所代表对象的解释,也是必须解释的对象。
3)语境可被视为数据的表示系统,该系统包括一个公共词汇表和一系列组件之间的关系,如果知道这样一个系统的约定,就可解释其中的数据。这些数据通常记录在一种特殊类型的数据——元数据中。
数据和信息数据:信息的原材料。信息:在上下文语境中的数据。数据是信息的一种形式,信息也是数据的一种形式。(但二者不等同)
数据驱动:使用事件触发和应用分析来获得可操作的洞察力。必须通过业务领导和技术专业知识的合作关系,以专业的规则高效管理数据。
数据管理的原则:
1 有效的数据管理需要领导层承担责任。
2 数据价值:A 独特属性的资产(对比金融和实物资产,其中最明显的一个特点是数据资产在使用过程中不会产生消耗);B 可用经济术语表示。
3 数据管理需求是业务的需求:A 意味着对质量的管理。B 需要元数据。C 需要规划。D须驱动信息技术决策。
4 数据管理依赖不同技能:A 跨职能的。B 需要企业级视角。C 为多方面要求负责。
5 数据管理是生命周期管理:A 不同类型数据有不同的生命周期。B 需要纳入与数据相关的风险。
数据与其他资产的区别:实物资产是看得见、摸得着、可以移动的,在同一时刻只能被放置在一个
地方。金融资产必须在资产负债表上记账。然而数据不同,它不是有形的。尽管数据的价值经常随着时间的推移而变化,但它是持久的、不会磨损的。
数据价值:
1)获取和存储数据的成本。
2)如果数据丢失,更换数据需要的成本。
3)数据丢失对组织的影响。
4)风险缓解成本和与数据相关的潜在风险成本。
5)改进数据的成本。
6)高质量数据的优势。
7)竞争对手为数据付出的费用。
8)数据潜在的销售价格。
9)创新性应用数据的预期收入。
评估数据资产面临的主要挑战:数据的价值是上下文相关的(对一个组织有价值的东西可能对另一个组织没有价值),而且往往是暂时的(昨天有价值的东西今天可能没有价值)。
低质量的数据成本:1)报废和返工。2)解决方法和隐藏的纠正过程。3)组织效率低下或生产
力低下。4)组织冲突。5)工作满意度低。6)客户不满意。7)机会成本,包括无法创新。8)合规成本或罚款。9)声誉成本。
高质量数据的作用:1)改善客户体验。2)提高生产力。3)降低风险。4)快速响应商机。5)增加收入。6)洞察客户、产品、流程和商机,获得竞争优势。
元数据是全面改进数据管理的起点。P9
数据生命周期的几个重要影响:1 创建和使用是数据生命周期中的关键点;2 数据质量管理必须贯穿整个数据生命周期;3 元数据质量管理必须贯穿整个数据生命周期;4 数据管理还包括确保数据安全,并降低与数据相关的风险。5 数据管理工作应聚集于关键数据。P10-11
数据管理战略的组成:1)令人信服的数据管理愿景。2)数据管理的商业案例总结。3)指导原则、价值观和管理观点。4)数据管理的使命和长期目标。5)数据管理成功的建议措施。6)符合 SMART 原则(具体、可衡量、可操作、现实、有时间限制)的短期(12~24 个月)数据管理计
划目标。7)对数据管理角色和组织的描述,以及对其职责和决策权的总结。8)数据管理程序组件和初始化任务。9)具体明确范围的优先工作计划。10)一份包含项目和行动任务的实施路线图草案。
数据管理战略规划的可交付成果:1 数据管理章程:总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。2 数据管理范围声明:规划目的和目标(通常为 3 年),以及负责实现这些目标的角色、组织和领导。3 数据管理实施路线图:确定特定计划、项目、任务分配和交付里程碑。
DIKW 金字塔模型 #

数据:是理解事实的符号,比如数字、单位、程度描述等。在未被整理或者加以理解之前,它是无用的。
信息:信息是带有逻辑的数据组合,多是结构化表述,我们可以了解数据背后的世界和关系。
知识:知识是在众多数据、信息中增加了主管理解并进一步生化的数据简介,因此因人而异;和信息不同,知识是直接指导业务决策和行动的,因此能直接产生价值。
智慧:融合了决策者的深层理解和经验性的洞见,透析数据,不仅知其然,更知其所以然。
DIKW 知识管理体系 #

组织内应该把数据和信息划清界限
数据和信息都需要管理来满足需求
数据管理知识体系中数据和信息可以互换使用
数据是一种组织资产 #
资产是一种经济资源, 能被拥有或控制、 持有或产生价值。 资产可以转化为货币。
数据管理原则 #
有效的数据管理需要领导层负责
数据是有价值的 #
- 数据是具有独特的属性的资产,数据资产在使用过程中不会产生消耗。
- 数据的价值可以而且应用用经济术语来表示
数据管理需求是业务需求 #
- 管理数据意味着管理数据质量
- 需要元数据来管理数据
- 需要规划来管理数据
- 数据管理需求必须推送信息技术决策
数据管理依赖于多种技能 #
- 数据管理是跨职能的
- 数据管理需要企业视角
- 数据管理必须考虑各种视角
数据管理是生命周期管理 #
- 不同类型的数据具有不同的生命周期特征
- 管理数据包括与数据相关的风险
数据管理挑战 #
- 由于数据管理具有源自数据本身属性的显著特征,因此在遵循这些原则方面也来带来了挑战
- 高效的数据管理需要领导力和承诺
- 数据和其他资产不同
实物资产是看得见、 摸得着、 可以移动的, 在同一时刻只能被放置在一个地方。 数据是持久的、 不会磨损的,使用时不会被消耗,数据是动态的。
- 数据价值,价值(Value) 是一件事物的成本和从中获得利益的差额。
组织内部持续付出的一般性成本和各类收益:
1) 获取和存储数据的成本。
2) 如果数据丢失, 更换数据需要的成本。
3) 数据丢失对组织的影响。
4) 风险缓解成本和与数据相关的潜在风险成本。
5) 改进数据的成本。
6) 高质量数据的优势。
7) 竞争对手为数据付出的费用。
8) 数据潜在的销售价格。
9) 创新性应用数据的预期收入。
- 数据质量
确保高质量的数据是数据管理的核心。
低质量数据的成本主要来源于:
1) 报废和返工。
2) 解决方法和隐藏的纠正过程。
3) 组织效率低下或生产力低下。
4) 组织冲突。
5) 工作满意度低。
6) 客户不满意。
7) 机会成本, 包括无法创新。
8) 合规成本或罚款。
9) 声誉成本。
高质量数据的作用包括:
1) 改善客户体验。
2) 提高生产力。
3) 降低风险。
4) 快速响应商机。
5) 增加收入。
6) 洞察客户、 产品、 流程和商机, 获得竞争优势。
- 数据优化计划
从数据中获取价值不是偶然的, 需要以多种形式进行规划。 决策需要系统思考, 因为它们涉及
1) 数据也许被视为独立于业务流程存在。
2) 业务流程与支持它们的技术之间的关系。
3) 系统的设计和架构及其所生成和存储的数据。
4) 使用数据的方式可能被用于推动组织战略。
数据规划需要有针对架构、 模型和功能设计的战略路径。 它也取决于业务和IT领导之间的战略协作, 以及单个项目的执行力
- 元数据和数据管理
组织需要可靠的元数据去管理数据资产,元数据描述了一个组织拥有什么数据, 它代表什么、 如何被分类、它来自哪里、 在组织之内如何移动、 如何在使用中演进、 谁可以使用它以及是否为高质量数据。
- 数据管理是跨职能的
数据管理需要系统规划的设计技能、 管理硬件和构建软件的高技术技能、 利用数据分析理解问题和解释数据的技能、 通过定义和模型达成共识的语言技能以及发现客户服务商机和实现目标的战略思维。
- 建立企业视角,管理数据需要理解一个组织中的机会和数据范围。
- 数据管理需要多角度思考
- 数据生命周期
- 不同种类的数据,不同种类的数据有各自不同的生命周期管理需求, 这使得管理数据变得更加复杂。 任何管理系统都需要将管理的对象进行分类。
- 数据和风险:数据不仅代表价值, 也代表风险。 不准确、 不完整或过时的低质量数据, 因为其信息不正确明显代表风险。数据的风险在于, 它可能被误解和误用。
- 数管理和技术,数据管理活动范围广泛, 需要技术和业务技能。
数据生命周期 #
数据不仅具有生命周期,而且具有谱系。
数据生命周期中最关键点:
创建和使用是数据生命周期的最关键点
数据质量必须在整个数据生命周期中进行管理
元数据质量必须在整个数据生命周期中进行管理
数据安全必须在整个数据生命周期中进行管理
数据管理工作应侧重于最关键的数据
数据生命周期包括:数据创建或获取的流程;数据移动、转换、和存储并使其被维护和共享的流程;数据使用或应用的流程;以及数据处置的流程。
在数据整个生命周期中,数据可能会被清理、转换、合并、增强、或聚合。
当使用或增强数据时,通常会创建新的数据,因此生命周期具有关系图中红色虚线显示的内部迭代。
数据很少是静态的。管理数据涉及一组与数据生命周期一致的互连流程。
数据管理战略 #
战略是一组选择和决策, 它们共同构成了实现高水平目标的高水平行动过程。
数据战略应该包括使用信息以获得竞争优势和支持企业目标的业务计划。
数据战略需要一个支持性的数据管理战略——一个维护和改进数据质量、 数据完整性、 访问和安全性的规划, 同时降低已知和隐含的风险。 该战略还必须解决与数据管理相关的已知挑战。
数据管理战略由CDO拥有和维护, 并由数据治理委员会支持的数据管理团队实施。
CDO 会在数据治理委员会成立之前起草一份初步的数据战略和数据管理战略。
数据管理战略的组成包括
1) 令人信服的数据管理愿景。
2) 数据管理的商业案例总结。
3) 指导原则、 价值观和管理观点。
4) 数据管理的使命和长期目标。
5) 数据管理成功的建议措施。
6) 符合SMART原则(具体、 可衡量、 可操作、 现实、 有时间限制) 的短期(12~24个月) 数据管理计划目标。
7) 对数据管理角色和组织的描述, 以及对其职责和决策权的总结。
8) 数据管理程序组件和初始化任务。
9) 具体明确范围的优先工作计划。
10) 一份包含项目和行动任务的实施路线图草案。
数据管理战略规划的可交付成果包括
1) 数据管理章程。 包括总体愿景、 业务案例、 目标、 指导原则、成功衡量标准、 关键成功因素、 可识别的风险、 运营模式等。
2) 数据管理范围声明。 包括规划目的和目标(通常为3年) , 以及负责实现这些目标的角色、 组织和领导。
3) 数据管理实施路线图。 确定特定计划、 项目、 任务分配和交付里程碑
数据管理框架 #

战略一致性模型(SAM) #
战略一致性模型(Strategic Alignment Model, SAM) 抽象了各种数据管理方法的基本驱动因素(Henderson和Venkatraman, 1999) , 模型的中心是数据和信息之间的关系。
信息通常与业务战略和数据的操作使用相关。 数据与信息技术和流程相关联, 这些技术和过程支持可访问数据的物理系统。
围绕这一概念的是战略选择的4个基本领域: 业务战略、 IT战略、 组织和流程以及信息系统。
阿姆斯特丹模型 #

阿姆斯特丹信息模型(The Amsterdam Information Model, AIM)与战略一致性模型一样, 从战略角度看待业务和IT的一致性。共有9个单元, 它抽象出一个关注结构(包括规划和架构) 和策略的中间层。
SAM(战略一致性模型) 和AIM(阿姆斯特丹信息模型) 框架从横轴(业务/IT战略) 和纵轴(业务战略/业务运营) 两个维度详细描述组件之间的关系。
DAMA-DMBOK框架 #
DAMA 车轮图 #
车轮图包括11个知识领域,以数据治理为核心
DAMA 六边形图 #
六边形图展示了PPT(人员-Person、流程-process、技术-Technology)之间的关系
六边形图中的目标和原则在中间,以显示其指导与核心地位。
DAMA 语境关系图 #
语境关系图展示了 PPT 的更多细节
语境关系图基于产品管理 SIPOC(提供者-Supporters,输入-Inputs,过程-Processes,输出-Outputs,消费者-Consumers)概念设计
语境关系图中心位置的活动产出了利益相关方需要的交付成果。
DAMA 车轮图演化版 #

外围的数据治理,强调数据治理对其他知识领域的监督和指导作用
以数据生命周期管理为核心,包括:规划和设计、启用和维护及使用和增强
以数据保护(隐私/安全/风险)管理、元数据管理、数据质量管理为基础活动
演化版更加体现业务属性,原版更体现技术属性。
数据治理活动通过战略、原则、制度、和管理提供监督和遏制。它们通过数据分类和数据估值实现一致性。
DMBOK金字塔( Aiken) #

第一阶段:数据建模与设计、数据存储与操作、数据安全以及数据集成与互操作性;
第二阶段:数据架构、数据质量以及元数据管理
第三阶段:数据治理、文档和内容管理、参考数据和主数据管理以及数据仓库和商务智能
第四阶段:高级实践(大数据、分析、挖掘)