本文最后更新于137 天前,其中的信息可能已经过时。
数据仓库与联机分析处理技术
数据仓库技术
数据仓库定义
数据仓库是一个用以更好地支持企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。
本质上和数据库一样,是长期储存在计算机内的、有组织的、可共享的数据集合。
数据仓库的基本特征
数据仓库的数据是面向主题的
面向主题的数据组织方式是根据分析要求将数据组织称一个完备的分析域,即主题域。
数据仓库的数据是集成的
数据仓库的数据是从原有的分散的数据库数据中抽取出来的,数据在进入数据仓库前要进行加工与集成,统一于综合。
数据仓库的数据不可更新
数据仓库主要供决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。是指用户进行分析处理时不进行数据更新,不是说数据仓库的整个生命周期中数据不变。
数据仓库的数据是随时间不断变化的
- 随时间变化数据内容不断增加。
- 随时间变化旧的数据内容被删除。
- 随时间变化数据被不断地重新组合。
数据仓库中的数据组织
数据仓库系统的体系结构
联机分析处理技术
多维数据模型
数据分析时用户的数据视图,是面向分析的数据模型,用于给分析人员提供多种观察的视角和面向分析的操作。
多维分析操作
常用的OLAP多为分析操作有切片(slice)、切块(dice)、旋转(pivot)、向上综合(roll-up)、向下钻取(drill-down)等。
OLAP的实现方式
按照多维数据模型的不同实现方式,分为MOLAP结构、ROLAP结构、HOLAP结构。
- MOLAP结构:以多立方体CUBE来组织数据。
- ROLAP结构:用关系的表来组织和存储多维数据,星形模式和雪片模式。
- HOLAP结构是MOLAP结构和ROLAP结构的混合。
数据挖掘技术
数据挖掘的概念
数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但又可能有用的信息和知识的一种新技术。目的是帮助决策者寻找数据间潜在的关联,发现经营者忽略的要素。
数据挖掘和传统分析方法的区别
本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识。数据挖掘所得到的信息应具有事先未知、有效和可实用三个特征。
数据挖掘的数据源
从数据仓库中来、从数据库中来。
大数据时代的新型数据仓库
系统需求的变化
- 数据量急剧增长,由TB升至PB升至ZB,并仍爆炸式增长。
- 数据类型多样,必须能够处理大量的结构化和半结构化的数据。
- 决策分析复杂,由常规分析转为深度分析。
- 底层硬件环境变化,多核处理器、大内存、高速网络。
传统数据仓库所面临的问题
- 数据移动代价过高。
- 不能快速适应变化。
大数据时代的新型数据仓库
新型数据仓库需具备以下的特性:
特性 | 简要说明 |
---|---|
高度可扩展 | 横向大规模可扩展,大规模并行处理 |
高性能 | 快速响应复杂查询与分析 |
高度容错性 | 查询失败时,只需重做部分工作 |
支持异构环境 | 对硬件平台一致性要求不高,适应能力强 |
较低的分析延迟 | 业务需求变化时,能快速反应 |
易用且开放接口 | 既能方便查询,又能处理复杂分析 |
较低成本 | 较高的性价比 |
向下兼容性 | 支持传统的BI工具 |