大数据管理
大数据概述
什么是大数据
大数据定义
一般意义上,大数据是指无法在可容忍的时间内用现有 IT 技术和软硬件工具对其进行感知、获取、 管理、处理和服务的数据集合。
大数据通常被认为是 PB 或 EB 或更高数量级的数据,包括结构化的、半结构化的和非结构化的数据。
大数据分类
有专家按大数据的应用类型将大数据分为海量交易数据(企业 OLTP 应用)、海量交互数据(社交网、传感器、全球定位系统、Web 信息)和海量处理数据(企业 OLAP 应用)。
大数据的特征(4V)
巨量(Volume)、多样(Variety)、快变(Velocity)、价值(Value)。
巨量(Volume): 大数据的首要特征是数据量巨大,而且在持续、急剧地膨胀。
主要来源有:科学研究、互联网应用和电子商务领域、传感器数据、网站点击流数据、移动设备数据、无线射频识别数据等。
多样(Variety): 数据的多样性通常是指异构的数据类型、不同的数据表示和语义解释。
越来越多的应用所产生的数据类型不再是纯粹的关系数据,更多的是非结构化、半结构化的数据,如文本、图形、图像、音频、视频、网页、推特和博客(blogs)等。
快变(Velocity): 大数据的快变性也称为实时性,一方面指数据到达的速度很快,另一方面指能够进行处理的时间很短,或者要求响应速度很快,即实时响应。
价值(Value): 大数据的价值是潜在的、巨大的。大数据不仅具有经济价值和产业价值,还具有科学价值。这是大数据最重要的特点,也是大数据的魅力所在。
大数据的应用
感知现在 预测未来——互联网文本大数据管理与挖掘
互联网媒体文本大数据应用:时事探针
时事探针系统可以实时监控、收集互联网媒体数据,并对数据进行深入的挖掘和分析。“马航事件”等信息过载问题和“高考”等热点话题。
互联网文本大数据管理的挑战
对于文本大数据处理,目前广泛使用的互联网搜索引擎只是对文本数据的简单索引和查找,不能满足用户对所关注的话题进行实时监测、深入分析以及决策支持等需求。
互联网文本大数据管理系统
时事探针系统是一个面向互联网文本大数据的通用的管理和分析平台。整个系统分为离线处理和在线处理两个部分。其中离线部分是设计的重点,主要功能有:
- 多源异构网络大数据的感知和获取。
- 文档理解即结构化数据抽取和集成。
- 数据存储和索引。
- 离线主题文本立方体建立及更新。
互联网文本大数据管理的特点
- 互联网文本大数据蕴含着丰富的社会信息,可以看作是对真实社会的网络映射。
- 实时、深入分析互联网文本大数据,帮助人们在海量数据中获取有价值的信息,发现蕴含的规律,可以更好地感知现在、预测未来式。
- 互联网文本大数据管理对大数据系统和技术的挑战是全面的、跨学科跨领域的,需要创新,也要继承传统数据管理技术和数据仓库分析技术的精华。
数据服务 实时推荐——基于大数据分析的用户模型
面向用户建模的大数据系统架构
用户建模的目标是为了准确把握用户的行为特征、兴趣爱好等,进而较为精准地向用户提供个性化的信息服务或信息推荐。
面向用户建模的大数据系统架构如下:
数据分析:用户建模的基础工具
一大类用户建模方法采用的是批处理方式的离线分析方法,对结构化或半结构化的历史日志数据进行 SQL 分析或者使用数据挖掘和机器学习的深度分析方法。
另一大类用户建模方法则采用实时的在线分析方法,数据即来即分析,更强调数据的实时分析处理能力。
数据服务:用户建模的价值体现
这一类大数据应用特点:
- 模型的建立来自对大数据的分析结果。
- 数据处理既有对历史数据的离线分析和挖掘,又有对实时流数据的在线采集和分析。
- 用户模型本身也是大数据,维度高,信息稀疏,用户模型的存储、管理是数据服务的重要任务,要满足大规模应用需要的高并发数据更新与读取。
大数据管理系统
NoSQL 数据管理系统
NoSQL 是以互联网大数据应用为背景发展起来的分布式数据管理系统。NoSQL 有两种解释:一种是 Non-Relational,即非关系数据库;另一种是 Not Only SQL,即数据管理技术不仅仅是 SQL。目前第二种解释更为流行。
NoSQL 系统支持的数据模型通常分为 Key-Value 模型、BigTable 模型、文档模型和图模型等 4 种模型。
NewSQL 数据库系统
NewSQL 系统是融合了 NoSQL 系统和传统数据库事务管理功能的新型数据库系统。
系统名称 | 易用性 | 对事务的支持 | 扩展性 | 数据量 | 成本 | 代表系统 |
操作方式 | 一致性、并发控制 | |||||
经典关系数据库系统 SQL 系统 | 易用 SQL | ACID 强一致性 | < 1000 结点 | TB | 高 | Oracle,DB2,Greenplum 等 |
NoSQL 系统 | Get/Put 等存取原语 | 弱一致性、最终一致性 | > 10000 结点 | PB | 低 | BigTable,PNUTS,Cloudera 等 |
New SQL 系统 | SQL | ACID | > 10000 结点 | PB | 低 | VoltDB,Spanner 等 |
MapReduce 技术
MapReduce 技术是 Google 公司于 2004 年提出的大规模并行计算解决方案,主要应用于大规模廉价集群上的大数据并行处理。
MapReduce 是一种并行编程模型。它把计算过程分解为两个阶段,即 Map 阶段和 Reduce 阶段。
大数据管理系统的新格局
- 面向操作型应用的关系数据库技术
- 面向分析型应用的关系数据库技术
- 面向操作型应用的 NoSQL 技术
- 面向分析型应用的 MapReduce 技术