一、数据库技术发展概述
数据库是管理数据的技术,发展了以数据建模和数据库管理系统核心技术为主,内容丰富、领域宽广的一门学科,带动 了一类巨大的软件产业——数据库管理系统(DBMS)产品 及其相关工具和解决方案
数据模型是数据库系统的核心和基础。
数据库技术的发展阶段
第一代数据库系统
层次模型数据库管理系统:1969年IBM公司研制的层次模型数据库管理系统IMS
网状模型数据库管理系统:DBTG所提议的方法是基于网状结构的,是网状模型 数据库系统的典型代表
共同特点
(1)支持三级模式(外模式、模式、内模式)的体系结构。
(2)用存取路径来表示数据之间的联系。
(3)独立的数据定义语言。
(4)导航的数据操纵语言。
第二代数据库系统(20世纪70年代称 为数据库时代):关系数据库系统
关系数据库是以关系模型为基础。 关系模型是由数据结构、关系操作和数据完整性三部分组成。 关系代数作为语言基础,由关系数据理论作为理论基础。
20世纪70年代是关系数据库理论研究和原型开发的时代,其 主要成果有:
(1)奠定了关系模型的理论基础,给出了人们一致接受的关 系模型的规范说明。
(2)研究了关系数据语言,有关系代数、关系演算、SQL语 言及QBE等。
(3)研制了大量的RDBMS的原型,攻克了系统实现中查询优 化、并发控制、故障恢复等一系列关键技术。
关系数据库系统 特点: • 模型简单清晰 • 理论基础好 • 数据独立性强 • 数据库语言非过程化 • 标准化
新一代数据库系统
特点:
- 应支持数据管理、对象管理和知识管理
- 必须保持或继承第二代数据库系统的技术
- 必须对其他系统开放
二、数据仓库与数据挖掘
计算机数据处理工作的类型:
- 操作型处理:“也称为联机事务处理(OLTP) 针对具体业务在数据库联机的日常操作
- 分析型处理:也称为联机分析处理(OLAP) 通常是对海量的历史数据查询和分析
传统的数据库技术 VS 数据仓库
传统的数据库特点:操作型处理
数据仓库特点:分析型处理
数据仓库(Data Warehouse,DW):是面向主题的、集成的、稳定的、 随时间变化的数据集合,用以支持管理决策的过程。 数据仓库不是可以买到的产品,而是一种面向分析的数据存储方案。
特点:面向主题、 集成性、数据的非 易失性、数据的时 变性
数据仓库的三个概念:
- 粒度:粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,细化程 度越高,粒度级就越小,相反地,细化程度越低,粒度级就越大
- 分割:
- 维:
什么是数据挖掘:数据挖掘是从大量的、不完全的、有噪 声的、模糊的、随机的实际应用数据中 发现并提取隐藏在其中的、人们事先不 知道的、但又是潜在有用的信息和知识 的一种技术。又被称为知识发现
OLAP:数据汇总/聚集工具,可简化数据分析 数据挖掘、简化和支持交互式数据分析
数据挖掘:自动地发现隐藏在大量数据中的隐含模式和有趣知识、尽可能自动处理
数据挖掘的功能
- 概念描述
- 关联分析
- 分类与预测
- 聚类
- 孤立点检测
- 趋势和演变分析
大数据及其特征:大数据是指无法在可容忍的时间内用现有信息技术和软、硬件工具对其进 行感知、获取、管理、处理的服务的数据集合。
特点:大量化、多样化、快速化 、价值密度低
大数据管理技术典型代表
大数据存储 、NoSQL 数据管理系统、MapReduce技术
数据仓库的建立将操作型处理和分析型处理区分开来。数据仓库为(分析型 处理)服务,传统的数据库技术为(操作型处理)服务
三、大数据管理技术