数据仓库四特性
- 面向主题:按主题组织数据
- 集成性:来自不同数据源的集成
- 相对稳定:主要进行查询操作
- 随时间变化:保存历史数据
掌握数据库系统的概念、组成、数据模型、范式和事务管理。
外模式→模式→内模式(用户→逻辑→物理)
| 模式 | 说明 |
|---|---|
| 外模式 | 用户视图,某一用户看到的数据库逻辑表示 |
| 模式 | 逻辑模式,数据库总体逻辑结构的描述 |
| 内模式 | 存储模式,数据物理存储结构的描述 |
| 数据模型 | 特点 |
|---|---|
| 层次模型 | 树形结构 |
| 网状模型 | 图形结构 |
| 关系模型 | 二维表结构(最常用) |
一原二完三传(1NF原子性、2NF完全依赖、3NF消除传递依赖)
| 范式 | 要求 |
|---|---|
| 第一范式(1NF) | 属性不可分割(原子性) |
| 第二范式(2NF) | 满足1NF,且非主属性完全依赖主键 |
| 第三范式(3NF) | 满足2NF,且消除传递依赖 |
| BC范式(BCNF) | 更严格的3NF |
原一隔持(原子性、一致性、隔离性、持久性)
| 特性 | 说明 |
|---|---|
| 原子性(Atomicity) | 事务中的操作要么全做,要么全不做 |
| 一致性(Consistency) | 事务执行后,数据库保持一致性状态 |
| 隔离性(Isolation) | 并发事务之间相互隔离 |
| 持久性(Durability) | 事务一旦提交,结果永久保存 |
| 特性 | 数据库 | 数据仓库 |
|---|---|---|
| 用途 | 日常业务处理(OLTP) | 决策支持(OLAP) |
| 数据量 | 小到中等 | 海量 |
| 操作 | 增删改查 | 主要查询分析 |
| 数据时效性 | 当前数据 | 历史+当前数据 |
数据仓库四特性
Volume(体积)、Velocity(速度)、Variety(多样)、Value(价值)、Veracity(真实)
| 技术 | 用途 |
|---|---|
| Hadoop | 分布式计算框架 |
| HDFS | 分布式文件存储系统 |
| MapReduce | 分布式计算模型 |
| Spark | 快速通用的大数据计算引擎 |
| HBase | 分布式列式数据库 |