跳转到内容

2.5 数据工程

掌握数据建模、数据运维、数据质量、数据利用以及数据库安全等数据工程的核心概念和方法。

概念模型(信息模型)

  • 按用户的观点来对数据和信息建模
  • 把现实世界中的客观对象抽象为某一种信息结构
  • 不依赖于具体的计算机系统,也不对应某个具体的DBMS

逻辑模型

  • 在概念模型的基础上确定模型的数据结构
  • 主要的数据结构:层次模型、网状模型、关系模型、面向对象模型、对象关系模型
  • 关系模型成为目前最重要的一种逻辑数据模型
  • 关系模型数据操作:查询、插入、删除、更新数据
  • 关系完整性约束
    • 实体完整性
    • 参照完整性
    • 用户定义的完整性

物理模型

  • 在逻辑数据模型的基础上,考虑各种具体的技术实现因素
  • 进行数据库体系结构设计
  • 真正实现数据在数据库中的存放

数据建模过程

阶段内容关注点产出
数据需求分析采用数据流图作为工具了解业务需求需求规格说明
概念模型设计按用户的观点来对数据和信息建模业务逻辑概念模型图
逻辑模型设计确定模型的数据结构数据结构关系模型图
物理模型设计考虑技术实现因素性能优化物理模型设计
公式 ★★★★★

数据建模过程

需求分析 → 概念模型 → 逻辑模型 → 物理模型

主要内容:元数据标准化、数据元标准化、数据模式标准化、数据分类与编码标准化

四个阶段

  1. 确定数据需求:产生数据需求及相关的元数据、域值等文件
  2. 制定数据标准:处理”确定数据需求”阶段提出的数据需求,产生供审查和批准的成套建议
  3. 批准数据标准:数据管理机构对提交的数据标准建议进行审查
  4. 实施数据标准:在各信息系统中实施和改进已批准的数据标准

备份策略

策略定义优点缺点可靠性
完全备份对整个系统的所有数据进行完整备份恢复简单、数据完整性最好备份时间长、占用空间大高(独立完整)
差分备份只备份自上一次完全备份后发生变化的数据比完全备份快、恢复只需两份差分文件会越来越大中(依赖单次全备)
增量备份只备份自上一次任何类型备份后发生变化的数据备份最快、空间最小恢复最复杂(需拼凑多份)中低(依赖备份链)

数据容灾

  • RPO(恢复点目标):当灾难发生时允许丢失的数据量(越小表示数据丢失越少,要求越高)
  • RTO(恢复时间目标):系统恢复的时间(越小表示恢复越快,要求越高)
公式 ★★★★★

备份策略对比

完全=全部备份 | 差分=相对完全备份的变化 | 增量=相对上次备份的变化

数据清理的三个步骤

步骤操作内容方法记忆要点
数据分析从数据中发现控制数据的一般规则统计分析、规则提取发现规律
数据检测根据预定义的清理规则检测数据是否正确规则匹配、异常检测检查问题
数据修正手工或自动地修正检测到的错误数据手工修正、自动清洗修复错误

数据挖掘

  • 目标:发现隐藏于数据之后的规律或数据间的关系,从而服务于决策
  • 主要任务:数据总结、关联分析、分类和预测、聚类分析、孤立点分析
  • 流程:确定分析对象 → 数据准备 → 数据挖掘 → 结果评估与结果应用(5个阶段)

数据服务

  1. 数据目录服务:快捷发现和定位所需数据资源
  2. 数据查询与浏览及下载服务:网上数据共享服务的重要方式
  3. 数据分发服务:数据生产者通过各种方式将数据传送到用户的过程

数据库安全机制

安全机制功能记忆要点
身份认证验证用户身份证明身份
存取控制控制用户访问权限控制权限
数据库加密保护数据机密性数据保护
数据审计记录操作日志记录行为
推理控制防止敏感信息泄露防止泄露

概念模型例子

就像画房子的设计图,只关注房间布局、功能分区,不关心用砖还是用钢筋建造。

逻辑模型例子

就像确定房子用框架结构还是砖混结构,选择具体的建筑方式。

物理模型例子

就像具体施工,确定用多少号水泥、什么规格钢筋、多厚的墙体。

数据容灾例子

就像买房,RPO是能接受多大损失(如房子没了但地还在,损失不大),RTO是多久能重新有房住(如租房过渡一段时间)。

数据挖掘例子

超市发现买尿布的人通常也会买啤酒,这就是通过分析购物数据发现的关联规律,用于商品摆放和促销。

知识点关键要点记忆口诀
数据模型三类概念模型(用户观点)、逻辑模型(数据结构)、物理模型(实现方式)三模型
关系完整性三约束实体完整性、参照完整性、用户定义完整性三约束
数据标准化四阶段确定需求→制定标准→批准标准→实施标准四阶段
备份三策略完全、差分、增量三策略
容灾两指标RPO(数据丢失量)、RTO(恢复时间)两指标
数据清理三步骤数据分析→数据检测→数据修正三步骤
数据库安全五机制身份认证、存取控制、加密、审计、推理控制五机制
练习

关系模型中的实体完整性是指( )

  • A A. 主键不能为空
  • B B. 外键必须存在
  • C C. 数据不能重复
  • D D. 以上都不是
练习

RPO指标表示( )

  • A A. 系统恢复时间
  • B B. 数据丢失量
  • C C. 系统可用性
  • D D. 数据完整性
练习

数据清理的第一步是( )

  • A A. 数据检测
  • B B. 数据修正
  • C C. 数据分析
  • D D. 数据验证
练习

以下不属于数据库安全机制的是( )

  • A A. 身份认证
  • B B. 存取控制
  • C C. 数据备份
  • D D. 数据审计
  1. 数据模型三类:概念模型、逻辑模型、物理模型
  2. 关系完整性三约束:实体完整性、参照完整性、用户定义完整性
  3. 备份三策略:完全备份、差分备份、增量备份
  4. 容灾两指标:RPO(数据丢失量)、RTO(恢复时间)
  5. 数据清理三步骤:数据分析、数据检测、数据修正
  6. 数据库安全五机制:身份认证、存取控制、加密、审计、推理控制
💬 讨论区