数据库设计原则

标准化和规范化 数据库设计范式(3NF)

第一范式

数据属性唯一标示
在任何一个关系数据库中,第一范式(1NF)是对关系模式的基本要求,不满足第一范式(1NF)的数据库就不是关系数据库。
所谓第一范式(1NF)是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。在第一范式(1NF)中表的每一行只包含一个实例的信息。例如,对于图3-2 中的员工信息表,不能将员工信息都放在一列中显示,也不能将其中的两列或多列在一列中显示;员工信息表的每一行只表示一个员工的信息,一个员工的信息在表中只出现一次。简而言之,第一范式就是无重复的列。

第二范式

行信息唯一标示
第二范式(2NF)是在第一范式(1NF)的基础上建立起来的,即满足第二范式(2NF)必须先满足第一范式(1NF)。第二范式(2NF)要求数据库表中的每个实例或行必须可以被唯一地区分。为实现区分通常需要为表加上一个列,以存储各个实例的唯一标识。
员工信息表中加上了员工编号(emp_id)列,因为每个员工的员工编号是唯一的,因此每个员工可以被唯一区分。这个唯一属性列被称为主关键字或主键、主码。
第二范式(2NF)要求实体的属性完全依赖于主关键字。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列,以存储各个实例的唯一标识。简而言之,第二范式就是非主属性非部分依赖于主关键字。

第三范式

信息资料唯一存储
满足第三范式(3NF)必须先满足第二范式(2NF)。简而言之,第三范式(3NF)要求一个数据库表中不包含已在其它表中已包含的非主关键字信息。例如,存在一个部门信息表,其中每个部门有部门编号(dept_id)、部门名称、部门简介等信息。那么在图3-2的员工信息表中列出部门编号后就不能再将部门名称、部门简介等与部门有关的信息再加入员工信息表中。如果不存在部门信息表,则根据第三范式(3NF)也应该构建它,否则就会有大量的数据冗余。简而言之,第三范式就是属性不依赖于其它非主属性。
满足第三范式的条件:
若关系R中存在非平凡FD A1A2A3……An->B,且要么左边{A1A2A3……An}是超键,要么右边的B属于某个键,则认为关系R属于第三范式(3NF).

反范式设计

数据库设计要严格遵守范式,这样设计出来的数据库,虽然思路很清晰,结构也很合理,但是,有的时候,却要在一定程度上打破范式设计。
这里其实并不矛盾,因为范式越高,设计出来的表可能越多,关系可能越复杂,但是性能却不一定会很好,因为表一多,就增加了关联性。这一点表现得很明显。
最明显的打破范式的设计方法就是冗余法,以空间换取时间的做法,把数据冗余在多个表中,当查询时可以减少或者是避免表之间的关联。

数据驱动

采用数据驱动而非硬编码的方式,许多策略变更和维护都会方便得多,大大增强系统的灵活性和扩展性。
举例,假如用户界面要访问外部数据源(文件、XML 文档、其他数据库等),不妨把相应的连接和路径信息存储在用户界面支持表里。还有,如果用户界面执行工作流之类的任务(发送邮件、打印信笺、修改记录状态等),那么产生工作流的数据也可以存放在数据库里。角色权限管理也可以通过数据驱动来完成。事实上,如果过程是数据驱动的,你就可以把相当大的责任推给用户,由用户来维护自己的工作流过程。

考虑各种变化和记录数据的基本信息

在设计数据库的时候考虑到哪些数据字段将来可能会发生变更。
举例 数据的添加时间,更新时间 用户的注册ip登录ip

数据库建立

数据库表名

  1. 表名应具有描述性,杜绝一切拼音或拼音英文混杂的命名方式
  2. 表名运行使用字母,数字和下划线,不允许使用其他字符。表名使用单词开头,不运行使用数字和下划线开头
  3. 表名一律有统一前缀,前缀表名之间下划线链接。使用前缀可以让同一项目在一个库中安装多个。
  4. 表名单词一律小写,单词之间使用下划线链接
  5. 表名长度不能超过64个字符
  6. 所有数据表名称,只要其名称是可数名词,则建议以复数方式命名,例如:xs_users(用户表)
  7. 表名要回避MySQL的保留字

数据库表字段名

  1. 字段名应具有描述性,杜绝一切拼音或拼音英文混杂的命名方式
  2. 字段名允许使用字母、数字和下划线,不允许使用其他字符。字段名鼓励使用与所在表的内容相关单词开头,允许但不鼓励使用数字和其他字符开头。
  3. 字段名一律小写,单词之间使用下划线链接。
  4. 字段名长度不能超过64个字符
  5. 字符类型和长度在不同数据表中必须保证一致性,不允许出现同一字段在一个表中为整型但在另外一个表中为字符型的情况。
  6. 当几个表间的字段有关连时,要注意表与表之间关连字段命名的统一,如xs_orders表中的uid与xs_carts表中的uid,都保存有xs_users表中的id。
  7. 存储多项内容的字段或代表数量的字段,也应当以复数方式明明,例如views
  8. 每个表都建议有一个代表id自增量的字段,可使用全称的形式,也可以只将其命名为id

字段索引名称

  1. 索引名称允许使用字母、数字和下划线,不允许使用其他字符
  2. 对任何外键采用非成组索引
  3. 不要索引text/blob类型的字段,不索引字符过多的字段
  4. 根据业务需求建立组合索引
  5. 索引长度不能超过64个字符
  6. 频繁进行数据操作的表,不要建立太多的索引

字段结构

进行表结构设计时,应当做到恰到好处,反复推敲,从而实现最优的数据存储体系 短小 精悍

  1. NULL值的字段,数据库在进行比较操作时,会先判断其是否为NULL,非NULL时才进行值的比对。因此基于效率的考虑,所有字段均不能为空,即全部使用NOT NULL的属性修饰字段;
  2. 如果不会使用存储非负数的字段,必须设置为unsigned类型,能获得范围大一倍的数值存储空间
  3. 任何类型的数据表,字段空间应当本着足够用、不浪费的原则
  4. 个别字段类型在数据结构设计的时候需要注意:enum枚举类型由tinyint类型代替
  5. 包含任何varchar、text等变长字段的数据表,即为变长表,反之为定长表。在设计表结构时如果能够使用定长数据类型,尽量用定长的,因为定长表的查询、检索、更新速度都很快。必要时可以把部分关键的、承担频繁访问的表拆分,例如定长数据一个表,非定长数据一个表。
  6. 更小的字段类型永远比更大的字段类型处理要快得多。对于字符型,其处理时间与字符串长度直接相关。一般情况下,较小的表处理更快。对于定长表,应该选择较小的类型,只要能存储够节省空间。一个text类型的值用2字节记录值的长度,而一个longtext则用4字节记录其值的长度。如果存储的值的长度不超过64kb,
  7. 数值运算一般比字符运串更快,例如比较运算,可在单一运算中对数进行比较。而串运算设计几个逐步字节的比较,如果穿更长,这种比较要更多。如果字符串列的数值数目有限,应该利用普通整型来获得数值运算的优越性。

SQL优化

优化目标

减少 IO 次数,IO永远是数据库最容易瓶颈的地方,这是由数据库的职责所决定的,大部分数据库操作中超过90%的时间都是 IO 操作所占用的,减少 IO 次数是 SQL 优化中需要第一优先考虑,当然,也是收效最明显的优化手段。
降低 CPU 计算,除了 IO 瓶颈之外,SQL优化中需要考虑的就是 CPU 运算量的优化了。order by, group by,distinct … 都是消耗 CPU 的大户(这些操作基本上都是 CPU 处理内存中的数据比较运算)。当我们的 IO 优化做到一定阶段之后,降低 CPU 计算也就成为了我们 SQL 优化的重要目标

常见误区

count(1)和count(primary_key) 优于 count(*)

很多人为了统计记录条数,就使用 count(1) 和 count(primary_key) 而不是 count() ,他们认为这样性能更好,其实这是一个误区。对于有些场景,这样做可能性能会更差,应为数据库对 count() 计数操作做了一些特别的优化。

count(column) 和 count(*) 是一样的

这个误区甚至在很多的资深工程师或者是 DBA 中都普遍存在,很多人都会认为这是理所当然的。实际上,count(column) 和 count(*) 是一个完全不一样的操作,所代表的意义也完全不一样。
count(column) 是表示结果集中有多少个column字段不为空的记录
count(*) 是表示整个结果集有多少条记录

select a,b from … 比 select a,b,c from … 可以让数据库访问更少的数据量

这个误区主要存在于大量的开发人员中,主要原因是对数据库的存储原理不是太了解。
实际上,大多数关系型数据库都是按照行(row)的方式存储,而数据存取操作都是以一个固定大小的IO单元(被称作 block 或者 page)为单位,一般为4KB,8KB… 大多数时候,每个IO单元中存储了多行,每行都是存储了该行的所有字段(lob等特殊类型字段除外)。
所以,我们是取一个字段还是多个字段,实际上数据库在表中需要访问的数据量其实是一样的。
当然,也有例外情况,那就是我们的这个查询在索引中就可以完成,也就是说当只取 a,b两个字段的时候,不需要回表,而c这个字段不在使用的索引中,需要回表取得其数据。在这样的情况下,二者的IO量会有较大差异。

order by 一定需要排序操作

我们知道索引数据实际上是有序的,如果我们的需要的数据和某个索引的顺序一致,而且我们的查询又通过这个索引来执行,那么数据库一般会省略排序操作,而直接将数据返回,因为数据库知道数据已经满足我们的排序需求了。
实际上,利用索引来优化有排序需求的 SQL,是一个非常重要的优化手段
延伸阅读:http://blog.csdn.net/zzxian/article/details/7927810

基本原则

尽量少使用外键关联

数据库的诸多设计,帐号,权限,约束,触发器,都是为 C/S 结构设计的,是以 C 端不可信做为假设前提的。B/S 模式安全边界前移到 web 服务层,应用与数据库之间是可信的,应用自行完成这些功能更加灵活。

尽量少 join

MySQL 的优势在于简单,但这在某些方面其实也是其劣势。MySQL 优化器效率高,但是由于其统计信息的量有限,优化器工作过程出现偏差的可能性也就更多。对于复杂的多表 Join,一方面由于其优化器受限,再者在 Join 这方面所下的功夫还不够,所以性能表现离 Oracle 等关系型数据库前辈还是有一定距离。但如果是简单的单表查询,这一差距就会极小甚至在有些场景下要优于这些数据库前辈。

尽量避免 select *

很多人看到这一点后觉得比较难理解,上面不是在误区中刚刚说 select 子句中字段的多少并不会影响到读取的数据吗? 是的,大多数时候并不会影响到 IO 量,但是当我们还存在 order by 操作的时候,select 子句中的字段多少会在很大程度上影响到我们的排序效率。此外,上面误区中不是也说了,只是大多数时候是不会影响到 IO 量,当我们的查询结果仅仅只需要在索引中就能找到的时候,还是会极大减少 IO 量的。

尽量用 join 代替子查询

虽然 Join 性能并不佳,但是和 MySQL 的子查询比起来还是有非常大的性能优势。MySQL 的子查询执行计划一直存在较大的问题,虽然这个问题已经存在多年,但是到目前已经发布的所有稳定版本中都普遍存在,一直没有太大改善。虽然官方也在很早就承认这一问题,并且承诺尽快解决,但是至少到目前为止我们还没有看到哪一个版本较好的解决了这一问题。
MYSQL 5.6已经优化子查询 http://www.linuxidc.com/Linux/2012-08/67606.htm

尽量少 or

当 where 子句中存在多个条件以“或”并存的时候,MySQL 的优化器并没有很好的解决其执行计划优化问题,再加上 MySQL 特有的 SQL 与 Storage 分层架构方式,造成了其性能比较低下,很多时候使用 union all 或者是union(必要的时候)的方式来代替“or”会得到更好的效果。

尽量用 union all 代替 union

union 和 union all 的差异主要是前者需要将两个(或者多个)结果集合并后再进行唯一性过滤操作,这就会涉及到排序,增加大量的 CPU 运算,加大资源消耗及延迟。所以当我们可以确认不可能出现重复结果集或者不在乎重复结果集的时候,尽量使用 union all 而不是 union。
扩展阅读: http://jingyan.baidu.com/article/2d5afd69e8dfd285a3e28e66.html

尽量早过滤

这一优化策略其实最常见于索引的优化设计中(将过滤性更好的字段放得更靠前)。
在 SQL 编写中同样可以使用这一原则来优化一些 Join 的 SQL。比如我们在多个表进行分页数据查询的时候,我们最好是能够在一个表上先过滤好数据分好页,然后再用分好页的结果集与另外的表 Join,这样可以尽可能多的减少不必要的 IO 操作,大大节省 IO 操作所消耗的时间。

避免类型转换

这里所说的“类型转换”是指 where 子句中出现 column 字段的类型和传入的参数类型不一致的时候发生的类型转换:
人为在column_name 上通过转换函数进行转换直接导致 MySQL(实际上其他数据库也会有同样的问题)无法使用索引,如果非要转换,应该在传入的参数上进行转换由数据库自己进行转换
如果我们传入的数据类型和字段类型不一致,同时我们又没有做任何类型转换处理,MySQL 可能会自己对我们的数据进行类型转换操作,也可能不进行处理而交由存储引擎去处理,这样一来,就会出现索引无法使用的情况而造成执行计划问题。

优先优化高并发的 SQL,而不是执行频率低某些“大”SQL

对于破坏性来说,高并发的 SQL 总是会比低频率的来得大,因为高并发的 SQL 一旦出现问题,甚至不会给我们任何喘息的机会就会将系统压跨。而对于一些虽然需要消耗大量 IO 而且响应很慢的 SQL,由于频率低,即使遇到,最多就是让整个系统响应慢一点,但至少可能撑一会儿,让我们有缓冲的机会。

从全局出发优化,而不是片面调整

SQL 优化不能是单独针对某一个进行,而应充分考虑系统中所有的 SQL,尤其是在通过调整索引优化 SQL 的执行计划的时候,千万不能顾此失彼,因小失大。

尽可能对每一条运行在数据库中的SQL进行 explain

优化 SQL,需要做到心中有数,知道 SQL 的执行计划才能判断是否有优化余地,才能判断是否存在执行计划问题。在对数据库中运行的 SQL 进行了一段时间的优化之后,很明显的问题 SQL 可能已经很少了,大多都需要去发掘,这时候就需要进行大量的 explain 操作收集执行计划,并判断是否需要进行优化。

专题

MYSQL的查询、子查询及连接查询

http://www.cnblogs.com/rollenholt/archive/2012/05/15/2502551.html

MYSQL大数据量的初步优化方案:

mysql只做简单的事情,千万级的表,不论如何优化,同样的SQL都没有十万级的表访问快。
如果设计大表,要问自己几个问题:
1.数据库分库 摘除数据表之间的关联
1.水平分表/mysql分区
1.垂直拆分