数据冗余之度

时间:2022-01-07 17:13:38

以前设计数据库,自己有个原则,就是越精简越好,能关联的就尽量关联,降低对数据存储对空间的占用。

但随着数据量的增加,慢慢会发现,我们更关注的并不是数据库占用空间的大小,而是使用效率的高低。在很多的情况下,适当的数据冗余,反而能够大大提高查询的速度,而对空间的占用可能也就是增加了一点管理上的难度。

比如一个记录条形码的数据表,条形码中的每个固定字段有其特殊的意义,比如产品代号,通常情况下,如果想要根据产品代号找出产品的名称,需要对条形码字段进行分解,先提取该值,然后再从产品表中找到该产品名称,如果我们保存条形码数据时,直接把这产品代号分解出来保存到单独的字段中,当然,这个产品代码字段是冗余的,因为它是能从条形码中算出来的,但这样做的好处就是可以直接和产品表关联,提高查询的效率和方便性。

还有一种情况是在对数据进行汇总的时候,比如按月汇总,通常我们记录数据时会记下添加的时间,这里虽然有月的信息,但用起来却不方便。如果给表增加一个月份字段,添加时随便把月份信息也带上,当然这个信息是冗余的,不过当你用它来汇总数据时就会方便好多。

当然,这些方法大家都会在系统用过一段时间后自然地用上,因为当发现问题时,你自然就会去寻找解决之道,虽然这和基本规则似乎有些冲突,但只要好用也不必拘泥。但任何事情也都有个度,所谓物极必反,过度了也不好。数据冗余的度是什么呢?我觉得还是能少则少,毕竟冗余一多,不仅仅是空间占用的问题,还有会增加数据维护的难度,因为需要考虑到冗余数据的更新,冗余越多,管理程序相应的难度也增大。