原文标题是How SAP HANA Is Such a Fast Database,不过作者的观点是HANA的快主要源自硬件的发展,而且HANA并非适合所有的应用场景。
不过我关注的恰好是结论之外的部分。
数据访问模式的变化
存储硬件的提升,从物理磁盘到SSD, 内存,相应的数据库查询方式也发生了变化。
当数据库使用传统的物理磁盘,如果在一个具有10列的表中读取3列,你也必须读取全部10列。
如果表为100M,100万行,那么必须读取整个表来完成查询,在涉及多表Join时,情况更加严重。
如果数据库存储在SSD或内存这些随机访问型存储上,你需要3列,就只需读取3列。
数据交换的消除
传统的存于磁盘的数据库需要花费大量的时间来进行Swapping,即将数据读入缓存,处理后随后又将数据写回磁盘,周而复始,生生不息, :)。
而内存数据库则消除了这种数据交换(Swapping),因为所有的数据都在内存中操作,需要存储的唯一目的就是为了数据持久化和备份。
其实这解释了即使将数据全部Cache到内存,仍然不如内存数据库快的原因,无论是列式数据库如HANA, 还是行式数据库如TimesTen。
结论
列式数据库有速度的优势,但不是万能的优势,尽管SAP希望将HANA作为一体适用的平台,不过One Size Does Not Fit All, 此数据库的原理来说,HANA非常适合BW这样的分析性应用,对于ERP这样的OLTP的应用,我们还是拭目以待,看看S/4 HANA的作为吧。