自增还是UUID？数据库主键的类型选择，为啥不能用uuid做MySQL的主键？

一、自增还是UUID？数据库主键的类型选择

　　自增还是UUID？这个问题看似简单，但是能诱发很多思考，也涉及到了很多细节。先说下uuid和 auto_increment（数据库自增主键）的优缺点吧，因为是个人理解，如有错误恳请指出：

1、自增主键

　　自增ID是在设计表时将id字段的值设置为自增的形式，这样当插入一行数据时无需指定id会自动根据前一字段的ID值+1进行填充。在MySQL数据库中，可通过sql语句AUTO_INCREMENT来对特定的字段启用自增赋值使用自增ID作为主键，能够保证字段的原子性。

　　auto_increment优点：

字段长度较uuid小很多，可以是bigint甚至是int类型，这对检索的性能会有所影响。我们平时数据库一般用的都是innodb引擎的表，这种表格检索数据的时候，哪怕走索引，也是先根据索引找到主键，然后由主键找到这条记录。所以主键的长度短的话，读性能是会好一点的。
在写的方面，因为是自增的，所以主键是趋势自增的，也就是说新增的数据永远在后面，这点对于性能有很大的提升（这点我接下来会在uuid的优缺点分析中解释，虽然用词可能不太专业）
数据库自动编号，速度快，而且是增量增长，按顺序存放，对于检索非常有利；
数字型，占用空间小，易排序，在程序中传递也方便；
如果通过非系统增加记录时，可以不用指定该字段，不用担心主键重复问题。

　　auto_incremen的缺点：

最致命的一个缺点就是，很容易被别人知晓业务量，然后很容易被网络爬虫教做人
高并发的情况下，竞争自增锁会降低数据库的吞吐能力
数据迁移的时候，特别是发生表格合并这种操作的时候，会非常蛋疼

　　因为自动增长，在手动要插入指定ID的记录时会显得麻烦，尤其是当系统与其它系统集成时，需要数据导入时，很难保证原系统的ID不发生主键冲突（前提是老系统也是数字型的）。特别是在新系统上线时，新旧系统并行存在，并且是异库异构的数据库的情况下，需要双向同步时，自增主键将是你的噩梦；在系统集成或割接时，如果新旧系统主键不同是数字型就会导致修改主键数据类型，这也会导致其它有外键关联的表的修改，后果同样很严重；若系统也是数字型的，在导入时，为了区分新老数据，可能想在老数据主键前统一加一个字符标识（例如“o”，old）来表示这是老数据，那么自动增长的数字型又面临一个挑战。

2、UUID

　　UUID含义是通用唯一识别码 (Universally Unique Identifier)，指在一台机器上生成的数字，它保证对在同一时空中的所有机器都是唯一的。通常平台会提供生成的API。换句话说能够在一定的范围内保证主键id的唯一性。

　　优点：

地球唯一的guid，绝对不会冲突。数据拆分、合并存储的时候，能达到全局的唯一性
可以在应用层生成，提高数据库吞吐能力
是string类型，写代码的时候方便很多

　　缺点：

影响插入速度，并且造成硬盘使用率低。与自增相比，最大的缺陷就是随机io。这一点又要谈到我们的innodb了，因为这个默认引擎，表中数据是按照主键顺序存放的。也就是说，如果发生了随机io，那么就会频繁地移动磁盘块。当数据量大的时候，写的短板将非常明显。当然，这个缺点可以通过nosql那些产品解决。
uuid之间比较大小相对数字慢不少，影响查询速度。
uuid占空间大，如果你建的索引越多，影响越严重
读取出来的数据也是没有规律的，通常需要order by，其实也很消耗数据库资源
看起来比较丑

二、为啥不能用uuid做MySQL的主键？

　　在 MySQL 中设计表的时候，MySQL 官方推荐不要使用 uuid 或者不连续不重复的雪花 id（long 形且唯一，单机递增），而是推荐连续自增的主键 id，官方的推荐是 auto_increment。

　　那么为什么不建议采用 uuid，使用 uuid 究竟有什么坏处？要说明这个问题，我们首先来建立三张表，分别是：user_auto_key、user_uuid、user_random_key，他们分别表示自动增长的主键，uuid 作为主键，随机 key 作为主键，其他我们完全保持不变。

　　根据控制变量法，我们只把每个表的主键使用不同的策略生成，而其他的字段完全一样，然后测试一下表的插入速度和查询速度。

　　注：这里的随机 key 其实是指用雪花算法算出来的前后不连续不重复无规律的id：一串 18 位长度的 long 值。

　　光有理论不行，直接上程序，使用 Spring 的 jdbcTemplate 来实现增查测试。

　　技术框架：Spring Boot+jdbcTemplate+junit+hutool，程序的原理就是连接自己的测试数据库，然后在相同的环境下写入同等数量的数据，来分析一下 insert 插入的时间来进行综合其效率。

　　为了做到最真实的效果，所有的数据采用随机生成，比如名字、邮箱、地址都是随机生成：

　　程序写入效率测试结果

　　在已有数据量为 130W 的时候：我们再来测试一下插入 10w 数据，看看会有什么结果：

　　可以看出在数据量 100W 左右的时候，uuid 的插入效率垫底，并且在后序增加了 130W 的数据，uuid 的时间又直线下降。

　　时间占用量总体可以打出的效率排名为：auto_key>random_key>uuid。

　　uuid 的效率最低，在数据量较大的情况下，效率直线下滑。那么为什么会出现这样的现象呢？带着疑问,我们来探讨一下这个问题：

三、使用 uuid 和自增 id 的索引结构对比

1、使用自增 id 的内部结构

　　自增的主键的值是顺序的，所以 InnoDB 把每一条记录都存储在一条记录的后面。

　　当达到页面的最大填充因子时候（InnoDB 默认的最大填充因子是页大小的 15/16，会留出 1/16 的空间留作以后的修改）。

　　下一条记录就会写入新的页中，一旦数据按照这种顺序的方式加载，主键页就会近乎于顺序的记录填满，提升了页面的最大填充率，不会有页的浪费。

　　新插入的行一定会在原有的最大数据行下一行，MySQL 定位和寻址很快，不会为计算新行的位置而做出额外的消耗。

　　减少了页分裂和碎片的产生。

2、使用 uuid 的索引内部结构

　　因为 uuid 相对顺序的自增 id 来说是毫无规律可言的，新行的值不一定要比之前的主键的值要大，所以 innodb 无法做到总是把新行插入到索引的最后，而是需要为新行寻找新的合适的位置从而来分配新的空间。

　　这个过程需要做很多额外的操作，数据的毫无顺序会导致数据分布散乱，将会导致以下的问题：

　　写入的目标页很可能已经刷新到磁盘上并且从缓存上移除，或者还没有被加载到缓存中，innodb 在插入之前不得不先找到并从磁盘读取目标页到内存中，这将导致大量的随机 IO。

　　因为写入是乱序的，innodb 不得不频繁的做页分裂操作，以便为新的行分配空间，页分裂导致移动大量的数据，一次插入最少需要修改三个页以上。

　　由于频繁的页分裂，页会变得稀疏并被不规则的填充，最终会导致数据会有碎片。在把随机值（uuid 和雪花 id）载入到聚簇索引（InnoDB 默认的索引类型）以后，有时候会需要做一次 OPTIMEIZE TABLE 来重建表并优化页的填充，这将又需要一定的时间消耗。

　　结论：使用 InnoDB 应该尽可能的按主键的自增顺序插入，并且尽可能使用单调的增加的聚簇键的值来插入新行。