腾讯一面:那些数据库的高频问题

时间:2025-01-17 16:28:37

几个月前,有位朋友去腾讯面试,他说被问到了一系列关于数据库的问题,比如三大范式是什么,它们在数据库设计中的作用是什么?在数据库中,常见的并发问题有哪些?如何通过事务管理避免这些问题?什么是 MVCC(多版本并发控制)?本文将跟大家一起来探讨如何回答这些问题。

这些数据库相关的问题之所以在面试中频繁出现,是因为在实际的开发工作中,数据库的设计与优化、事务管理等方面至关重要。如果对这些知识掌握不扎实,可能会导致数据存储不合理、查询效率低下,甚至在高并发场景下出现数据不一致等严重问题。然而,许多新手在刚开始接触数据库开发时,往往对这些基础知识不够重视,直到在实际项目中遇到性能瓶颈或者数据异常时,才意识到这些知识的重要性。因此,面试官通常会在面试中重点考察你对这些数据库核心知识的理解和掌握程度,以判断你是否具备解决实际问题的能力。

1.三大范式是什么,它们在数据库设计中的作用是什么?<br>2. 为什么在优化 SQL 查询时需要使用 EXPLAIN 命令?它能提供哪些关键信息?<br>3. 列举并简要说明常见的索引类型<br>4. 请列举索引失效的几种常见场景<br>5. 在什么情况下应该使用索引来优化查询?<br>6. 什么是数据库事务?它的基本特性是什么?<br>7. 事务的隔离级别是什么?它如何影响并发事务的执行?<br>8. 在数据库中,常见的并发问题有哪些?如何通过事务管理避免这些问题?<br>9. 什么是 MVCC(多版本并发控制)?<br>10. 为什么 MySQL 默认的可重复读隔离级别能够在很大程度上避免幻读?在高并发环境下,这两种解决方案的效果如何?<br>11. 数据库中的三种日志类型分别是什么?它们各自的作用是什么?

1. 三大范式是什么,它们在数据库设计中的作用是什么?

  • 1NF(第一范式) :第一范式要求一行中的每个单元格都应该有单一值,且不能出现重复列。也就是说表中一行中的列值是一个而不能是多个,也不能出现重复的列。
  • 2NF(第二范式) :在第一范式的基础上,第二范式要求每张表都应该有一个单一目的。也就是说这张表只能代表一种实体,而表中的每一列都应该用来描述那个实体。
  • 3NF(第三范式) :在第二范式的基础上,第三范式表示,表中的列不能派生自其他列。也就是说表中的列不能通过其他列得到。

2. 为什么在优化 SQL 查询时需要使用 EXPLAIN 命令?它能提供哪些关键信息?

explain 命令

  • 作用:作用于你写的 sql 语句,数据库会返回一个执行计划
  • 执行计划会有很多字段
    • type:指查询到所需行的方式,从好到坏的顺序:system>const>eq_ref>ref>range>index>ALL
    • possible_keys:候选的索引
    • key:实际使用的索引
    • rows:扫描行数
    • filtered:所需数据行占 rows 的比例

3. 列举并简要说明常见的索引类型

  • 按 数据结构 分类:B+树索引,Hash 索引,Full-text 索引
  • 按 物理存储 分类:聚簇索引(主键索引),二级索引(辅助索引)
  • 按 字段特性 分类:主键索引,唯一索引,普通索引,前缀索引
  • 按 字段个数 分类:单列索引,联合索引

4. 请列举索引失效的几种常见场景

  • 对索引使用左或者右模糊匹配,如 like '%xx',like '%xx%'
  • 对索引使用函数
  • 对索引进行表达式计算
  • 对索引隐式类型转换
  • 联合索引非最左匹配
  • where 子句中的 or
  • 数据量太小,MySQL 觉得全表扫描更快

5. 在什么情况下应该使用索引来优化查询?

  • 字段具有唯一性限制
  • 经常用于 where 查询条件的字段,如果不是一个字段,可以建立联合索引
  • 经常用于 group by 和 order by 的字段,这样查询的时候就不需要再次排序了,建立索引后,在 B+Tree 中的记录都是排序好的。

6. 什么是数据库事务?它的基本特性是什么?

  • 事务是代表单个工作单元的一组 SQL 语句,当我们需要对数据库进行多次更改的情况下,要使用事务,我们希望所有这些更改作为一个单元一起成功或失败
  • 事务的四大特性 (ACID)
    • 原子性(Atomicity) :事务中的所有操作要么全部完成,要么全部不完成;
    • 一致性(Consistency) :事务完成后,数据库必须从一个一致状态转化到另一个一致状态,数据库始保持一致的状态;
    • 隔离性(Islation) :一个事务的执行不应影响其他事务的执行;
    • 持久性(Durability) :一旦事务提交,其结果应该永久保存在数据库中,即使系统发生故障;

7. 事务的隔离级别是什么?它如何影响并发事务的执行?

标准的 SQL 定义了 4 个事务隔离级别,隔离级别逐渐增高,性能和可扩展性逐渐降低,因为限制了并发。在 MySQL 中,默认的事务隔离级别是‘可重复读’。

  • 读未提交 :允许读取未提交的数据,最低的隔离级别
  • 读已提交 :给予了我们的事务一定的隔离,使得该事务只能读取已提交的数据,避免了脏读。
  • 可重复读 :我们读取的数据是可重复和一致的,就算有其他事务更改了数据,我们会看到首次读取就创建的快照。
  • 序列化 :它能保证当有别的事务在更新数据时,我们的事务能够知晓变动,如果有其他事务修改了可能影响查询结果的数据,我们的事务必须等它们完成,这样事务就会按序列化执行。

8. 在数据库中,常见的并发问题有哪些?如何通过事务管理避免这些问题?

  1. 丢失更新
  • 当两个事务尝试更新相同的数据并且没有上锁时,就会发生这种情况,比如两个事务更新同一条记录的不同列的信息,较晚提交的事务会覆盖较早事务做的更改,使得较早事务做的更改缺失。
  • 使用锁,防止两个事务同时更新同样的数据,MySQL 提供的默认锁的锁粒度是行级锁。
  1. 脏读
  • 一个事务读取了尚未被提交的数据,如果该数据被退回的话,该事务就是读取了一个不存在的数据,就是脏读。
  • 为了解决这个问题,我们需要为事务建立隔离级别,“读已提交”,这样事务修改的数据不会立马被其他事务读取,除非它提交了。
  1. 不可重复读(不一致读)
  • 当我们在事务中添加更多隔离时,我们可以保证事务只能读取已提交的数据,但如果在事务过程中,读取了某个数据两次,并得到了不同的结果就是不可重复读问题。
  • 我们就需要增加事务隔离级别,我们要将它与其他事务隔离,“可重复读”,确保数据更改对该事务不可见,只看事务开始前那一刻的数据信息。
  1. 幻读
  • 对于突然出现或者缺失的数据,我们无法在查询中看到它们,因为它们是在执行查询后才添加、更新、删除的。
  • 为此,我们有另一个隔离级别为”序列化“,它能保证当有别的事务在更新数据时,我们的事务能够知晓变动,如果有其他事务修改了可能影响查询结果的数据,我们的事务必须等它们完成,这样事务就会按序列化执行。

9. 什么是 MVCC(多版本并发控制)?

MVCC(多版本并发控制) 是一种用于数据库管理系统的并发控制机制,它的目的是提高数据并发访问的效率,减少锁竞争,降低对锁的依赖。MVCC 具体实现是通过 Read View版本链机制

  • Read View 是实现 MVCC 机制的一个关键概念,包含四个重要字段:
    • m_ids:当前数据库中活跃事务的事务 ID 列表,活跃事务是指已启动但尚未提交的事务。
    • min_trx_id:指的是 m_ids 中的最小事务 ID。
    • max_trx_id:数据库中最大的事务 ID 加 1。也就是说,它表示当前数据库中还未提交的最大事务 ID。
    • creator_trx_id:创建该 Read View 的事务 ID。
  • 在 InnoDB 存储引擎中,每条记录的行格式包含两个隐藏字段:
    • trx_id:每当一个事务对某条记录进行更改时,系统会将该事务的事务 ID 记录在 trx_id 中。
    • roll_pointer:每次修改记录时,旧版本的记录会被写入 undo 日志,这个字段指向旧版本记录的地址,通过这个指针可以追溯到修改前的记录,这就是所谓的版本链。
具体实现过程:
  • 通过 Read View 和版本链机制,InnoDB 实现了事务的并发控制。在事务开始时,系统会创建一个 Read View,并根据该事务的可见性来读取数据:

    • 可见的事务 ID 是小于 min_trx_id 的事务 ID,这些事务的数据对当前事务是可见的。
    • 不可见的事务 ID 是大于等于 max_trx_id 的事务 ID,当前事务无法读取这些事务的数据。
  • 当查询数据时,系统会检查每条记录的 trx_id 来判断其是否符合事务的可见性要求。如果该记录的 trx_id 不符合,则系统会通过 roll_pointer 找到该记录的旧版本,从而实现数据的读取。

  • 通过这种机制,InnoDB 能够在高并发环境下保持事务的隔离性,同时确保每个事务能读取到基于其创建时的 Read View 可见的数据。这种多版本并发控制(MVCC)技术有效地解决了读写冲突的问题,并允许事务以一致的方式读取数据。

10. 为什么 MySQL 默认的可重复读隔离级别能够在很大程度上避免幻读?在高并发环境下,这两种解决方案的效果如何?

  • MySQL 虽然支持 4 种隔离级别,但是与 SQL 标准种规定的各级隔离级别允许发生的现象却有些出入。MySQL InnoDB 引擎的默认隔离级别虽然是可重复读,但是它很大程度上避免了幻读现象,解决的方案有两种:
    • 针对快照读,普通的 select 语句,是通过 MVCC 的方式解决了幻读。
    • 针对当前读,select…for update 等,是通过加临界锁(记录锁+间隙锁)。当执行当前读时,会在范围加上临界锁,其他事务如果在锁的范围内插入或删除一条记录,就会被阻塞,很好地避免了幻读问题。

11. 数据库中的三种日志类型分别是什么?它们各自的作用是什么?

  1. undo log(回滚日志) :是 InnoDB 存储引擎层生成的日志,实现了事务中的原子性,主要用于事务回滚和 MVCC
  2. redo log(重做日志) :是 InnoDB 存储引擎层生成的日志,实现了事务中的持久性,主要用于掉电等故障恢复。
  3. binlog(归档日志) :是 Server 层生成的日志,主要用于数据备份和主从复制。

就业陪跑训练营学员投稿

欢迎关注 ❤

我们搞了一个免费的面试真题共享群,互通有无,一起刷题进步。

没准能让你能刷到自己意向公司的最新面试题呢。

感兴趣的朋友们可以私信我,备注:面试群。