Hash表

哈希函数

什么是哈希函数？

哈希函数是一种将输入数据（通常是字符串或文件）转换为固定长度的散列值（哈希值）的函数。这个散列值是一个唯一的数字，用于表示原始数据。哈希函数的特点是相同的输入总是会产生相同的输出，而不同的输入通常会产生不同的输出。

哈希函数的作用

哈希函数在计算机科学中有很多重要的用途，主要包括：

数据存储与检索：哈希函数常用于数据结构，如哈希表（Hash Table），它通过将数据映射到一个特定的索引（位置）来加速数据的查找、插入和删除操作。
数据完整性验证：在数据传输中，哈希函数可以用来生成数据的唯一标识符，以便在接收时验证数据的完整性。
加密：在密码学中，哈希函数用于确保数据的安全性，通过生成不可逆的哈希值，保护用户的敏感信息。

映射的概念

哈希函数的核心作用就是“映射”。它把输入的数据（例如字符串）映射到一个哈希值。例如，假设我们有一个简单的字符串：

输入： "hello"

使用某个哈希函数后，可能得到的输出是：

哈希值： 5d41402abc4b2a76b9719d911017c592

在这个例子中，“hello”被映射到了一个特定的哈希值。哈希函数的目的是将不同的输入映射到一个相对小的范围内，使得我们能够快速找到它们。

示例：哈希表的应用

假设我们有一个学生的姓名和成绩的列表，我们希望能够快速查找某个学生的成绩。我们可以使用哈希表来实现这一功能。

构建哈希表：我们使用学生姓名作为输入，通过哈希函数计算出一个哈希值，然后将成绩存储在这个哈希值对应的位置。
查找成绩：当我们想查找某个学生的成绩时，使用相同的哈希函数将姓名映射到哈希值，然后直接访问哈希表中该位置的成绩。

哈希函数的三个基本要求是

1. 确定性（Determinism）

哈希函数必须是确定性的，意思是对于同一个输入，哈希函数每次都要返回相同的输出。这个特性保证了哈希函数的稳定性和可靠性，例如在哈希表中查找数据时，如果两次输入相同的键值，却返回不同的哈希值，哈希表将无法正常工作。

例子：假设输入是 "apple"，那么哈希函数每次都应该返回相同的哈希值，比如 123456，否则哈希表将无法正确检索数据。

2. 高效计算（Efficiency）

哈希函数的计算应该非常快速，不能花费过多的时间或资源。因为哈希函数常用于查找、存储等高频操作场景，效率至关重要。如果哈希函数计算太慢，就无法提升效率，甚至会拖累整个程序的性能。

例子：在大型数据库系统或密码学中，哈希函数需要能够处理大数据集，因此必须在常数时间内给出结果。

3. 冲突最小化（Minimizing Collisions）

虽然不同的输入理论上可能会映射到相同的哈希值，这种现象叫哈希冲突（Hash Collision），但一个好的哈希函数应该尽量减少冲突的发生。理想情况下，每个不同的输入都会产生唯一的哈希值。这有助于提高数据存储和查找的效率，尤其是在哈希表等数据结构中。

例子：如果我们对 "cat" 和 "dog" 计算哈希值，但它们得出了相同的哈希值 123456，就是发生了冲突。哈希函数设计得越好，冲突发生的概率就越低。

总结：

确定性：同一输入必须返回相同的输出。
高效计算：哈希计算应尽可能快。
冲突最小化：不同的输入应尽量映射到不同的哈希值。

这三个基本要求确保了哈希函数在数据处理中的准确性、效率和稳定性。如果这三个要求能够得到很好的满足，哈希函数将在多种应用中表现出色，如哈希表、密码学、数据完整性校验等。

解决冲突

哈希冲突是指两个不同的输入通过哈希函数得到了相同的哈希值。为了处理这种情况，有两种常用的方法：开放寻址法和链表法。我们来用通俗易懂的话解释一下它们的原理，并通过简单的字符串图来说明。

1. 开放寻址法（Open Addressing）

概念：
开放寻址法的意思是，当哈希表中某个位置已经被占用时，我们就寻找下一个空闲的位置来存放数据，而不是直接覆盖掉之前的数据。

步骤：

首先，用哈希函数找到元素应该存放的位置。
如果这个位置已经有其他数据（发生冲突），就按照一定规则（例如从当前位置向后一个个查找）找到下一个空的位置。

类比：
假设我们要将不同的玩具放入一排箱子（代表哈希表），每个玩具有一个编号（代表哈希值）。当我们按照编号要放入玩具时，如果目标箱子被占用，我们就去找附近的空箱子放进去。

示例图：

哈希表： [  _,  _,  _,  _,  _,  _  ]

插入“apple”哈希值是 2：

哈希表： [  _,  _,  apple,  _,  _,  _  ]

插入“banana”哈希值也是 2：

哈希表： [  _,  _,  apple,  banana,  _,  _  ]
           (找到下一个空位)

这里，“banana”本来应该放在位置2，但由于位置2已经有“apple”，我们就找了下一个空位，放在了位置3。这种方式有效地解决了冲突。

2. 链表法（Chaining）

概念：
链表法的意思是，每个哈希表中的位置不再只是存放一个数据，而是变成了一个链表。如果多个元素的哈希值相同，就把它们链接在一起，放在同一个位置。

步骤：

当多个元素发生哈希冲突时，不需要找其他位置，而是将它们都存放在同一个链表里。
查找时，如果链表里有多个元素，就遍历链表找到目标。

类比：
想象每个箱子（哈希表的位置）里不只是能放一个玩具，而是可以放多个玩具。当多个玩具要放进同一个箱子时，我们依次把它们串联起来放入这个箱子。