news 2026/5/1 9:49:14

哈希表全解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
哈希表全解析

🔍 哈希表全解析:让“找东西”快如闪电的秘密武器!

想象一下:你在100万人的名单里找“张三”。
普通列表要查100万次,二分查找也要20次——
但哈希表?1次命中!

这背后,是一套精妙的“地址翻译系统”:哈希函数 + 冲突处理策略
今天,我们就用真实例子 + 逐步演示 + 关键公式,彻底讲透哈希表的每一个细节!


一、基本概念

🎯 哈希函数

将关键字key映射为存储地址的函数 。理想情况下,无需比较即可直接定位。

⚠️ 冲突与同义词

  • 冲突:不同关键字映射到同一地址。

  • 同义词:发生冲突的关键字互称同义词。

💡 例:H(key) = key % 7→ H(15)=1, H(22)=1 → 冲突!


二、哈希函数构造6法(附例子)


三、冲突处理4大技术

统一设定

  • 关键字序列:47, 7, 29, 11, 16, 92, 22, 8, 3

  • 哈希函数:(地址0~10)

  • 初始哈希地址:

key

H

47

3

7

7

29

7 ❗

11

0

16

5

92

4

22

0 ❗

8

8

3

3 ❗


1. 开放定址法(Open Addressing)

所有元素必须存放在主表中,冲突时在表内探测新位置。

(1)线性探测:挨家挨户问
  • 规则

✅ 插入结果:

地址

0

1

2

3

4

5

6

7

8

9

10

元素

11

22

47

92

16

3

7

29

8

🔍 查找8:H=8 → 29≠8 → 9 → 找到(2次)
⚠️ 缺点:一次聚集严重。


(2)二次探测:跳跃式找房
  • 规则,顺序:+1, -1, +4, -4...

✅ 插入关键步骤:

  • 3(H=3):+1→4(占),-1→2(空) → 存入2

✅ 最终表:

地址

0

1

2

3

4

5

6

7

8

9

10

元素

11

22

3

47

92

16

7

29

8

✅ 优势:减少聚集,分布更均匀。


(3)伪随机探测:按“神秘清单”找房
  • 规则预设一个伪随机序列
    探测地址:

📌 常见做法:用线性同余生成器产生固定序列,如,种子固定 → 序列可重现

我们预设随机偏移序列:R = [3, 5, 2, 7, 1, 4, 6, 8, 9]

🔧 逐个插入(只看冲突项):
  • 29(H=7)

    • 7 被7占用 → 试 (7+3)%11 = 10 → 空 →存入10

  • 22(H=0)

    • 0 被11占用 → 试 (0+3)%11=3(47占)

    • 试 (0+5)%11=5(16占)

    • 试 (0+2)%11=2 → 空 →存入2

  • 3(H=3)

    • 3(47占)→ +3→6(空?是!)→存入6

注:8 的 H=8,此时仍为空(29已去10),所以8直接存入8。

最终表

地址

0

1

2

3

4

5

6

7

8

9

10

元素

11

22

47

92

16

3

7

8

29

🔍 查找29:H=7 → 7≠29 → 试10 → 找到(2次)
✅ 优势:探测路径看似随机,有效打破聚集;
⚠️ 缺点:需额外存储/生成随机序列,实现稍复杂。


2. 再哈希法(Double Hashing)

  • 规则

✅ 最终表:

地址

0

1

2

3

4

5

6

7

8

9

10

元素

11

3

8

47

92

16

22

7

29

✅ 优势:探测步长由 key 决定,几乎无聚集


3. 链地址法(Chaining)

每个地址挂一个链表。

✅ 最终结构:

0: 22 → 11 3: 3 → 47 4: 92 5: 16 7: 29 → 7 8: 8

✅ 优势:无聚集、删除简单、支持 α > 1 ——工业界首选


4. 公共溢出区(Public Overflow Area)

规则:主表只存“第一个来的”; 后续冲突者按插入顺序进入溢出区; 溢出区是线性数组,不按哈希地址分配位置!

🔧 结果: ✅ 主表:

地址

0

3

4

5

7

8

元素

11

47

92

16

7

8

✅ 溢出区(按插入顺序!):

序号

key

原始 H

0

29

7

1

22

0

2

3

3

🔍查找 3:H=3 → 主表[3]=47 ≠ 3
遍历溢出区:29(H=7)→22(H=0)→3(H=3 ✔) → 找到(3次)

一共进行四次比较

🚨重点澄清:溢出区是时间顺序队列,不是按 H 分组!
仅适合冲突极少的场景(α < 0.1),否则退化为 O(n)

四、查找与插入算法(开放定址伪代码)

// 线性探测示例 SearchHash(HT, key): addr = key % m while HT[addr] ≠ key and HT[addr] ≠ EMPTY: addr = (addr + 1) % m return (HT[addr] == key) ? addr : NOT_FOUND

五、性能分析

装填因子 α = n / m

ASL 公式(查找成功):

  • 线性探测:

  • 二次/再哈希:

  • 链地址:

α=0.8 时:线性探测 ASL≈3.0,链地址≈1.4


六、结论与选型建议

方法

推荐场景

链地址法

通用首选(HashMap、dict)

再哈希法

高性能、内存受限

线性探测

小数据、静态表

二次/伪随机探测

需避免聚集的开放定址场景

公共溢出区

冲突极少

✅ 默认选择:除留余数法 + 链地址法


💡 结语

从线性探测到链地址,从伪随机到再哈希——哈希表的每一种策略,都是对“冲突”这一现实问题的智慧回应。

掌握它们,你就能在工程与面试中游刃有余!


📚 动手画一遍9个关键字的插入过程,胜过十遍阅读!
👉 觉得有用?点赞+转发!
❓ 你在项目中用哪种方法?欢迎留言!


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 19:16:52

如何高效实现中文语音识别?试试科哥定制版FunASR大模型镜像

如何高效实现中文语音识别&#xff1f;试试科哥定制版FunASR大模型镜像 1. 为什么中文语音识别需要“好用”的工具&#xff1f; 你有没有遇到过这种情况&#xff1a;录了一段会议音频&#xff0c;想转成文字整理纪要&#xff0c;结果找的工具要么识别不准&#xff0c;要么操作…

作者头像 李华
网站建设 2026/4/18 7:23:55

5分钟部署Qwen3-Reranker-4B:零基础搭建文本排序服务

5分钟部署Qwen3-Reranker-4B&#xff1a;零基础搭建文本排序服务 你是否遇到过这样的问题&#xff1a;搜索结果一大堆&#xff0c;真正相关的却藏在后面&#xff1f;推荐内容看似相关&#xff0c;实则驴唇不对马嘴&#xff1f;这背后的核心&#xff0c;往往不是“找不到”&…

作者头像 李华
网站建设 2026/4/23 15:47:10

天然蛋白纯化技术:原理与核心层析策略

天然蛋白纯化是从复杂生物样本中获取具有完整天然构象与生物活性蛋白质的关键生物化学技术。与重组蛋白表达系统获得的蛋白质相比&#xff0c;天然蛋白直接来源于生物组织或体液&#xff0c;其翻译后修饰模式更接近生理状态&#xff0c;是许多基础研究不可或缺的科研试剂。一、…

作者头像 李华
网站建设 2026/5/1 8:54:12

Perl 哈希

Perl 哈希 概述 Perl哈希&#xff08;Hash&#xff09;是一种关联数组&#xff0c;它允许您以键值对的形式存储数据。在Perl中&#xff0c;哈希是一种非常有用的数据结构&#xff0c;它可以用来存储和检索数据&#xff0c;并且能够提供快速的查找性能。本文将详细介绍Perl哈希的…

作者头像 李华
网站建设 2026/5/1 9:16:15

从零部署DeepSeek OCR模型|WebUI镜像简化流程,支持单卡推理

从零部署DeepSeek OCR模型&#xff5c;WebUI镜像简化流程&#xff0c;支持单卡推理 1. 为什么选择 DeepSeek OCR&#xff1f; 你有没有遇到过这样的场景&#xff1a;一堆纸质发票、合同、身份证需要录入系统&#xff0c;手动打字不仅慢&#xff0c;还容易出错&#xff1f;或者…

作者头像 李华
网站建设 2026/4/25 19:53:01

实时性要求高的场景:FSMN-VAD流式处理可能性分析

实时性要求高的场景&#xff1a;FSMN-VAD流式处理可能性分析 1. FSMN-VAD 离线语音端点检测控制台简介 在语音交互系统、自动转录服务和智能硬件设备中&#xff0c;语音端点检测&#xff08;Voice Activity Detection, VAD&#xff09;是不可或缺的前置环节。它负责从连续音频…

作者头像 李华