哈希函数和哈希码

程序猿 • 2025年11月8日 23:54:25 • java • 阅读 0

典型的哈希函数首先将搜索键转换为称为哈希码的整数值，然后将哈希码压缩为哈希表的索引。 Java 的根类 Object 有 hashCode 方法，该方法返回整数哈希码。默认情况下，该方法返回对象的内存地址。 hashCode方法的通用契约如下：

每当重写 equals 方法时，都应该重写 hashCode 方法，以确保两个相等的对象返回相同的哈希码。在程序执行过程中，多次调用hashCode方法会返回相同的整数，前提是对象的数据没有改变。两个不相等的对象可能有相同的哈希码，但是你应该实现 hashCode 方法来避免太多这样的情况。

基本类型的哈希码

对于byte、short、int和char类型的搜索键，只需将它们转换为int即可。因此，任何一种类型的两个不同搜索键将具有不同的哈希码。

对于 float 类型的搜索键，使用 Float.floatToIntBits(key) 作为哈希码。请注意，floatToIntBits(float f) 返回一个 int 值，其位表示与浮点数 f 的位表示相同。因此，float类型的两个不同搜索键将具有不同的哈希码。

对于 long 类型的搜索键，简单地将其转换为 int 并不是一个好的选择，因为所有仅前 32 位不同的键将具有相同的哈希码。为了考虑前32位，将64位分成两半，并执行异或运算将两半组合起来。这个过程称为折叠。 long 键的哈希码是

int hashCode = (int)(key ^ (key >> 32));

注意>>是右移运算符，将位向右移动32位。例如，1010110 >> 2 产生0010101。 ^ 是按位异或运算符。它对二进制操作数的两个相应位进行操作。例如，1010110 ^ 0110111 产生1100001.

对于 double 类型的搜索键，首先使用 Double.doubleToLongBits 方法将其转换为 long 值，然后执行折叠，如下所示：

长位 = Double.doubleToLongBits(key);
int hashCode = (int)(位 ^ (位 >> 32));

字符串的哈希码

搜索键通常是字符串，因此为字符串设计一个好的哈希函数很重要。一种直观的方法是将所有字符的 Unicode 相加作为字符串的哈希码。如果应用程序中的两个搜索键不包含相同的字母，则此方法可能有效，但如果搜索键包含相同的字母，例如 tod 和 dot.

，则会产生大量冲突

更好的方法是生成考虑字符位置的哈希码。具体来说，令哈希码为

s0*b(n – 1) + s1*b(n – 2) + c + sn-1

其中 si 是s.charAt(i)。该表达式是某个正 b 的多项式，因此称为 多项式哈希码。使用霍纳规则进行多项式计算（请参阅案例研究：将十六进制转换为十进制），可以按如下方式有效计算哈希码：

(…((s0*b + s1)b + s2)b + … + sn-2)b + sn-1

此计算可能会导致长字符串溢出，但算术溢出在 Java 中被忽略。您应该选择适当的值 b 以尽量减少碰撞。实验表明，b 的最佳选择是 31、33、37、39 和 41。在 String 类中，使用多项式哈希代码覆盖 hashCode，其中 b 为 31.

压缩哈希码

键的哈希码可能是一个超出哈希表索引范围的大整数，因此您需要缩小它以适应索引的范围。假设哈希表的索引在0和N-1之间。将整数缩放到 0 和 N-1 之间的最常见方法是使用

h(hashCode) = hashCode % N

怪兽AI数字人

数字人短视频创作，数字人直播，实时驱动数字人

44 查看详情

为了确保索引分布均匀，请选择 N 为大于 2 的质数。

理想情况下，您应该为N选择一个素数。然而，找到一个大的素数是很耗时的。在 java.util.HashMap 的 Java API 实现中，N 设置为 2 次方的值。这种选择是有充分理由的。当N是2的幂的值时，

h(hashCode) = hashCode % N

与

相同

h(hashCode) = hashCode & (N – 1)

与符号&是按位AND运算符。如果两个相应位都是 1，则两个相应位的 AND 会产生 1。例如，假设N = 4且hashCode = 11，11 % 4 = 3，这与01011 & 00011 = 11相同。 & 运算符的执行速度比 % 运算符快得多。

为了确保散列分布均匀，在java.util.HashMap的实现中，还使用了补充散列函数和主散列函数。该函数定义为：

private static int SupplementalHash(int h) {
h ^= (h >>> 20) ^ (h >>> 12);
返回 h ^ (h >>> 7) ^ (h >>> 4);
}

^ 和 >>> 是按位异或和无符号右移运算。位运算比乘法、除法和求余运算快得多。您应该尽可能用按位运算替换这些运算。

完整的哈希函数定义为：

h(hashCode) =supplementalHash(hashCode) % N

这与

相同

h(hashCode) =supplementalHash(hashCode) & (N – 1)

因为N是2的幂的值。

以上就是哈希函数和哈希码的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/509184.html

java api 质数

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

掌握 Android 开发中的 Java 片段

上一篇 2025年11月8日 23:50:55

向 Vehicle 添加参数化方法

下一篇 2025年11月8日 23:54:54

好文分享

解决 Vaadin 8 中大文件音频播放与定位时出现的 IOException

在 Vaadin 8 应用中处理大型音频文件（超过 7 MB）时，用户在尝试进行音频定位（seek）操作时可能会遭遇 `java.io.IOException: A connection established by software on your host computer has been d…

程序猿
2025年12月23日
0000
好文分享

Three.js中动态更换3D模型纹理的教程

本教程详细介绍了如何在Three.js应用中，通过用户选择（如下拉菜单）动态更改GLTF、GLB、FBX等3D模型特定网格的纹理。文章涵盖了纹理加载、目标网格识别、材质更新的核心机制，并提供了代码示例和最佳实践，旨在帮助开发者实现模型外观的实时定制化。在Three.js中，为3D模型（如GLTF、…

程序猿
2025年12月23日
0000
好文分享

HTML5WebWorkers怎么用_HTML5WebWorkers后台线程的使用方法与实例

Web Workers是HTML5的多线程机制，通过创建后台线程执行耗时任务，避免阻塞UI线程。1. 创建worker.js文件，编写耗时计算逻辑并监听消息；2. 主页面使用new Worker()加载Worker，通过postMessage发送数据，onmessage接收结果，实现主线程与Work…

程序猿
2025年12月23日
0000
好文分享

JavaScript Worker_javascript并行计算

Web Worker是HTML5的API，可在独立线程运行JS代码，避免阻塞主线程；通过postMessage通信，适用于计算密集任务如质数筛选。 JavaScript 是单线程语言，主线程负责页面渲染、事件处理和脚本执行。当遇到大量计算任务时，容易造成页面卡顿。为了解决这个问题，JavaScrip…

程序猿
2025年12月21日
0000
好文分享

JavaScript数学库开发

答案：开发JavaScript数学库需明确功能范围，包括基础扩展、统计计算、数值处理等，使用ES模块组织代码，确保测试覆盖边界情况，并发布至npm。开发一个JavaScript数学库，核心是提供简洁、可靠且易于使用的数学函数。这类库可以用于前端计算、数据处理或科学运算场景。重点在于封装常用但原生J…

程序猿
2025年12月20日
0000
好文分享

JavaScript中的BigInt数据类型有哪些应用场景和限制？

BigInt 可处理超大整数运算，适用于加密、大ID处理等场景，支持位操作但不兼容浮点数、JSON序列化及Math方法，且不可与Number混用。 BigInt 是 JavaScript 中用于表示任意精度整数的一种数据类型，它能处理超出 Number 类型安全范围的整数（即大于 2^53 – 1 …

程序猿
2025年12月20日
0000
好文分享

如何用WebAssembly SIMD加速图像处理算法？

WebAssembly SIMD通过并行处理像素数据显著提升图像处理效率。它利用128位向量指令，在单个周期内同时操作多个数据，如对16个8位颜色通道执行加法或乘法，从而加速滤镜、颜色转换、卷积等计算密集型任务。相比传统JavaScript逐像素处理，SIMD减少了循环次数和CPU指令开销，结合Em…

程序猿
2025年12月20日
0000
好文分享

如何用WebGPU实现基于物理的渲染(PBR)材质？

答案：WebGPU实现PBR需准备顶点与材质数据，加载纹理并构建渲染管线，通过WGSL着色器执行光照计算。具体包括：提供位置、法线、UV及切线等顶点数据；使用纹理或uniform传递baseColor、metallic、roughness等材质属性；加载IBL相关纹理（辐射度图、预过滤环境图、BRD…

程序猿
2025年12月20日
0000
ES6中如何用ArrayBuffer处理二进制数据

arraybuffer比普通字符串或数组更具优势，原因在于它提供了字节级别的访问和连续内存分配。首先，字符串以utf-16编码存储，不适合处理无字符编码的原始二进制数据，频繁的编码/解码操作会引入错误和性能损耗；其次，普通数组存储任意javascript值，导致额外内存开销和低效访问，而arrayb…

程序猿
2025年12月20日 • 好文分享
0000
好文分享

获得 Java 认证：实践测试的作用

在竞争激烈的 IT 行业，Java 认证是展现您在业界最流行编程语言之一专业技能的有效途径。备考过程虽然充满挑战，但巧妙运用 Java 认证练习测试能显著提升您的成功率。本文将深入探讨练习测试（包括“Java 认证练习测试题库”）如何助您顺利通过认证考试。为什么需要 Java 认证？ Java 认…

程序猿
2025年12月19日
0000
好文分享

什么是突触可塑性？它如何影响记忆？

突触可塑性是神经科学中的一个基本概念，描述了突触（神经元之间的连接）改变其强度和功效的能力。这种改变神经元之间连接的能力对于大脑功能至关重要，尤其是在学习、记忆和认知灵活性等过程中。突触可塑性被广泛认为是学习和记忆的细胞和分子基础，在我们如何获取、存储和回忆信息方面发挥着关键作用。要了解突触可塑性如…

程序猿
2025年12月19日
0000
好文分享

C++如何判断素数_C++质数判断算法代码优化

判断素数的基础方法是试除法，从2到√n逐一试除，若存在整除则非素数；优化时只需检查2和奇数，进一步可用埃氏筛预处理提升多查询效率。判断一个数是否为素数（质数）是C++编程中的常见问题。基础思路简单，但随着数值增大，算法效率差异明显。下面从基础实现出发，逐步优化，提升运行效率。基础方法：试除法最…

程序猿
2025年12月19日
1000
好文分享

c++ 素数判断代码 c++判断质数最高效算法

该函数通过试除法优化判断质数：先处理小于等于3的数，排除能被2或3整除的数，再从5开始循环检查形如6k±1的数是否为因子，若存在则非质数，否则为质数。判断一个数是否为质数（素数）是编程中的常见问题。在 C++ 中，实现高效质数判断的关键在于减少不必要的计算。以下是一个高效且实用的素数判断函数，适用…

程序猿
2025年12月19日
0000
好文分享

C++如何实现一个Bloom Filter？C++空间高效的概率数据结构【算法】

Bloom Filter是一种空间高效的概率型数据结构，用于判断元素“可能在集合中”或“绝对不在”，仅用位数组和多个哈希函数实现，支持add()和contains()，但不支持删除，存在可控误判率。什么是Bloom Filter？为什么用C++实现 Bloom Filter 是一种空间高效的概率型…

程序猿
2025年12月19日
0000
好文分享

C++如何判断一个数是素数_C++质数判断的高效算法实现

判断素数的高效方法是检查2到√n间的因子。基础优化：n 判断一个数是否为素数（质数）是C++编程中的常见问题。素数是指大于1且只能被1和自身整除的自然数。最简单的实现方式是从2遍历到n-1，但效率极低。下面介绍几种高效且实用的C++实现方法。基础优化：只检查到√n 一个合数必然有一个小于或等于其平…

程序猿
2025年12月19日
0000
好文分享

c++如何实现一个哈希表_c++数据结构unordered_map原理【源码】

c++kquote>std::unordered_map底层采用哈希+拉链法，以质数大小的桶数组和单向链表节点构成，通过哈希值取模定位bucket，负载因子超限触发rehash。哈希表在 C++ 中最常用的实现就是 std::unordered_map，它底层基于开放寻址或链地址法（主流实现…

程序猿
2025年12月19日
0000
好文分享

C++ bitset用法详解_C++二进制位操作

bitset是C++中用于高效操作固定长度二进制位的模板类，定义在头文件中。1. 可通过整数、字符串或空初始化创建实例，如std::bitset bs1(255)生成11111111。2. 提供test、set、reset、flip等成员函数以安全访问和修改特定位，并支持size、count、any…

程序猿
2025年12月19日
0000
好文分享

C++怎么实现一个哈希表_C++数据结构与冲突解决方法详解

答案：哈希表实现需设计高效哈希函数并选择合适冲突解决策略。使用C++可通过数组与链表结合的方式构建，常见哈希函数对整数取模、对字符串累加ASCII或采用DJB2算法，标准库std::hash支持泛型；冲突处理主要方法为链地址法和开放寻址法，前者用链表存储同桶元素，后者通过线性、二次探测或双重哈希寻找…

程序猿
2025年12月19日
0000
好文分享

C++中的立即函数(immediate functions)是什么_C++编译期执行与立即函数解析

立即函数是C++20引入的强制编译期执行的函数，使用consteval定义，每次调用必须生成编译期常量，否则编译报错。立即函数（immediate functions）是 C++20 引入的一个重要特性，使用 consteval 关键字定义。它的核心特点是：每一次调用都必须在编译期求值，生成编译期…

程序猿
2025年12月19日
0000
好文分享

c++如何使用constexpr在编译期进行计算_c++常量表达式应用技巧

答案是constexpr用于编译期计算，提升性能与安全性。它使变量和函数在编译期求值，如square(5)直接生成25；结合模板可实现is_prime等编译期判断，增强类型系统能力。在C++中，constexpr 是一个强大的特性，允许将函数或变量的计算过程提前到编译期，从而提升运行时性能并支持在…

程序猿
2025年12月19日
0000

发表回复

登录后才能评论