哈希函数和哈希码

哈希函数和哈希码

典型的哈希函数首先将搜索键转换为称为哈希码的整数值,然后将哈希码压缩为哈希表的索引。 Java 的根类 ObjecthashCode 方法,该方法返回整数哈希码。默认情况下,该方法返回对象的内存地址。 hashCode方法的通用契约如下:

每当重写 equals 方法时,都应该重写 hashCode 方法,以确保两个相等的对象返回相同的哈希码。在程序执行过程中,多次调用hashCode方法会返回相同的整数,前提是对象的数据没有改变。两个不相等的对象可能有相同的哈希码,但是你应该实现 hashCode 方法来避免太多这样的情况。

基本类型的哈希码

对于byteshortintchar类型的搜索键,只需将它们转换为int即可。因此,任何一种类型的两个不同搜索键将具有不同的哈希码。

对于 float 类型的搜索键,使用 Float.floatToIntBits(key) 作为哈希码。请注意,floatToIntBits(float f) 返回一个 int 值,其位表示与浮点数 f 的位表示相同。因此,float类型的两个不同搜索键将具有不同的哈希码。

对于 long 类型的搜索键,简单地将其转换为 int 并不是一个好的选择,因为所有仅前 32 位不同的键将具有相同的哈希码。为了考虑前32位,将64位分成两半,并执行异或运算将两半组合起来。这个过程称为折叠long 键的哈希码是

int hashCode = (int)(key ^ (key >> 32));

注意>>是右移运算符,将位向右移动32位。例如,1010110 >> 2 产生0010101。 ^ 是按位异或运算符。它对二进制操作数的两个相应位进行操作。例如,1010110 ^ 0110111 产生1100001.

对于 double 类型的搜索键,首先使用 Double.doubleToLongBits 方法将其转换为 long 值,然后执行折叠,如下所示:

长位 = Double.doubleToLongBits(key);
int hashCode = (int)(位 ^ (位 >> 32));

字符串的哈希码

搜索键通常是字符串,因此为字符串设计一个好的哈希函数很重要。一种直观的方法是将所有字符的 Unicode 相加作为字符串的哈希码。如果应用程序中的两个搜索键不包含相同的字母,则此方法可能有效,但如果搜索键包含相同的字母,例如 toddot.

,则会产生大量冲突

更好的方法是生成考虑字符位置的哈希码。具体来说,令哈希码为

s0*b(n – 1) + s1*b(n – 2) + c + sn-1

其中 si 是s.charAt(i)。该表达式是某个正 b 的多项式,因此称为 多项式哈希码。使用霍纳规则进行多项式计算(请参阅案例研究:将十六进制转换为十进制),可以按如下方式有效计算哈希码:

(…((s0*b + s1)b + s2)b + … + sn-2)b + sn-1

此计算可能会导致长字符串溢出,但算术溢出在 Java 中被忽略。您应该选择适当的值 b 以尽量减少碰撞。实验表明,b 的最佳选择是 31、33、37、39 和 41。在 String 类中,使用多项式哈希代码覆盖 hashCode,其中 b 为 31.

压缩哈希码

键的哈希码可能是一个超出哈希表索引范围的大整数,因此您需要缩小它以适应索引的范围。假设哈希表的索引在0N-1之间。将整数缩放到 0N-1 之间的最常见方法是使用

h(hashCode) = hashCode % N

怪兽AI数字人 怪兽AI数字人

数字人短视频创作,数字人直播,实时驱动数字人

怪兽AI数字人 44 查看详情 怪兽AI数字人

为了确保索引分布均匀,请选择 N 为大于 2质数

理想情况下,您应该为N选择一个素数。然而,找到一个大的素数是很耗时的。在 java.util.HashMap 的 Java API 实现中,N 设置为 2 次方的值。这种选择是有充分理由的。当N2的幂的值时,

h(hashCode) = hashCode % N

相同

h(hashCode) = hashCode & (N – 1)

与符号&是按位AND运算符。如果两个相应位都是 1,则两个相应位的 AND 会产生 1。例如,假设N = 4hashCode = 1111 % 4 = 3,这与01011 & 00011 = 11相同。 & 运算符的执行速度比 % 运算符快得多。

为了确保散列分布均匀,在java.util.HashMap的实现中,还使用了补充散列函数和主散列函数。该函数定义为:

private static int SupplementalHash(int h) {
h ^= (h >>> 20) ^ (h >>> 12);
返回 h ^ (h >>> 7) ^ (h >>> 4);
}

^>>> 是按位异或和无符号右移运算。位运算比乘法、除法和求余运算快得多。您应该尽可能用按位运算替换这些运算。

完整的哈希函数定义为:

h(hashCode) =supplementalHash(hashCode) % N

这与

相同

h(hashCode) =supplementalHash(hashCode) & (N – 1)

因为N2的幂的值。

以上就是哈希函数和哈希码的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/509184.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 23:50:55
下一篇 2025年11月8日 23:54:54

相关推荐

  • 解决 Vaadin 8 中大文件音频播放与定位时出现的 IOException

    在 Vaadin 8 应用中处理大型音频文件(超过 7 MB)时,用户在尝试进行音频定位(seek)操作时可能会遭遇 `java.io.IOException: A connection established by software on your host computer has been d…

    2025年12月23日
    000
  • Three.js中动态更换3D模型纹理的教程

    本教程详细介绍了如何在Three.js应用中,通过用户选择(如下拉菜单)动态更改GLTF、GLB、FBX等3D模型特定网格的纹理。文章涵盖了纹理加载、目标网格识别、材质更新的核心机制,并提供了代码示例和最佳实践,旨在帮助开发者实现模型外观的实时定制化。 在Three.js中,为3D模型(如GLTF、…

    2025年12月23日
    000
  • HTML5WebWorkers怎么用_HTML5WebWorkers后台线程的使用方法与实例

    Web Workers是HTML5的多线程机制,通过创建后台线程执行耗时任务,避免阻塞UI线程。1. 创建worker.js文件,编写耗时计算逻辑并监听消息;2. 主页面使用new Worker()加载Worker,通过postMessage发送数据,onmessage接收结果,实现主线程与Work…

    2025年12月23日
    000
  • JavaScript Worker_javascript并行计算

    Web Worker是HTML5的API,可在独立线程运行JS代码,避免阻塞主线程;通过postMessage通信,适用于计算密集任务如质数筛选。 JavaScript 是单线程语言,主线程负责页面渲染、事件处理和脚本执行。当遇到大量计算任务时,容易造成页面卡顿。为了解决这个问题,JavaScrip…

    2025年12月21日
    000
  • JavaScript数学库开发

    答案:开发JavaScript数学库需明确功能范围,包括基础扩展、统计计算、数值处理等,使用ES模块组织代码,确保测试覆盖边界情况,并发布至npm。 开发一个JavaScript数学库,核心是提供简洁、可靠且易于使用的数学函数。这类库可以用于前端计算、数据处理或科学运算场景。重点在于封装常用但原生J…

    2025年12月20日
    000
  • JavaScript中的BigInt数据类型有哪些应用场景和限制?

    BigInt 可处理超大整数运算,适用于加密、大ID处理等场景,支持位操作但不兼容浮点数、JSON序列化及Math方法,且不可与Number混用。 BigInt 是 JavaScript 中用于表示任意精度整数的一种数据类型,它能处理超出 Number 类型安全范围的整数(即大于 2^53 – 1 …

    2025年12月20日
    000
  • 如何用WebAssembly SIMD加速图像处理算法?

    WebAssembly SIMD通过并行处理像素数据显著提升图像处理效率。它利用128位向量指令,在单个周期内同时操作多个数据,如对16个8位颜色通道执行加法或乘法,从而加速滤镜、颜色转换、卷积等计算密集型任务。相比传统JavaScript逐像素处理,SIMD减少了循环次数和CPU指令开销,结合Em…

    2025年12月20日
    000
  • 如何用WebGPU实现基于物理的渲染(PBR)材质?

    答案:WebGPU实现PBR需准备顶点与材质数据,加载纹理并构建渲染管线,通过WGSL着色器执行光照计算。具体包括:提供位置、法线、UV及切线等顶点数据;使用纹理或uniform传递baseColor、metallic、roughness等材质属性;加载IBL相关纹理(辐射度图、预过滤环境图、BRD…

    2025年12月20日
    000
  • ES6中如何用ArrayBuffer处理二进制数据

    arraybuffer比普通字符串或数组更具优势,原因在于它提供了字节级别的访问和连续内存分配。首先,字符串以utf-16编码存储,不适合处理无字符编码的原始二进制数据,频繁的编码/解码操作会引入错误和性能损耗;其次,普通数组存储任意javascript值,导致额外内存开销和低效访问,而arrayb…

    2025年12月20日 好文分享
    000
  • 获得 Java 认证:实践测试的作用

    在竞争激烈的 IT 行业,Java 认证是展现您在业界最流行编程语言之一专业技能的有效途径。备考过程虽然充满挑战,但巧妙运用 Java 认证练习测试能显著提升您的成功率。本文将深入探讨练习测试(包括“Java 认证练习测试题库”)如何助您顺利通过认证考试。 为什么需要 Java 认证? Java 认…

    2025年12月19日
    000
  • 什么是突触可塑性?它如何影响记忆?

    突触可塑性是神经科学中的一个基本概念,描述了突触(神经元之间的连接)改变其强度和功效的能力。这种改变神经元之间连接的能力对于大脑功能至关重要,尤其是在学习、记忆和认知灵活性等过程中。突触可塑性被广泛认为是学习和记忆的细胞和分子基础,在我们如何获取、存储和回忆信息方面发挥着关键作用。要了解突触可塑性如…

    2025年12月19日
    000
  • C++如何判断素数_C++质数判断算法代码优化

    判断素数的基础方法是试除法,从2到√n逐一试除,若存在整除则非素数;优化时只需检查2和奇数,进一步可用埃氏筛预处理提升多查询效率。 判断一个数是否为素数(质数)是C++编程中的常见问题。基础思路简单,但随着数值增大,算法效率差异明显。下面从基础实现出发,逐步优化,提升运行效率。 基础方法:试除法 最…

    2025年12月19日
    100
  • c++ 素数判断代码 c++判断质数最高效算法

    该函数通过试除法优化判断质数:先处理小于等于3的数,排除能被2或3整除的数,再从5开始循环检查形如6k±1的数是否为因子,若存在则非质数,否则为质数。 判断一个数是否为质数(素数)是编程中的常见问题。在 C++ 中,实现高效质数判断的关键在于减少不必要的计算。以下是一个高效且实用的素数判断函数,适用…

    2025年12月19日
    000
  • C++如何实现一个Bloom Filter?C++空间高效的概率数据结构【算法】

    Bloom Filter是一种空间高效的概率型数据结构,用于判断元素“可能在集合中”或“绝对不在”,仅用位数组和多个哈希函数实现,支持add()和contains(),但不支持删除,存在可控误判率。 什么是Bloom Filter?为什么用C++实现 Bloom Filter 是一种空间高效的概率型…

    2025年12月19日
    000
  • C++如何判断一个数是素数_C++质数判断的高效算法实现

    判断素数的高效方法是检查2到√n间的因子。基础优化:n 判断一个数是否为素数(质数)是C++编程中的常见问题。素数是指大于1且只能被1和自身整除的自然数。最简单的实现方式是从2遍历到n-1,但效率极低。下面介绍几种高效且实用的C++实现方法。 基础优化:只检查到√n 一个合数必然有一个小于或等于其平…

    2025年12月19日
    000
  • c++如何实现一个哈希表_c++数据结构unordered_map原理【源码】

    c++kquote>std::unordered_map底层采用哈希+拉链法,以质数大小的桶数组和单向链表节点构成,通过哈希值取模定位bucket,负载因子超限触发rehash。 哈希表在 C++ 中最常用的实现就是 std::unordered_map,它底层基于开放寻址或链地址法(主流实现…

    2025年12月19日
    000
  • C++ bitset用法详解_C++二进制位操作

    bitset是C++中用于高效操作固定长度二进制位的模板类,定义在头文件中。1. 可通过整数、字符串或空初始化创建实例,如std::bitset bs1(255)生成11111111。2. 提供test、set、reset、flip等成员函数以安全访问和修改特定位,并支持size、count、any…

    2025年12月19日
    000
  • C++怎么实现一个哈希表_C++数据结构与冲突解决方法详解

    答案:哈希表实现需设计高效哈希函数并选择合适冲突解决策略。使用C++可通过数组与链表结合的方式构建,常见哈希函数对整数取模、对字符串累加ASCII或采用DJB2算法,标准库std::hash支持泛型;冲突处理主要方法为链地址法和开放寻址法,前者用链表存储同桶元素,后者通过线性、二次探测或双重哈希寻找…

    2025年12月19日
    000
  • C++中的立即函数(immediate functions)是什么_C++编译期执行与立即函数解析

    立即函数是C++20引入的强制编译期执行的函数,使用consteval定义,每次调用必须生成编译期常量,否则编译报错。 立即函数(immediate functions)是 C++20 引入的一个重要特性,使用 consteval 关键字定义。它的核心特点是:每一次调用都必须在编译期求值,生成编译期…

    2025年12月19日
    000
  • c++如何使用constexpr在编译期进行计算_c++常量表达式应用技巧

    答案是constexpr用于编译期计算,提升性能与安全性。它使变量和函数在编译期求值,如square(5)直接生成25;结合模板可实现is_prime等编译期判断,增强类型系统能力。 在C++中,constexpr 是一个强大的特性,允许将函数或变量的计算过程提前到编译期,从而提升运行时性能并支持在…

    2025年12月19日
    000

发表回复

登录后才能评论
关注微信