popcnt的前世今生？

程序猿 • 2025年11月28日 14:14:34 • 用户投稿 • 阅读 0

最近群聊里传了一个面试题

实现统计1的个数(汉明权重 hammingWeight)，使用popc++nt的算法对硬件不友好，有无绕过的思路

显然这个哥们的第一个实现是

代码语言：javascript代码运行次数：0运行复制

int hammingWeight_popcnt(uint64_t n) {  return __builtin_popcountll(n);}

当然c++20也支持 https://en.cppreference.com/w/cpp/numeric/popcount

一行，觉得自己很帅，当然面试官不喜欢，提示不要用popcnt，所谓的对硬件不友好指的应该是部分硬件没有这个指令

又或者性能原因？难道GPU上的popcnt性能很差？按下不表

直接贴实现

代码语言：javascript代码运行次数：0运行复制

int hammingWeight(uint64_t n) {    int ret = 0;    while (n) {        n &= n - 1;        ret++;    }    return ret;}

其实开启 O2 加上 -march=native，大家都会生成相同的popcnt, 早在2016年Lemire大哥就发现了

The surprising cleverness of modern compilers

附上llvm检测的代码 https://github.com/llvm-mirror/llvm/blob/f36485f7ac2a8d72ad0e0f2134c17fd365272285/lib/Transforms/Scalar/LoopIdiomRecognize.cpp#L960

只开O2可能保守场景不会生成popcnt

如果不用popcnt，代码的性能和popcnt差距大吗？或者说，popcnt有危害吗？比如延迟高？

直接上llvm-mca分析 https://godbolt.org/z/odox8Wdr5

首先插入一个简单粗暴的教程，如何看懂llvm-mca https://llvm.org/docs/CommandGuide/llvm-mca.html

就是机器码分析器，模拟机器码执行效果，我们不用装llvm-mca，直接用godbolt内置的工具。代码已经生成好了

直接贴popcnt代码的结果吧

代码语言：javascript代码运行次数：0运行复制

Iterations:        100Instructions:      200Total Cycles:      57Total uOps:        200Dispatch Width:    6uOps Per Cycle:    3.51IPC:               3.51Block RThroughput: 0.5Instruction Info:[1]: #uOps[2]: Latency[3]: RThroughput[4]: MayLoad[5]: MayStore[6]: HasSideEffects (U)[1]    [2]    [3]    [4]    [5]    [6]    Instructions: 1      1     0.25                        popcnt rax, rdi 1      5     0.50                  U     retResources:[0]   - Zn3AGU0[1]   - Zn3AGU1[2]   - Zn3AGU2[3]   - Zn3ALU0[4]   - Zn3ALU1[5]   - Zn3ALU2[6]   - Zn3ALU3[7]   - Zn3BRU1[8]   - Zn3FPP0[9]   - Zn3FPP1[10]  - Zn3FPP2[11]  - Zn3FPP3[12.0] - Zn3FPP45[12.1] - Zn3FPP45[13]  - Zn3FPSt[14.0] - Zn3LSU[14.1] - Zn3LSU[14.2] - Zn3LSU[15.0] - Zn3Load[15.1] - Zn3Load[15.2] - Zn3Load[16.0] - Zn3Store[16.1] - Zn3StoreResource pressure per iteration:[0]    [1]    [2]    [3]    [4]    [5]    [6]    [7]    [8]    [9]    [10]   [11]   [12.0] [12.1] [13]   [14.0] [14.1] [14.2] [15.0] [15.1] [15.2] [16.0] [16.1] 0.33   0.33   0.34   0.50   0.33   0.33   0.34   0.50    -      -      -      -      -      -      -     0.33   0.33   0.34   0.33   0.33   0.34    -      -     Resource pressure by instruction:[0]    [1]    [2]    [3]    [4]    [5]    [6]    [7]    [8]    [9]    [10]   [11]   [12.0] [12.1] [13]   [14.0] [14.1] [14.2] [15.0] [15.1] [15.2] [16.0] [16.1] Instructions: -      -      -      -     0.33   0.33   0.34    -      -      -      -      -      -      -      -      -      -      -      -      -      -      -      -     popcnt rax, rdi0.33   0.33   0.34   0.50    -      -      -     0.50    -      -      -      -      -      -      -     0.33   0.33   0.34   0.33   0.33   0.34    -      -     retwarning: found a return instruction in the input assembly sequence.note: program counter updates are ignored.

先记下这几个数字

代码语言：javascript代码运行次数：0运行复制

Iterations:        100Instructions:      200Total Cycles:      57Total uOps:        200Dispatch Width:    6uOps Per Cycle:    3.51IPC:               3.51Block RThroughput: 0.5

重点参数是IPC, uOps Per Cycle, 和 Block RThroughput (Block Reciprocal Throughput).

• IPC就是模拟的总指令数字除以总cycle数一般这个就表示吞吐了 Instructions / Total Cycles 显然这个值越高越好• Block RThroughput (Block Reciprocal Throughput) 就是Block Throughput(每个cycle能运行几次block)的倒数就是 Total Cycles / Iterations 每次运行能用几个cycle的意思，显然，这个值越低越好• Instructions / Iterations 代表每次迭代能执行几次指令显然 Instructions / Iterations / Block RThroughput = IPC 这个数比直接算IPC大点（有误差。。。。）你就当他是无影响的最大IPC吧• (循环数据引用问题可能导致影响。假设循环展开无影响)• uOps Per Cycle,就是模拟的微指令数总和除以总cycle数字 Total uOps/ Total Cycles ，这个和IPC含义差不多，显然这个值越高越好，但是要关注Dispatch Width – uOps Per Cycle 差值， Dispatch Width 表示最大发射指令的并行带宽，相当于资源限制了，uOps Per Cycle表示实际模拟使用的带宽，显然越接近Dispatch Width越说明资源受限制，利用率太高了，相当于CPU高了，需要找到瓶颈来源• 剩下的是执行模拟以及在哪里卡了，具体分析可以用-bottleneck-analysis，得本地搞了godbolt貌似不能玩

好了，根据上面的godbolt结果，直接把数据差异对比一下

另外网上搜到了google的两个实现，把数据补充上 https://godbolt.org/z/9nsczeT5c

代码语言：javascript代码运行次数：0运行复制

int hammingWeightV2(uint64_t n) {    n -= (n >> 1) & 0x5555555555555555ULL;    n = ((n >> 2) & 0x3333333333333333ULL) + (n & 0x3333333333333333ULL);    return (((n + (n >> 4)) & 0xF0F0F0F0F0F0F0FULL)            * 0x101010101010101ULL) >> 56;}

这个实现在一些cpu上有问题 type mismatch。不过一般来说和buildin popcnt一样效果

代码语言：javascript代码运行次数：0运行复制

int hammingWeight_popcntV2(uint64_t n) {    int64_t count = 0;    asm("popcnt %1,%0" : "=r"(count) : "rm"(n) : "cc");    return count;}

实现

编译器版本

Dispatch Width

uOps/Cycle

IPC

Block RThroughput

popcnt

gcc 13.2

3.67

1.83

1.0

普通实现

gcc 13.2

3.94

3.54

2.5

popcnt

clang 17.0.1

4.59

2.75

1.0

普通实现

clang 17.0.1

4.78

3.83

PHPWind 9.0 模板开发

PHPWind（简称：PW，中国国家版权局著作权登记号为:2004SR06082）的使命是让网站更具价值，让更多人从网络中享受便利，以提升生活品质。PHPWind的两位创始人王学集、林耀纳于2003年发布了PHPWind的前身版本ofstar，并发展成为包含BBS、CMS、博客、SNS等一系列程序的通用型建站软件。至今累计已有超过120万网站使用phpwind，每天还有1000个新增网站，这些

271 查看详情

1.7

popcnt v2

gcc 13.2

2.14

1.3

手写SWAR

gcc 13.2

4.09

3.72

3.8

popcnt v2

clang 17.0.1

3.67

1.83

1.0

手写SWAR

clang 17.0.1

4.09

3.72

3.8

能看出popcnt的Block RThroughput 低，这显然说明性能更好

然后看IPC和uOps/Cycle clang的明显比gcc的要高，但汇编说实话一个两行一个一行，这个没啥比较的意义了

重点和普通实现比，clang生成的汇编要比gcc好一点，Block RThroughput 低 IPC高，且没有特别接近Dispatch Width瓶颈

但说实话就差一个汇编这点差距根本比不出什么。只能大概说一下popcnt的汇编更少，性能更好而已

感觉SWAR这种看起来很屌, 但看mca分析感觉不太行我跑了个qb压测，但是网站挂了，还需要本地跑一下

https://github.com/wanghenshui/little_bm/blob/dev/hamming_weight/hamming_weight.cc

我的测试结果来看，SWAR性能反而比popcnt要好，即使Block RThroughput 很高，但IPC也很高，性能反而非常好

代码语言：javascript代码运行次数：0运行复制

taskset -c 0  ./hamming_weight2024-02-03T22:39:35+08:00Running ./hamming_weightRun on (16 X 3392.38 MHz CPU s)CPU Caches:  L1 Data 32 KiB (x8)  L1 Instruction 32 KiB (x8)  L2 Unified 512 KiB (x8)  L3 Unified 16384 KiB (x1)Load Average: 0.01, 0.02, 0.00-----------------------------------------------------------------------Benchmark                             Time             CPU   Iterations-----------------------------------------------------------------------BM_hammingWeight_popcnt/0          26.6 ns         26.6 ns     26281110BM_hammingWeight_popcnt/128         265 ns          265 ns      2622989BM_hammingWeight_popcnt/256         526 ns          526 ns      1332695BM_hammingWeight_popcnt/512        1048 ns         1048 ns       666562BM_hammingWeight_popcnt/1024       2096 ns         2095 ns       334434BM_hammingWeight/0                 80.7 ns         80.7 ns      8689750BM_hammingWeight/128               1643 ns         1642 ns       447638BM_hammingWeight/256               3646 ns         3646 ns       195882BM_hammingWeight/512               8099 ns         8097 ns        85508BM_hammingWeight/1024             17193 ns        17190 ns        41208BM_hammingWeightV2/0/0             11.8 ns         11.8 ns     58402778BM_hammingWeightV2/128              118 ns          118 ns      5951445BM_hammingWeightV2/256              233 ns          233 ns      3001257BM_hammingWeightV2/512              463 ns          463 ns      1510925BM_hammingWeightV2/1024             927 ns          927 ns       758631

不过还需要其他机器测试，我的nuc是r9 6950hx zen3+，性能不错

github CI机器，SWAR和popcnt就差不多了。

代码语言：javascript代码运行次数：0运行复制

Running ./bm_hamming_weightRun on (4 X 2868.73 MHz CPU s)CPU Caches:  L1 Data 32 KiB (x2)  L1 Instruction 32 KiB (x2)  L2 Unified 512 KiB (x2)  L3 Unified 32768 KiB (x1)Load Average: 1.98, 0.54, 0.19-----------------------------------------------------------------------Benchmark                             Time             CPU   Iterations-----------------------------------------------------------------------BM_hammingWeight_popcnt/0          17.5 ns         17.5 ns     39446954BM_hammingWeight_popcnt/128         173 ns          173 ns      4056917BM_hammingWeight_popcnt/256         342 ns          342 ns      2051152BM_hammingWeight_popcnt/512         679 ns          679 ns      1032384BM_hammingWeight_popcnt/1024       1354 ns         1354 ns       517551BM_hammingWeight/0                  124 ns          124 ns      5638895BM_hammingWeight/128               2394 ns         2394 ns       280377BM_hammingWeight/256               5511 ns         5511 ns       123293BM_hammingWeight/512              12036 ns        12036 ns        58336BM_hammingWeight/1024             25711 ns        25710 ns        27149BM_hammingWeightV2/0/0             17.8 ns         17.8 ns     39494382BM_hammingWeightV2/128              182 ns          182 ns      3848768BM_hammingWeightV2/256              360 ns          360 ns      1943778BM_hammingWeightV2/512              709 ns          709 ns       988825BM_hammingWeightV2/1024            1418 ns         1418 ns       493319

家人们，需要你们的补充测试，各种机器, 复现代码https://github.com/wanghenshui/little_bm 运行build.sh即可

话说回来，数1到底能干嘛？这里要引入汉明距离编辑距离相关的概念

简单理解就是查diff 纠错码之类的效果

popcnt的来源 http://www.talkchess.com/forum3/viewtopic.php?t=38521

上个世纪60年代，计算机还属于大型机百花齐放的年代，Control Data Corporation公司的CDC 机器卖的不错，国际象棋也在用这个软件。他们的场景就是棋盘格确认位置，所以实现了popcnt类似的能力，算位置坐标，美国国家安全局(NSA)发现了他们有这个能力，他们的新机器CDC 6000，政府采购并要求加上这个功能，主要是为了类似汉明距离之类的信息统计，相当于变相hash，用来实现校对diff之类的能力，所以也被叫做NSA Instruction (NSA指令)

这个指令也是那个时代的特殊产物把，算力不行并没有高级的hash能力，只能通过数1模拟，后来CPU性能提升渐渐的都不支持了，然后后来部分CPU支持部分CPU不支持，到现代全都捡回来

现在的CPU也有很多不支持popcnt指令，以至于游戏客户端领域会有popcnt patch之类的玩意，给玩家打patch绕过popcnt https://github.com/ogurets/popcnt_emulator

还有什么能用到数1？

指纹？安全领域，这种更多是汉明距离场景的推广

能用到bitmap的地方，不过使用bitmap不一定非得算总数

比如 Hash Array Mapped Tries 结合tries的压缩优点 + bitmap定位槽，

bitmap浪费所以要压缩一下，位运算躲不了数1场景

再比如 Succinct Data Structures terarkdb的memtable用的就这玩意，压缩率高

关于popcnt的信息我就收集到这么多的，大家有其他见解/批评还可以补充一下

另外，跑一下压测代码！看看你的CPU结果是什么样子的

参考• https://vaibhavsagar.com/blog/2019/09/08/popcount/ 一些资料汇总在这里搜到的。我一开始是根据群友聊的和关键字搜到hackernews上这篇文章的分享，介绍了背景和部分应用• https://abseil.io/fast/9 这里说的话我很赞同，性能测试是个周期性的工作，可能旧的代码有时候快，后面时代/硬件进步，又慢了还是要具体机器具体分析• https://github.com/google/supersonic/blob/master/supersonic/utils/bits.h• https://stackoverflow.com/questions/28802692/how-is-popcnt-implemented-in-hardware 这个没看，但感觉现代CPU popcnt代价已经很低了

以上就是popcnt的前世今生？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/889296.html

ai c++git overflow red talk 工具硬件

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

小米桌面时间天气不见了怎么恢复_小米手机添加桌面时间天气教程

上一篇 2025年11月28日 14:14:33

《原子之心2》发表首支预告放出

下一篇 2025年11月28日 14:14:35

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
7000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
6000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
3000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
2000
好文分享

微信小程序文本省略后如何避免背景色溢出？

去掉单行文本溢出多余背景色在编写微信小程序时，如果希望文本超出宽度后省略显示并在末尾显示省略号，但同时还需要文本带有背景色，可能会遇到如下问题：文本末尾出现多余的背景色块。这是因为文本本身超出部分被省略并用省略号代替，但其背景色依然存在。要解决这个问题，可以采用以下方法：给 text 元素添加…

程序猿
2025年12月24日
0000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
1000
好文分享

Flex 布局左右同高怎么实现？

flex布局左右同高在flex布局中，左右布局的元素高度不一致时，想要让边框延伸到最大高度，可以采用以下方法：基于当前结构的方法：给.rht和.lft盒子添加： .rht { height: min-content;} 这样可以使弹性盒子被子盒子内容撑开。使用javascript获取.rht…

程序猿
2025年12月24日
0000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
1000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
3000
好文分享

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
1000
好文分享

如何去除带有背景色的文本单行溢出时的多余背景色？

带背景色的文字单行溢出处理：去除多余的背景色当一个带有背景色的文本因单行溢出而被省略时，可能会出现最后一个背景色块多余的情况。针对这种情况，可以通过以下方式进行处理：在示例代码中，问题在于当文本溢出时，overflow: hidden 属性会导致所有文本元素(包括最后一个)都隐藏。为了解决该问题…

程序猿
2025年12月24日
0000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
2000
好文分享

如何解决 CSS 中文本溢出时背景色也溢出的问题？

文字单行溢出省略号时，去掉多余背景色的方法在使用 css 中的 text-overflow: ellipsis 属性时，如果文本内容过长导致一行溢出，且文本带有背景色，溢出的部分也会保留背景色。但如果想要去掉最后多余的背景色，可以采用以下方法：给 text 元素添加一个 display: inl…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
1000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
1000

发表回复

登录后才能评论

popcnt的前世今生？

关于作者

相关推荐

发表回复