PyTorch中高效查找张量B元素在张量A中的所有索引位置

程序猿 • 2025年12月14日 15:21:37 • 用户投稿 • 阅读 0

本教程旨在解决PyTorch中查找张量B元素在张量A中所有出现索引的挑战，尤其是在面对大规模张量时，传统广播操作可能导致内存溢出。文章提供了两种优化策略：一种是结合部分广播与Python循环的混合方案，另一种是纯Python循环迭代张量B的方案，旨在平衡内存效率与计算性能，并详细阐述了它们的实现方式、适用场景及注意事项。

1. 问题背景与挑战

在数据处理和机器学习任务中，我们经常需要在一个大型张量（例如张量a）中查找另一个张量（例如张量b）中所有元素的出现位置。具体来说，给定张量a（[1,2,3,3,2,1,4,5,9]）和张量b（[1,2,3,9]），我们的目标是为b中的每个值，找到它在a中出现的所有索引。理想的输出形式类似于 [[0,5], [1,4], [2,3], [8]]，其中每个子列表对应b中一个值的索引。

直接使用PyTorch的广播机制，例如通过扩展维度创建布尔掩码 (B == A_expanded)，虽然能够实现功能，但对于非常大的张量A和B，这种操作会消耗巨大的内存，导致程序崩溃或运行效率低下。因此，我们需要寻找内存效率更高、同时保持合理计算性能的解决方案。

2. 传统广播方法的局限性

最初的尝试往往会利用PyTorch强大的广播能力。例如，以下代码片段展示了通过扩展维度进行广播的方法：

import torchdef vectorized_find_indices_broadcasting(A, B):    # 扩展A的维度以与B进行广播比较    # A_expanded 的形状将是 (A.size(0), 1, 1)    A_expanded = A[:, None, None]    # 创建布尔掩码，形状为 (A.size(0), B.size(0), 1)    # mask[i, j, k] 为 True 表示 A[i] == B[j]    mask = (B == A_expanded)    # 获取匹配的索引。这里会生成一个形状为 (A.size(0), B.size(0), 1) 的张量    # 其中对应 True 的位置是A的索引，False 的位置是 -1    indices = torch.where(mask, torch.arange(A.size(0), device=A.device)[:, None, None], torch.tensor(-1, device=A.device))    # 调整结果形状，使其更符合期望的输出结构    # 最终形状可能需要进一步处理以得到 [[idx1, idx2], ...] 形式    result = indices.permute(1, 2, 0)    return result# 示例A = torch.tensor([1,2,3,3,2,1,4,5,9])B = torch.tensor([1,2,3,9])# result_broadcasting = vectorized_find_indices_broadcasting(A, B)# print(result_broadcasting)

尽管上述方法在逻辑上是“完全向量化”的，但其核心问题在于 mask 张量和 indices 张量的大小会急剧增加，其维度通常是 (len(A), len(B), …)。当 len(A) 和 len(B) 都非常大时，即使是中间结果也会轻易耗尽可用内存，使得这种方法不适用于大规模张量。

3. 优化方案一：混合广播与Python循环

为了克服纯广播的内存限制，我们可以采用一种混合方法：首先利用有限的广播操作找出所有匹配的索引对，然后通过Python循环将这些索引对归类到对应的张量B元素下。这种方法在内存和计算效率之间找到了一个较好的平衡点。

3.1 实现原理

找出所有匹配对： 使用 a.unsqueeze(1) == b 进行比较。a.unsqueeze(1) 将张量A的维度从 (N,) 变为 (N, 1)，使其可以与 b (形状 (M,)) 进行广播比较，生成一个形状为 (N, M) 的布尔张量。True 表示 A[i] == B[j]。获取匹配索引： 对布尔张量调用 .nonzero() 方法，将返回一个 (K, 2) 的张量，其中 K 是匹配的总数。每一行 (a_idx, b_idx) 表示 A[a_idx] 与 B[b_idx] 相匹配。归类索引： 初始化一个与张量B长度相同的空列表的列表。遍历 (a_idx, b_idx) 对，将 a_idx 添加到 output[b_idx] 中。

3.2 代码示例

import torchdef find_indices_hybrid(a, b):    # 1. 找出所有匹配的 (A_index, B_index) 对    # a.unsqueeze(1) 将 a 变为 (len(a), 1)    # (a.unsqueeze(1) == b) 广播为 (len(a), len(b)) 的布尔张量    # .nonzero() 返回所有 True 值的坐标，形状为 (K, 2)，其中 K 是匹配总数    # 每行 (a_idx, b_idx) 表示 a[a_idx] == b[b_idx]    overlap_idxs = (a.unsqueeze(1) == b).nonzero()    # 2. 初始化结果列表，为B中每个元素准备一个空列表    output = [[] for _ in b]    # 3. 遍历匹配对，将A的索引归类到B的对应元素下    for a_idx, b_idx in overlap_idxs:        output[b_idx.item()].append(a_idx.item())    return output# 示例使用A = torch.tensor([1,2,3,3,2,1,4,5,9])B = torch.tensor([1,2,3,9])result_hybrid = find_indices_hybrid(A, B)print(f"混合方法结果: {result_hybrid}") # 预期: [[0, 5], [1, 4], [2, 3], [8]]A_large = torch.arange(100000) # 模拟大张量AB_large = torch.tensor([100, 50000, 99999, 100001]) # B中可能包含A中不存在的值result_large_hybrid = find_indices_hybrid(A_large, B_large)print(f"大型张量混合方法结果 (部分): {result_large_hybrid[:2]}...")

3.3 优缺点分析

优点：相比纯广播方法，overlap_idxs 的内存占用大大降低，它只存储实际匹配的索引对，而不是整个 (len(A), len(B)) 大小的布尔矩阵。nonzero() 操作是高度优化的C++实现，效率较高。在 len(A) * len(B) 比较大但匹配数量 K 相对较小的情况下表现良好。缺点：仍然需要创建一个 (len(A), len(B)) 大小的布尔张量作为中间结果（尽管 nonzero() 可以在某些情况下避免完全实例化）。最后的归类步骤是一个Python级别的循环，对于 K 非常大（即匹配非常多）的情况，可能会成为性能瓶颈。

4. 优化方案二：纯Python循环遍历张量B

当张量B的长度相对较小，或者希望将内存使用降到最低时，可以采用纯Python循环遍历张量B的每个元素，并在张量A中独立查找其索引。

4.1 实现原理

遍历B的每个元素： 使用Python for 循环迭代张量B中的每一个值 _b。在A中查找： 对于每个 _b，使用 (a == _b).nonzero() 在张量A中查找所有匹配的索引。nonzero() 返回的张量通常是 (num_matches, 1) 的形状。处理结果： 使用 .squeeze().tolist() 将结果转换为Python列表。如果 _b 在A中没有匹配项，nonzero() 将返回空张量，squeeze() 后会得到空列表。如果只有一个匹配项，squeeze() 会将其降为标量，需要特殊处理以确保其始终为列表。收集结果： 将每个 _b 对应的索引列表添加到最终结果列表中。

4.2 代码示例

import torchdef find_indices_pure_python_loop(a, b):    output = []    for _b in b:        # 查找当前 _b 在 a 中的所有索引        idxs_tensor = (a == _b).nonzero().squeeze()        # 将张量转换为Python列表        # 注意处理只有单个匹配项时 squeeze() 会将张量变为标量的情况        if idxs_tensor.dim() == 0: # 如果是标量（只有一个匹配项）            idxs = [idxs_tensor.item()]        elif idxs_tensor.numel() == 0: # 如果没有匹配项            idxs = []        else: # 多个匹配项            idxs = idxs_tensor.tolist()        output.append(idxs)    return output# 示例使用A = torch.tensor([1,2,3,3,2,1,4,5,9])B = torch.tensor([1,2,3,9, 10]) # 添加一个不存在的值result_pure_loop = find_indices_pure_python_loop(A, B)print(f"纯Python循环方法结果: {result_pure_loop}") # 预期: [[0, 5], [1, 4], [2, 3], [8], []]A_large = torch.arange(100000) # 模拟大张量AB_small = torch.tensor([100, 50000, 99999, 100001]) # B的长度较小result_large_A_small_B_loop = find_indices_pure_python_loop(A_large, B_small)print(f"大型A小型B纯循环方法结果: {result_large_A_small_B_loop}")

4.3 优缺点分析

优点：内存使用效率最高，每次只处理 B 中的一个元素，不会产生大的中间张量。对于 len(B) 较小而 len(A) 很大的情况，这种方法可能比混合方法更优，因为它避免了 (len(A), len(B)) 大小的布尔张量创建。缺点：完全依赖Python循环，相比于PyTorch的向量化操作，计算速度可能较慢，尤其当 len(B) 非常大时。每次迭代都需要在GPU/CPU之间进行数据传输（如果 A 在GPU上），这会增加开销。

5. 选择策略与注意事项

在选择上述两种优化方案时，需要根据实际场景中的张量大小、内存限制和性能要求进行权衡：

*当 len(A) 和 len(B) 都非常大，但预期匹配的数量 K 相对较小（即 `K len(B)）时，推荐使用“混合广播与Python循环”方案。** 这种方案利用了nonzero()` 的高效性，并避免了创建巨大的布尔矩阵。当 len(B) 相对较小，而 len(A) 非常大，且内存是主要限制因素时，推荐使用“纯Python循环遍历张量B”方案。 这种方案的内存占用最小，但可能会牺牲一些计算速度。如果 len(A) 和 len(B) 都不是特别大，或者内存不是瓶颈，可以考虑最初的完全广播方法（但需要确保内存能够承受）。

注意事项：

未找到的元素： 两种优化方案都能自然地处理张量B中的元素在张量A中不存在的情况。此时，该元素对应的输出列表中将是空列表 []。数据类型与设备： 确保张量A和B具有兼容的数据类型，并且它们位于相同的设备（CPU或GPU）上，以避免不必要的数据传输开销。性能分析： 对于生产环境，建议使用 torch.cuda.synchronize() 和 time.time() 或 torch.benchmark 等工具对不同方法进行性能测试，以选择最适合具体工作负载的方案。

6. 总结

在PyTorch中高效地查找一个张量中另一个张量元素的索引是一个常见的需求，尤其是在处理大规模数据时，内存效率至关重要。本文介绍了两种优化的方法：结合部分广播和Python循环的混合方案，以及纯Python循环遍历张量B的方案。理解它们的实现原理、优缺点和适用场景，可以帮助开发者根据具体需求选择最合适的策略，从而在内存使用和计算性能之间取得最佳平衡。

以上就是PyTorch中高效查找张量B元素在张量A中的所有索引位置的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1375817.html

app c++python pytorch 内存占用工具性能测试性能瓶颈

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

PySpark中XPath函数提取XML节点文本内容指南：避免空值数组

上一篇 2025年12月14日 15:21:32

PySpark中XPath函数提取XML元素文本内容为Null的解决方案

下一篇 2025年12月14日 15:21:43

用户投稿

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
用户投稿

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
用户投稿

构建模拟：从头开始的实时交易模拟器

简介嘿，开发社区！我很高兴分享我的业余项目 Simul8or – 一个实时日间交易模拟器，旨在为用户提供一个无风险的环境来练习交易策略。该项目 100% 构建在 ASP.NET WebForms、C#、JavaScript、CSS 和 SQL Server 技术堆栈上，没有外部库或框架。从头开始构…

程序猿
2025年12月24日
4000
用户投稿

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
用户投稿

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
用户投稿

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
用户投稿

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
用户投稿

应对性能瓶颈：前端工程师的重绘与回流解决方案

重绘和回流解密：前端工程师如何应对性能瓶颈引言：随着互联网的快速发展，前端工程师的角色越来越重要。他们需要处理用户界面的设计和开发，同时还要关注网站性能的优化。在前端性能优化中，重绘和回流是常见的性能瓶颈。本文将详细介绍重绘和回流的原理，并提供一些实用的代码示例，帮助前端工程师应对性能瓶颈。一、…

程序猿
2025年12月24日
2000
用户投稿

css和c的区别是什么

区别是：1、C语言是一门面向过程、抽象化的通用程序设计语言、计算机编程语言，广泛应用于底层开发；2、CSS是一种用来表现HTML或XML等文件样式的计算机语言，可以做到网页和内容进行分离的一种样式语言。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell G3电…

程序猿
2025年12月24日
1000
用户投稿

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
1000
用户投稿

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
用户投稿

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
用户投稿

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
用户投稿

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
用户投稿

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
4000
用户投稿

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
1000
用户投稿

HTML5怎么制作广告_HTML5用动画与交互制横幅或弹窗广告吸引点击【制作】

可利用HTML5结合CSS3动画、Canvas、Web Animations API、Intersection Observer和video标签制作互动广告：一用@keyframes实现横幅入场动画；二用Canvas绘制并响应悬停；三用Web Animations API控制弹窗时序；四用Inter…

程序猿
2025年12月23日
3000
用户投稿

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
1000
用户投稿

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
4000
用户投稿

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
3000