PyTorch中矩阵运算的向量化与高效实现

程序猿 • 2025年12月14日 15:45:07 • 好文分享 • 阅读 0

本文旨在探讨PyTorch中如何将涉及循环的矩阵操作转换为高效的向量化实现。通过利用PyTorch的广播机制，我们将一个逐元素迭代的矩阵减法和除法求和过程，重构为无需显式循环的张量操作，从而显著提升计算速度和资源利用率。文章将详细介绍向量化解决方案，并讨论数值精度问题。

1. 问题描述与低效实现

在pytorch等深度学习框架中，为了充分利用gpu的并行计算能力，避免使用python原生的循环是至关重要的。当我们需要对一系列张量执行相似的矩阵操作并求和时，一个常见的直觉是使用 for 循环。考虑以下场景：给定两个一维张量 a 和 b，以及一个二维矩阵 a，我们需要计算 a[i] / (a – b[i] * i) 的和，其中 i 是与 a 同尺寸的单位矩阵。

一个直接但效率低下的实现方式如下：

import torchm = 100n = 100b = torch.rand(m)a = torch.rand(m)summation_old = 0.0 # 使用浮点数初始化以避免类型错误A = torch.rand(n, n)for i in range(m):    # 计算 A - b[i] * I    # torch.eye(n) 创建 n x n 的单位矩阵    matrix_term = A - b[i] * torch.eye(n)    # 逐元素除法    summation_old = summation_old + a[i] / matrix_termprint(f"原始循环计算结果的形状: {summation_old.shape}")

这种方法虽然逻辑清晰，但在 m 值较大时，由于Python循环的开销以及每次迭代都需要重新创建单位矩阵并执行独立的矩阵操作，其性能会非常差。

2. 尝试向量化与潜在问题

为了提高效率，通常会考虑使用列表推导式结合 torch.stack 和 torch.sum 来尝试向量化。例如：

# 尝试使用列表推导式和 torch.stack# 注意：这里我们假设 A 和 b, a 已经定义如上# A = torch.rand(n, n)# b = torch.rand(m)# a = torch.rand(m)# 这种方法虽然避免了显式循环求和，但列表推导式本身仍然是Python循环# 并且在内存上可能需要先构建一个完整的中间张量堆栈stacked_results = torch.stack([a[i] / (A - b[i] * torch.eye(n)) for i in range(m)], dim=0)summation_stacked = torch.sum(stacked_results, dim=0)# 验证结果（注意：由于浮点数精度，直接 == 比较通常会失败）# print(f"堆叠向量化计算结果的形状: {summation_stacked.shape}")# print(f"堆叠向量化结果与原始结果是否完全相等: {(summation_stacked == summation_old).all()}")

这种尝试虽然比纯粹的循环求和有所改进，但 [… for i in range(m)] 仍然是一个Python级别的循环，它会生成 m 个 (n, n) 大小的张量，然后 torch.stack 将它们堆叠成一个 (m, n, n) 的张量，最后再进行求和。对于非常大的 m，这可能导致内存效率低下。更重要的是，存在更彻底的向量化方法，可以避免这种中间张量的显式创建。

3. 高效的向量化解决方案：利用广播机制

PyTorch的广播（Broadcasting）机制是实现高效向量化操作的关键。它允许不同形状的张量在某些操作中自动扩展，以匹配彼此的形状。通过巧妙地使用 unsqueeze 和广播，我们可以将上述循环操作完全转化为张量级别的并行操作。

核心思想是：

将 b 中的每个元素 b[i] 视为一个批次维度，并将其与单位矩阵 I 相乘，生成一个批次的 b_i * I 矩阵。将矩阵 A 广播到这个批次维度，使其能与批次的 b_i * I 矩阵进行减法。将 a 中的每个元素 a[i] 同样处理成一个批次维度，并与上述结果进行逐元素除法。最后，沿着批次维度对所有结果进行求和。

以下是详细的实现步骤和代码：

import torchm = 100n = 100b = torch.rand(m)a = torch.rand(m)A = torch.rand(n, n)# 1. 创建批次化的 b_i * I 矩阵# torch.eye(n) 生成 (n, n) 的单位矩阵identity_matrix = torch.eye(n) # 形状: (n, n)# unsqueeze(0) 将 identity_matrix 变为 (1, n, n)，为广播做准备# b.unsqueeze(1).unsqueeze(2) 将 b 变为 (m, 1, 1)，使其能与 (1, n, n) 广播# 结果 B 的形状为 (m, n, n)，其中 B[i, :, :] = b[i] * identity_matrixB_batch = identity_matrix.unsqueeze(0) * b.unsqueeze(1).unsqueeze(2)# 2. 执行 A - b_i * I 操作# A.unsqueeze(0) 将 A 变为 (1, n, n)，使其能与 (m, n, n) 的 B_batch 广播# 结果 A_minus_B 的形状为 (m, n, n)，其中 A_minus_B[i, :, :] = A - b[i] * IA_minus_B = A.unsqueeze(0) - B_batch# 3. 执行 a_i / (A - b_i * I) 操作# a.unsqueeze(1).unsqueeze(2) 将 a 变为 (m, 1, 1)，使其能与 (m, n, n) 的 A_minus_B 广播# 结果 term_batch 的形状为 (m, n, n)，其中 term_batch[i, :, :] = a[i] / (A - b[i] * I)term_batch = a.unsqueeze(1).unsqueeze(2) / A_minus_B# 4. 沿批次维度求和# torch.sum(..., dim=0) 将 (m, n, n) 的张量沿第一个维度（批次维度）求和# 最终结果 summation_new 的形状为 (n, n)summation_new = torch.sum(term_batch, dim=0)print(f"向量化计算结果的形状: {summation_new.shape}")

4. 数值精度注意事项

由于浮点数运算的特性，通过不同计算路径得到的结果，即使在数学上是等价的，也可能在数值上存在微小的差异。因此，直接使用 == 进行比较（例如 (summation_old == summation_new).all()）通常会返回 False。

为了正确地比较两个浮点数张量是否“足够接近”，应该使用 torch.allclose() 函数。它会检查两个张量在给定容忍度内是否接近。

# 假设 summation_old 和 summation_new 已经通过上述方法计算得到# 验证两个结果是否在数值上接近is_close = torch.allclose(summation_old, summation_new)print(f"原始循环结果与向量化结果在数值上是否接近: {is_close}")# 可以通过设置 rtol (相对容忍度) 和 atol (绝对容忍度) 来调整比较的严格性# is_close_strict = torch.allclose(summation_old, summation_new, rtol=1e-05, atol=1e-08)# print(f"在更严格的容忍度下是否接近: {is_close_strict}")

通常情况下，torch.allclose 返回 True 表示两种方法在实际应用中是等效的。

5. 总结与最佳实践

本文展示了如何将PyTorch中的循环矩阵操作高效地向量化。通过利用PyTorch的广播机制和 unsqueeze 操作，我们可以将原本需要 m 次迭代的计算，转换为一次并行化的张量操作。这种方法具有以下显著优势：

性能提升： 显著减少了Python循环的开销，充分利用了底层C++和CUDA的并行计算能力。内存效率： 避免了创建大量的中间张量列表，尤其是在批处理维度较大时。代码简洁性： 向量化代码通常更简洁、更易于阅读和维护。GPU利用率： 更容易将计算卸载到GPU，从而实现更快的训练和推理速度。

在PyTorch开发中，始终优先考虑向量化操作而非显式Python循环，是编写高性能代码的关键最佳实践。当遇到需要对批次数据或多个元素执行相同操作时，思考如何通过 unsqueeze、expand、repeat 和广播来重塑张量，是实现高效计算的有效途径。

以上就是PyTorch中矩阵运算的向量化与高效实现的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376260.html

c++python pytorch 栈深度学习

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

将一维数组索引高效转换为三维坐标的教程

上一篇 2025年12月14日 15:45:00

BottlePy教程：在根路径下高效提供静态文件并避免路由冲突

下一篇 2025年12月14日 15:45:16

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

构建模拟：从头开始的实时交易模拟器

简介嘿，开发社区！我很高兴分享我的业余项目 Simul8or – 一个实时日间交易模拟器，旨在为用户提供一个无风险的环境来练习交易策略。该项目 100% 构建在 ASP.NET WebForms、C#、JavaScript、CSS 和 SQL Server 技术堆栈上，没有外部库或框架。从头开始构…

程序猿
2025年12月24日
3000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

css和c的区别是什么

区别是：1、C语言是一门面向过程、抽象化的通用程序设计语言、计算机编程语言，广泛应用于底层开发；2、CSS是一种用来表现HTML或XML等文件样式的计算机语言，可以做到网页和内容进行分离的一种样式语言。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell G3电…

程序猿
2025年12月24日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

HTML5怎么制作广告_HTML5用动画与交互制横幅或弹窗广告吸引点击【制作】

可利用HTML5结合CSS3动画、Canvas、Web Animations API、Intersection Observer和video标签制作互动广告：一用@keyframes实现横幅入场动画；二用Canvas绘制并响应悬停；三用Web Animations API控制弹窗时序；四用Inter…

程序猿
2025年12月23日
0000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
0000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
0000
好文分享

html5怎么找颜色_html5用取色器或CSS命名如red快速找对应颜色【查找】

可通过浏览器开发者工具取色、CSS命名颜色对照表、在线十六进制颜色查找工具及CSS自定义属性验证四种方法快速定位颜色值对应的实际色彩效果。如果您在HTML5开发中需要快速定位某个颜色值对应的实际色彩效果，可以通过取色器工具或CSS预定义颜色名称来识别。以下是查找颜色的具体操作方法：一、使用浏览器…

程序猿
2025年12月23日
0000
好文分享

html5怎么控制字体_HTML5用CSS font-family/weight/size控字体样式【控制】

可通过CSS的font-family、font-weight、font-size等属性精确控制HTML5文字外观：font-family设字体栈并兜底通用族；font-weight用数值或关键字设字重；font-size支持绝对/相对单位；font简写需固定顺序且必含font-size和font-f…

程序猿
2025年12月23日
0000
好文分享

safari怎么打开html5_Safari浏览器直接输入html5链接自动渲染打开【打开】

Safari中正确渲染HTML5内容需采用file://协议、禁用本地限制、启用HTTP服务器或更新版本并开启实验性功能。具体包括：一、用file:///绝对路径打开本地HTML文件；二、勾选高级设置中的“显示开发菜单”并禁用本地文件限制；三、用Python启动本地HTTP服务，通过http://l…

程序猿
2025年12月23日
0000
好文分享

html5怎么显示文字_html5用p/span等标签加CSS设样式显示文字【显示】

要在HTML5页面中正确显示文字，需用语义化标签（如p、span）并配合CSS设置字体、颜色、尺寸等样式，确保可见性、可访问性及响应式适配。如果您希望在HTML5页面中正确显示文字，需使用语义化标签并配合CSS控制样式。以下是实现文字显示的具体方法：一、使用p标签显示段落文字 p标签用于定义段落…

程序猿
2025年12月23日
0000