使用Polars高效构建余弦相似度矩阵：从数据准备到结果可视化

程序猿 • 2025年12月14日 16:08:41 • 好文分享 • 阅读 0

本文详细介绍了如何在Polars中计算并构建余弦相似度矩阵。针对Polars的表达式限制，教程首先展示了如何通过with_row_index和join_where生成所有数据对组合，然后利用Polars原生的列表算术和表达式高效地计算余弦相似度，避免了自定义Python函数的性能瓶颈。最后，通过concat和pivot操作将结果转换为对称的矩阵形式，实现了类似相关矩阵的输出，强调了在Polars中利用原生表达式的重要性。

引言：Polars中余弦相似度矩阵构建的挑战

在数据分析和机器学习中，余弦相似度是一种衡量两个非零向量之间角度的度量，广泛应用于文本相似度、推荐系统等领域。当我们需要计算数据集中所有向量对的余弦相似度并以矩阵形式呈现时，polars作为高性能的数据处理库提供了强大的能力。然而，直接使用python自定义函数（udf）与polars的pivot方法结合时，可能会遇到attributeerror: ‘function’ object has no attribute ‘_pyexpr’等错误，这表明polars的pivot聚合函数期望的是polars的表达式，而非普通的python函数。

本教程将展示如何利用Polars的内置功能和表达式，高效且优雅地构建一个余弦相似度矩阵，避免UDF的限制，并充分发挥Polars的性能优势。

数据准备

首先，我们定义一个包含向量数据的Polars DataFrame。col1作为标识符，col2存储列表形式的向量数据。

import polars as plfrom numpy.linalg import norm # 尽管这里导入了，但后续我们将使用Polars原生表达式data = {    "col1": ["a", "b", "c", "d"],    "col2": [[-0.06066, 0.072485, 0.548874, 0.158507],             [-0.536674, 0.10478, 0.926022, -0.083722],             [-0.21311, -0.030623, 0.300583, 0.261814],             [-0.308025, 0.006694, 0.176335, 0.533835]],}df = pl.DataFrame(data)print("原始DataFrame:")print(df)

输出：

原始DataFrame:shape: (4, 2)┌──────┬─────────────────────────────────┐│ col1 ┆ col2                            ││ ---  ┆ ---                             ││ str  ┆ list[f64]                       │╞══════╪═════════════════════════════════╡│ a    ┆ [-0.06066, 0.072485, … 0.15850… ││ b    ┆ [-0.536674, 0.10478, … -0.0837… ││ c    ┆ [-0.21311, -0.030623, … 0.2618… ││ d    ┆ [-0.308025, 0.006694, … 0.5338… │└──────┴─────────────────────────────────┘

生成所有组合对

要计算所有col1组合之间的余弦相似度，我们需要将DataFrame自身连接，以创建所有可能的向量对。为了避免重复计算（因为余弦相似度是对称的，即sim(a,b) = sim(b,a)），我们可以利用行索引来限制连接条件，只生成上三角部分的组合（包括对角线）。

添加行索引: 使用with_row_index()为每一行添加一个唯一的索引。自连接并过滤: 使用join_where()进行自连接，并通过pl.col.index

# 转换为lazy模式以利用Polars的优化df_lazy = df.with_row_index().lazy()# 生成组合combinations = df_lazy.join_where(df_lazy, pl.col.index <= pl.col.index_right).collect()print("n生成的组合DataFrame:")print(combinations)

输出：

生成的组合DataFrame:shape: (10, 6)┌───────┬──────┬─────────────────────────────────┬─────────────┬────────────┬─────────────────────────────────┐│ index ┆ col1 ┆ col2                            ┆ index_right ┆ col1_right ┆ col2_right                      ││ ---   ┆ ---  ┆ ---                             ┆ ---         ┆ ---        ┆ ---                             ││ u32   ┆ str  ┆ list[f64]                       ┆ u32         ┆ str        ┆ list[f64]                       │╞═══════╪══════╪═════════════════════════════════╪═════════════╪════════════╪═════════════════════════════════╡│ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 0           ┆ a          ┆ [-0.06066, 0.072485, … 0.15850… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 2     ┆ c    ┆ [-0.21311, -0.030623, … 0.2618… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 2     ┆ c    ┆ [-0.21311, -0.030623, … 0.2618… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 3     ┆ d    ┆ [-0.308025, 0.006694, … 0.5338… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… │└───────┴──────┴─────────────────────────────────┴─────────────┴────────────┴─────────────────────────────────┘

现在我们有了所有需要计算相似度的向量对。

使用Polars表达式计算余弦相似度

余弦相似度的公式为：cos(theta) = (A . B) / (||A|| * ||B||)其中：

A . B 是向量A和B的点积。||A|| 是向量A的欧几里得范数（L2范数）。||B|| 是向量B的欧几里得范数。

在Polars中，我们可以利用其强大的表达式系统和列表算术来高效地实现这个公式：

点积: (x * y).list.sum()。Polars的列表算术允许直接对列表中的元素进行逐元素乘法，然后list.sum()计算列表元素的总和。范数: (x * x).list.sum().sqrt()。先将向量元素平方，求和，再开方。

我们可以定义一个lambda函数，它接受两个Polars表达式作为输入，并返回一个表示余弦相似度计算的Polars表达式。

cosine_similarity_expr = lambda x, y: (    (x * y).list.sum() / (        (x * x).list.sum().sqrt() * (y * y).list.sum().sqrt()    ))# 在combinations DataFrame上应用余弦相似度表达式similarity_results = (   combinations.select(        col = "col1",        other = "col1_right",        cosine = cosine_similarity_expr(           x = pl.col.col2,           y = pl.col.col2_right        )     )).collect()print("n余弦相似度计算结果（上三角部分）:")print(similarity_results)

输出：

余弦相似度计算结果（上三角部分）:shape: (10, 3)┌─────┬───────┬──────────┐│ col ┆ other ┆ cosine   ││ --- ┆ ---   ┆ ---      ││ str ┆ str   ┆ f64      │╞═════╪═══════╪══════════╡│ a   ┆ a     ┆ 1.0      ││ a   ┆ b     ┆ 0.856754 ││ a   ┆ c     ┆ 0.827877 ││ a   ┆ d     ┆ 0.540282 ││ b   ┆ b     ┆ 1.0      ││ b   ┆ c     ┆ 0.752199 ││ b   ┆ d     ┆ 0.411564 ││ c   ┆ c     ┆ 1.0      ││ c   ┆ d     ┆ 0.889009 ││ d   ┆ d     ┆ 1.0      │└─────┴───────┴──────────┘

现在我们得到了所有组合的余弦相似度，但它只包含了矩阵的上三角部分。

重塑为对称的相似度矩阵

为了将结果转换为一个完整的对称矩阵，我们需要：

补充下三角部分: 余弦相似度是可交换的，即sim(A,B) = sim(B,A)。我们可以通过反转col和other列来生成下三角部分的数据。合并数据: 将原始结果（上三角）和反转结果（下三角）合并。透视: 使用pivot操作将other列的值作为新列，col作为索引，cosine作为值，从而构建最终的矩阵。

# 补充下三角部分：筛选出 col != other 的行，然后交换 col 和 otherlower_triangle = similarity_results.filter(pl.col.col != pl.col.other).select(    col=pl.col.other,    other=pl.col.col,    cosine=pl.col.cosine)# 合并上三角和下三角数据full_similarity_data = pl.concat([    similarity_results,    lower_triangle])# 使用pivot操作生成最终的矩阵correlation_matrix = full_similarity_data.pivot(    index="col",    columns="other",    values="cosine")print("n最终的余弦相似度矩阵:")print(correlation_matrix)

输出：

最终的余弦相似度矩阵:shape: (4, 5)┌─────┬──────────┬──────────┬──────────┬──────────┐│ col ┆ a        ┆ b        ┆ c        ┆ d        ││ --- ┆ ---      ┆ ---      ┆ ---      ┆ ---      ││ str ┆ f64      ┆ f64      ┆ f64      ┆ f64      │╞═════╪══════════╪══════════╪══════════╪══════════╡│ a   ┆ 1.0      ┆ 0.856754 ┆ 0.827877 ┆ 0.540282 ││ b   ┆ 0.856754 ┆ 1.0      ┆ 0.752199 ┆ 0.411564 ││ c   ┆ 0.827877 ┆ 0.752199 ┆ 1.0      ┆ 0.889009 ││ d   ┆ 0.540282 ┆ 0.411564 ┆ 0.889009 ┆ 1.0      │└─────┴──────────┴──────────┴──────────┴──────────┘

现在我们得到了一个完整的、对称的余弦相似度矩阵，其结构与相关矩阵类似。

总结与注意事项

避免UDFs: 在Polars中，尽可能使用其原生的表达式和方法进行数据操作。自定义Python函数（UDF）通常会导致性能下降，因为它们会强制Polars将数据从其内部优化格式转换到Python对象，然后再转换回来。本教程通过将余弦相似度逻辑完全表达为Polars表达式，避免了这种性能开销。列表算术: Polars的列表（list）类型支持丰富的算术操作和聚合函数（如list.sum()），这使得处理向量数据变得非常方便和高效。join_where的高效性: join_where结合索引条件是生成组合对的强大工具，特别适用于对称关系，可以有效减少需要计算的对数。pivot的灵活性: pivot方法是重塑数据、从长格式转换为宽格式的关键工具，尤其适用于构建矩阵。

通过上述步骤，我们不仅成功地在Polars中构建了余弦相似度矩阵，还展示了如何利用Polars的强大功能和最佳实践来高效处理复杂的数据转换任务。

以上就是使用Polars高效构建余弦相似度矩阵：从数据准备到结果可视化的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376717.html

cos python python函数工具性能瓶颈聚合函数

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Pandas DataFrame中复杂日期字符串的清洗与格式化教程

上一篇 2025年12月14日 16:08:34

无需TensorBoard服务：程序化解析TensorFlow事件日志数据

下一篇 2025年12月14日 16:08:43

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

旋转长方形后，如何计算其相对于画布左上角的轴距？

绘制长方形并旋转，计算旋转后轴距在拥有 1920×1080 画布中，放置一个宽高为 200×20 的长方形，其坐标位于 (100, 100)。当以任意角度旋转长方形时，如何计算它相对于画布左上角的 x、y 轴距？以下代码提供了一个计算旋转后长方形轴距的解决方案： const x = 200;co…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后，如何计算它与画布左上角的xy轴距？

旋转后长方形在画布上的xy轴距计算在画布中添加一个长方形，并将其旋转任意角度，如何计算旋转后的长方形与画布左上角之间的xy轴距？问题分解：要计算旋转后长方形的xy轴距，需要考虑旋转对长方形宽高和位置的影响。首先，旋转会改变长方形的长和宽，其次，旋转会改变长方形的中心点位置。求解方法：计算旋…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后如何计算其在画布上的轴距？

旋转长方形后计算轴距假设长方形的宽、高分别为 200 和 20，初始坐标为 (100, 100)，我们将它旋转一个任意角度。根据旋转矩阵公式，旋转后的新坐标 (x’, y’) 可以通过以下公式计算： x’ = x * cos(θ) – y * sin(θ)y’ = x * …

程序猿
2025年12月24日
0000
好文分享

如何计算旋转后长方形在画布上的轴距？

旋转后长方形与画布轴距计算在给定的画布中，有一个长方形，在随机旋转一定角度后，如何计算其在画布上的轴距，即距离左上角的距离？以下提供一种计算长方形相对于画布左上角的新轴距的方法： const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

程序猿
2025年12月24日
2000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
2000
好文分享

如何计算旋转后的长方形在画布上的 XY 轴距？

旋转长方形后计算其画布xy轴距在创建的画布上添加了一个长方形，并提供其宽、高和初始坐标。为了视觉化旋转效果，还提供了一些旋转特定角度后的图片。问题是如何计算任意角度旋转后，这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。以下是一个 javascript 代码示例，用于计算旋转后长方…

程序猿
2025年12月24日
0000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
0000
好文分享

如何相对定位使用 z-index 在小程序中将文字压在图片上？

如何在小程序中不使用绝对定位压住上面的图片？在小程序开发中，有时候需要将文字内容压在图片上，但是又不想使用绝对定位来实现。这种情况可以使用相对定位和 z-index 属性来解决。问题示例：小程序中的代码如下：顶顶顶顶 .index{ width: 100%; height: 100vh;}.…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

应对性能瓶颈：前端工程师的重绘与回流解决方案

重绘和回流解密：前端工程师如何应对性能瓶颈引言：随着互联网的快速发展，前端工程师的角色越来越重要。他们需要处理用户界面的设计和开发，同时还要关注网站性能的优化。在前端性能优化中，重绘和回流是常见的性能瓶颈。本文将详细介绍重绘和回流的原理，并提供一些实用的代码示例，帮助前端工程师应对性能瓶颈。一、…

程序猿
2025年12月24日
2000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
0000