使用 Polars 计算 DataFrame 的相关矩阵：余弦相似度方法详解

程序猿 • 2025年12月14日 16:22:23 • 好文分享 • 阅读 0

本文档详细介绍了如何使用 Polars 库计算 DataFrame 中各列之间的余弦相似度，并将其以相关矩阵的形式呈现。通过 join_where 方法生成列组合，利用 Polars 表达式计算余弦相似度，最后使用 pivot 方法将结果转换为矩阵形式，方便进行数据分析和挖掘。

前提条件

确保你已经安装了 Polars 库。可以使用 pip 进行安装：

pip install polars

数据准备

首先，我们创建一个 Polars DataFrame，其中包含字符串列 col1 和列表列 col2。col2 列包含数值列表，我们将基于这些列表计算余弦相似度。

import polars as plfrom numpy.linalg import normdata = {    "col1": ["a", "b", "c", "d"],    "col2": [[-0.06066, 0.072485, 0.548874, 0.158507],             [-0.536674, 0.10478, 0.926022, -0.083722],             [-0.21311, -0.030623, 0.300583, 0.261814],             [-0.308025, 0.006694, 0.176335, 0.533835]],}df = pl.DataFrame(data)print(df)

输出：

shape: (4, 2)┌──────┬─────────────────────────────────┐│ col1 ┆ col2                            ││ ---  ┆ ---                             ││ str  ┆ list[f64]                       │╞══════╪═════════════════════════════════╡│ a    ┆ [-0.06066, 0.072485, … 0.15850… ││ b    ┆ [-0.536674, 0.10478, … -0.0837… ││ c    ┆ [-0.21311, -0.030623, … 0.2618… ││ d    ┆ [-0.308025, 0.006694, … 0.5338… │└──────┴─────────────────────────────────┘

生成列组合

为了计算每对列之间的余弦相似度，我们需要生成所有可能的列组合。我们可以使用 join_where 方法来实现这一点。首先，添加一个行索引，然后使用 join_where 将 DataFrame 与自身连接，条件是左侧的索引小于等于右侧的索引，以避免重复计算。

df = df.with_row_index().lazy()combinations_df = df.join_where(df, pl.col("index") <= pl.col("index_right")).collect()print(combinations_df)

输出：

shape: (10, 6)┌───────┬──────┬─────────────────────────────────┬─────────────┬────────────┬─────────────────────────────────┐│ index ┆ col1 ┆ col2                            ┆ index_right ┆ col1_right ┆ col2_right                      ││ ---   ┆ ---  ┆ ---                             ┆ ---         ┆ ---        ┆ ---                             ││ u32   ┆ str  ┆ list[f64]                       ┆ u32         ┆ str        ┆ list[f64]                       │╞═══════╪══════╪═════════════════════════════════╪═════════════╪════════════╪═════════════════════════════════╡│ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 0           ┆ a          ┆ [-0.06066, 0.072485, … 0.15850… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 2     ┆ c    ┆ [-0.21311, -0.030623, … 0.2618… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 2     ┆ c    ┆ [-0.21311, -0.030623, … 0.2618… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 3     ┆ d    ┆ [-0.308025, 0.006694, … 0.5338… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… │└───────┴──────┴─────────────────────────────────┴─────────────┴────────────┴─────────────────────────────────┘

计算余弦相似度

定义一个函数来计算两个向量之间的余弦相似度。利用 Polars 表达式，我们可以高效地计算余弦相似度。

cosine_similarity = lambda x, y: (    (x * y).list.sum() / (        (x * x).list.sum().sqrt() * (y * y).list.sum().sqrt()    ))

现在，我们可以使用这个函数来计算每对列之间的余弦相似度。

out = (   combinations_df     .select(        col = "col1",        other = "col1_right",        cosine = cosine_similarity(           x = pl.col("col2"),           y = pl.col("col2_right")        )     ))print(out)

输出：

shape: (10, 3)┌─────┬───────┬──────────┐│ col ┆ other ┆ cosine   ││ --- ┆ ---   ┆ ---      ││ str ┆ str   ┆ f64      │╞═════╪═══════╪══════════╡│ a   ┆ a     ┆ 1.0      ││ a   ┆ b     ┆ 0.856754 ││ a   ┆ c     ┆ 0.827877 ││ a   ┆ d     ┆ 0.540282 ││ b   ┆ b     ┆ 1.0      ││ b   ┆ c     ┆ 0.752199 ││ b   ┆ d     ┆ 0.411564 ││ c   ┆ c     ┆ 1.0      ││ c   ┆ d     ┆ 0.889009 ││ d   ┆ d     ┆ 1.0      │└─────┴───────┴──────────┘

转换为相关矩阵

为了将结果转换为相关矩阵的形式，我们需要将上面的结果进行透视。首先，我们需要将 out DataFrame 中 col 和 other 列互换，然后与原始的 out DataFrame 进行垂直拼接，最后使用 pivot 方法进行透视。

result = pl.concat(   [      out,       out.filter(pl.col("col") != pl.col("other")).select(col="other", other="col", cosine="cosine")   ]).collect().pivot(values="cosine", index="col", columns="other")print(result)

输出：

shape: (4, 5)┌─────┬──────────┬──────────┬──────────┬──────────┐│ col ┆ a        ┆ b        ┆ c        ┆ d        ││ --- ┆ ---      ┆ ---      ┆ ---      ┆ ---      ││ str ┆ f64      ┆ f64      ┆ f64      ┆ f64      │╞═════╪══════════╪══════════╪══════════╪══════════╡│ a   ┆ 1.0      ┆ 0.856754 ┆ 0.827877 ┆ 0.540282 ││ b   ┆ 0.856754 ┆ 1.0      ┆ 0.752199 ┆ 0.411564 ││ c   ┆ 0.827877 ┆ 0.752199 ┆ 1.0      ┆ 0.889009 ││ d   ┆ 0.540282 ┆ 0.411564 ┆ 0.889009 ┆ 1.0      │└─────┴──────────┴──────────┴──────────┴──────────┘

现在，result DataFrame 就是我们想要的相关矩阵，其中每个值表示对应列之间的余弦相似度。

总结

本文档介绍了如何使用 Polars 库计算 DataFrame 中各列之间的余弦相似度，并将其以相关矩阵的形式呈现。通过 join_where 方法生成列组合，利用 Polars 表达式计算余弦相似度，最后使用 pivot 方法将结果转换为矩阵形式。这种方法可以应用于各种数据分析和挖掘任务，例如推荐系统、文本相似度计算等。

注意事项：

确保你的 Polars 版本支持列表算术运算。如果你的 Polars 版本低于 1.8.0，请升级到最新版本。在处理大型 DataFrame 时，可以考虑使用 lazy evaluation 来提高性能。余弦相似度是一种常用的相似度度量方法，但它只考虑向量之间的角度，不考虑向量的长度。在某些情况下，可能需要使用其他的相似度度量方法。

以上就是使用 Polars 计算 DataFrame 的相关矩阵：余弦相似度方法详解的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1376961.html

cos

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

在 Docker 镜像中安装并切换多个 Python 版本

上一篇 2025年12月14日 16:22:14

使用循环链表实现音乐播放器：修复删除歌曲功能中的Bug

下一篇 2025年12月14日 16:22:33

好文分享

旋转长方形后，如何计算其相对于画布左上角的轴距？

绘制长方形并旋转，计算旋转后轴距在拥有 1920×1080 画布中，放置一个宽高为 200×20 的长方形，其坐标位于 (100, 100)。当以任意角度旋转长方形时，如何计算它相对于画布左上角的 x、y 轴距？以下代码提供了一个计算旋转后长方形轴距的解决方案： const x = 200;co…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后，如何计算它与画布左上角的xy轴距？

旋转后长方形在画布上的xy轴距计算在画布中添加一个长方形，并将其旋转任意角度，如何计算旋转后的长方形与画布左上角之间的xy轴距？问题分解：要计算旋转后长方形的xy轴距，需要考虑旋转对长方形宽高和位置的影响。首先，旋转会改变长方形的长和宽，其次，旋转会改变长方形的中心点位置。求解方法：计算旋…

程序猿
2025年12月24日
0000
好文分享

旋转长方形后如何计算其在画布上的轴距？

旋转长方形后计算轴距假设长方形的宽、高分别为 200 和 20，初始坐标为 (100, 100)，我们将它旋转一个任意角度。根据旋转矩阵公式，旋转后的新坐标 (x’, y’) 可以通过以下公式计算： x’ = x * cos(θ) – y * sin(θ)y’ = x * …

程序猿
2025年12月24日
0000
好文分享

如何计算旋转后长方形在画布上的轴距？

旋转后长方形与画布轴距计算在给定的画布中，有一个长方形，在随机旋转一定角度后，如何计算其在画布上的轴距，即距离左上角的距离？以下提供一种计算长方形相对于画布左上角的新轴距的方法： const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

程序猿
2025年12月24日
2000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
2000
好文分享

如何计算旋转后的长方形在画布上的 XY 轴距？

旋转长方形后计算其画布xy轴距在创建的画布上添加了一个长方形，并提供其宽、高和初始坐标。为了视觉化旋转效果，还提供了一些旋转特定角度后的图片。问题是如何计算任意角度旋转后，这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。以下是一个 javascript 代码示例，用于计算旋转后长方…

程序猿
2025年12月24日
0000
好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
0000
好文分享

如何相对定位使用 z-index 在小程序中将文字压在图片上？

如何在小程序中不使用绝对定位压住上面的图片？在小程序开发中，有时候需要将文字内容压在图片上，但是又不想使用绝对定位来实现。这种情况可以使用相对定位和 z-index 属性来解决。问题示例：小程序中的代码如下：顶顶顶顶 .index{ width: 100%; height: 100vh;}.…

程序猿
2025年12月24日
0000
好文分享

safari怎么打开html5_Safari浏览器直接输入html5链接自动渲染打开【打开】

Safari中正确渲染HTML5内容需采用file://协议、禁用本地限制、启用HTTP服务器或更新版本并开启实验性功能。具体包括：一、用file:///绝对路径打开本地HTML文件；二、勾选高级设置中的“显示开发菜单”并禁用本地文件限制；三、用Python启动本地HTTP服务，通过http://l…

程序猿
2025年12月23日
0000
好文分享

html标题如何_设置HTML页面标题与层级【层级】

应区分title元素与h1–h6语义标题：title设于head中且唯一，用于浏览器标签和SEO；h1为页面唯一主标题；h2–h6须严格递进嵌套；需用开发者工具验证层级完整性；ARIA仅作布局受限时的语义补充。如果您希望在HTML页面中正确设置页面标题并合理组织内容层级结构，则需要区分页面的标题（…

程序猿
2025年12月23日
0000
好文分享

如何调出html_在浏览器中调出HTML开发者工具【工具】

可通过五种方式调出HTML开发者工具：一、快捷键（Win/Linux用Ctrl+Shift+I，macOS用Cmd+Option+I）；二、右键“检查”元素；三、菜单栏“更多工具→开发者工具”；四、Chrome/Edge中输入chrome://inspect并启用实验功能；五、直接按F12键。如果…

程序猿
2025年12月23日
0000
好文分享

py怎么运行html文件_python运行html文件方法【教程】

使用Python运行HTML文件的方法有三种：一是通过内置http.server模块启动本地服务器，命令为python -m http.server 8000；二是编写Python脚本自动化启动服务器，便于重复使用；三是利用webbrowser模块直接在默认浏览器中打开HTML文件，无需启动服务器。…

程序猿
2025年12月23日
0000
好文分享

html5如何绘制爱心_HTML5绘制爱心图形与Canvas技巧【教程】

绘制爱心有三种方法：一、用Canvas贝塞尔曲线纯代码绘制；二、用极坐标公式转笛卡尔坐标逐点描迹；三、用SVG路径配合CSS实现高效渲染与动效。 2、修改d属性中的路径数据可调整心形比例与曲率。 3、为添加class名，然后在CSS中定义hover变换效果，如缩放或颜色渐变。 4、若需响应式适配，将…

程序猿
2025年12月23日
0000
好文分享

如何对文本添加html_为纯文本添加HTML标签格式【标签】

四种纯文本转HTML方法：一、手动包裹p/h2/strong/ul标签；二、正则批量替换段落、标题、加粗；三、浏览器控制台执行JS分割换行；四、sed/awk命令行处理文件。如果您有一段纯文本内容，需要为其添加标准的 HTML 标签以实现结构化显示（例如段落、加粗、标题等），但又不希望引入复杂框架…

程序猿
2025年12月23日
0000
好文分享

html5如何画时钟_HTML5绘制时钟步骤与动态效果技巧【详解】

需用Canvas API结合requestAnimationFrame实现动态时钟：先建画布并获取2D上下文；再绘表盘、刻度与数字；接着按实时时间计算三针角度并绘制；最后通过递归动画循环与毫秒级偏移确保平滑转动。如果您希望使用HTML5的Canvas API绘制一个具有动态效果的模拟时钟，则需要结…

程序猿
2025年12月23日
0000
好文分享

html5如何绘制爱心_html5绘制爱心教程技巧【Canvas绘制】

可使用贝塞尔曲线或参数方程在HTML5 Canvas中绘制爱心：贝塞尔法通过四段bezierCurveTo拟合轮廓并填充；参数方程法依据x=16sin³t、y=13cost−5cos2t−2cos3t−cos4t采样绘点；动态版添加requestAnimationFrame实现浮动动画。如果您希望…

程序猿
2025年12月23日
0000
好文分享

模拟原生按钮文本选择行为：在DIV元素上实现双击不选中且支持Ctrl+A全选

本文探讨了如何使一个div元素在双击时不选中其内部文本，同时又能响应Ctrl+A进行全选，以精确模拟原生元素的文本选择行为。通过结合CSS的user-select: none默认设置和JavaScript对Ctrl键的动态监听，我们可以在用户按下Ctrl键时临时启用文本选择，并在释放时恢复禁用，从而…

程序猿
2025年12月23日
0000
好文分享

html查看器如何更改_更改HTML查看器的显示设置【显示】

HTML查看器显示异常时，需依次调整字体设置、切换源码/渲染视图、启用行号与语法高亮、自定义CSS样式。具体包括：设置等宽字体与14px以上字号；选择并排或仅渲染模式并开启自动刷新；开启行号和HTML/CSS/JS语法高亮；通过Custom CSS注入背景与文字颜色代码。如果您在使用HTML查看器…

程序猿
2025年12月23日
0000
好文分享

如何创建HTML文件_基础文档编写步骤【入门】

标准HTML文件需以声明开头，嵌套根元素，内含（含、等）和（含、等），保存为.html后缀并用浏览器打开验证。如果您希望创建一个标准的HTML文件并确保其结构符合基本规范，则需要从文档类型声明开始，逐步构建根元素、头部和主体内容。以下是完成此任务的具体步骤：一、选择文本编辑器并新建文件 HTML…

程序猿
2025年12月23日
0000
好文分享

sublime如何编写html_sublime编写html技巧【指南】

高效编写HTML需四步：一、手动设语法为HTML并保存为.html；二、用Emmet缩写（如!+Tab）生成结构；三、依赖自动闭合与标签配对高亮；四、用Ctrl/Cmd多点选中实现多行编辑。如果您希望在 Sublime Text 中高效编写 HTML 代码，但尚未掌握其内置功能与常用技巧，则可能是…

程序猿
2025年12月23日
0000