使用 Polars 计算 DataFrame 的相关矩阵:余弦相似度方法详解

使用 polars 计算 dataframe 的相关矩阵:余弦相似度方法详解

本文档详细介绍了如何使用 Polars 库计算 DataFrame 中各列之间的余弦相似度,并将其以相关矩阵的形式呈现。通过 join_where 方法生成列组合,利用 Polars 表达式计算余弦相似度,最后使用 pivot 方法将结果转换为矩阵形式,方便进行数据分析和挖掘。

前提条件

确保你已经安装了 Polars 库。可以使用 pip 进行安装:

pip install polars

数据准备

首先,我们创建一个 Polars DataFrame,其中包含字符串列 col1 和列表列 col2。col2 列包含数值列表,我们将基于这些列表计算余弦相似度。

import polars as plfrom numpy.linalg import normdata = {    "col1": ["a", "b", "c", "d"],    "col2": [[-0.06066, 0.072485, 0.548874, 0.158507],             [-0.536674, 0.10478, 0.926022, -0.083722],             [-0.21311, -0.030623, 0.300583, 0.261814],             [-0.308025, 0.006694, 0.176335, 0.533835]],}df = pl.DataFrame(data)print(df)

输出:

shape: (4, 2)┌──────┬─────────────────────────────────┐│ col1 ┆ col2                            ││ ---  ┆ ---                             ││ str  ┆ list[f64]                       │╞══════╪═════════════════════════════════╡│ a    ┆ [-0.06066, 0.072485, … 0.15850… ││ b    ┆ [-0.536674, 0.10478, … -0.0837… ││ c    ┆ [-0.21311, -0.030623, … 0.2618… ││ d    ┆ [-0.308025, 0.006694, … 0.5338… │└──────┴─────────────────────────────────┘

生成列组合

为了计算每对列之间的余弦相似度,我们需要生成所有可能的列组合。我们可以使用 join_where 方法来实现这一点。首先,添加一个行索引,然后使用 join_where 将 DataFrame 与自身连接,条件是左侧的索引小于等于右侧的索引,以避免重复计算。

df = df.with_row_index().lazy()combinations_df = df.join_where(df, pl.col("index") <= pl.col("index_right")).collect()print(combinations_df)

输出:

shape: (10, 6)┌───────┬──────┬─────────────────────────────────┬─────────────┬────────────┬─────────────────────────────────┐│ index ┆ col1 ┆ col2                            ┆ index_right ┆ col1_right ┆ col2_right                      ││ ---   ┆ ---  ┆ ---                             ┆ ---         ┆ ---        ┆ ---                             ││ u32   ┆ str  ┆ list[f64]                       ┆ u32         ┆ str        ┆ list[f64]                       │╞═══════╪══════╪═════════════════════════════════╪═════════════╪════════════╪═════════════════════════════════╡│ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 0           ┆ a          ┆ [-0.06066, 0.072485, … 0.15850… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 2     ┆ c    ┆ [-0.21311, -0.030623, … 0.2618… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 2     ┆ c    ┆ [-0.21311, -0.030623, … 0.2618… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 3     ┆ d    ┆ [-0.308025, 0.006694, … 0.5338… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… │└───────┴──────┴─────────────────────────────────┴─────────────┴────────────┴─────────────────────────────────┘

计算余弦相似度

定义一个函数来计算两个向量之间的余弦相似度。 利用 Polars 表达式,我们可以高效地计算余弦相似度。

cosine_similarity = lambda x, y: (    (x * y).list.sum() / (        (x * x).list.sum().sqrt() * (y * y).list.sum().sqrt()    ))

现在,我们可以使用这个函数来计算每对列之间的余弦相似度。

out = (   combinations_df     .select(        col = "col1",        other = "col1_right",        cosine = cosine_similarity(           x = pl.col("col2"),           y = pl.col("col2_right")        )     ))print(out)

输出:

shape: (10, 3)┌─────┬───────┬──────────┐│ col ┆ other ┆ cosine   ││ --- ┆ ---   ┆ ---      ││ str ┆ str   ┆ f64      │╞═════╪═══════╪══════════╡│ a   ┆ a     ┆ 1.0      ││ a   ┆ b     ┆ 0.856754 ││ a   ┆ c     ┆ 0.827877 ││ a   ┆ d     ┆ 0.540282 ││ b   ┆ b     ┆ 1.0      ││ b   ┆ c     ┆ 0.752199 ││ b   ┆ d     ┆ 0.411564 ││ c   ┆ c     ┆ 1.0      ││ c   ┆ d     ┆ 0.889009 ││ d   ┆ d     ┆ 1.0      │└─────┴───────┴──────────┘

转换为相关矩阵

为了将结果转换为相关矩阵的形式,我们需要将上面的结果进行透视。首先,我们需要将 out DataFrame 中 col 和 other 列互换,然后与原始的 out DataFrame 进行垂直拼接,最后使用 pivot 方法进行透视。

result = pl.concat(   [      out,       out.filter(pl.col("col") != pl.col("other")).select(col="other", other="col", cosine="cosine")   ]).collect().pivot(values="cosine", index="col", columns="other")print(result)

输出:

shape: (4, 5)┌─────┬──────────┬──────────┬──────────┬──────────┐│ col ┆ a        ┆ b        ┆ c        ┆ d        ││ --- ┆ ---      ┆ ---      ┆ ---      ┆ ---      ││ str ┆ f64      ┆ f64      ┆ f64      ┆ f64      │╞═════╪══════════╪══════════╪══════════╪══════════╡│ a   ┆ 1.0      ┆ 0.856754 ┆ 0.827877 ┆ 0.540282 ││ b   ┆ 0.856754 ┆ 1.0      ┆ 0.752199 ┆ 0.411564 ││ c   ┆ 0.827877 ┆ 0.752199 ┆ 1.0      ┆ 0.889009 ││ d   ┆ 0.540282 ┆ 0.411564 ┆ 0.889009 ┆ 1.0      │└─────┴──────────┴──────────┴──────────┴──────────┘

现在,result DataFrame 就是我们想要的相关矩阵,其中每个值表示对应列之间的余弦相似度。

总结

本文档介绍了如何使用 Polars 库计算 DataFrame 中各列之间的余弦相似度,并将其以相关矩阵的形式呈现。通过 join_where 方法生成列组合,利用 Polars 表达式计算余弦相似度,最后使用 pivot 方法将结果转换为矩阵形式。这种方法可以应用于各种数据分析和挖掘任务,例如推荐系统、文本相似度计算等。

注意事项:

确保你的 Polars 版本支持列表算术运算。如果你的 Polars 版本低于 1.8.0,请升级到最新版本。在处理大型 DataFrame 时,可以考虑使用 lazy evaluation 来提高性能。余弦相似度是一种常用的相似度度量方法,但它只考虑向量之间的角度,不考虑向量的长度。在某些情况下,可能需要使用其他的相似度度量方法。

以上就是使用 Polars 计算 DataFrame 的相关矩阵:余弦相似度方法详解的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1376961.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 16:22:14
下一篇 2025年12月14日 16:22:33

相关推荐

  • 使用PyPSA和Gurobi求解器设置时间限制

    本文档旨在指导用户如何在PyPSA模型中使用Gurobi求解器时设置时间限制。我们将详细介绍如何配置solver_options参数,以及如何处理求解器因达到时间限制而中断的情况,确保模型在可控的时间范围内求解,并获得可用的次优解。 在PyPSA模型中配置Gurobi求解器的时间限制 在使用PyPS…

    2025年12月14日
    000
  • 如何在PyPSA模型中为Gurobi求解器设置时间限制并正确处理结果

    在PyPSA模型中使用Gurobi求解器时,设置时间限制(TimeLimit)是常见的需求,以控制优化过程的执行时间。然而,直接使用旧版network.lopf方法在时间限制触发后可能导致ValueError: Cannot load a SolverResults object with bad …

    2025年12月14日
    000
  • Python教程:将JSON数组拆分为多个独立文件

    本教程将详细指导如何使用Python高效地将包含多个JSON对象的数组拆分成一系列独立的JSON文件。我们将涵盖从文件或字符串加载JSON数据,并利用json模块和循环结构,为数组中的每个对象生成一个格式化良好的新文件,从而简化大型JSON数据集的处理和管理。 1. 引言:为什么需要拆分JSON文件…

    2025年12月14日
    000
  • Python pathlib 模块:高效提取路径中的当前目录名称

    本教程详细介绍了如何使用 Python 的 pathlib 模块从完整路径中快速提取当前目录的名称。通过利用 pathlib.Path 对象的 .name 属性,开发者可以避免手动字符串处理,以简洁高效的方式获取路径的最后一个组件,从而简化文件系统路径操作。 1. 问题背景:获取当前工作目录名称 在…

    2025年12月14日
    000
  • Polars DataFrame 余弦相似度矩阵的构建方法

    本教程详细介绍了如何在 Polars DataFrame 中高效计算列表类型列之间的余弦相似度,并将其结果转换为一个类似相关系数矩阵的宽格式 DataFrame。文章将通过 join_where 生成数据组合,利用 Polars 原生表达式计算余弦相似度,并最终通过 pivot 操作构建出完整的对称…

    2025年12月14日
    000
  • 使用Polars高效构建余弦相似度矩阵:从数据准备到结果可视化

    本文详细介绍了如何在Polars中计算并构建余弦相似度矩阵。针对Polars的表达式限制,教程首先展示了如何通过with_row_index和join_where生成所有数据对组合,然后利用Polars原生的列表算术和表达式高效地计算余弦相似度,避免了自定义Python函数的性能瓶颈。最后,通过co…

    2025年12月14日
    000
  • 从完整路径中提取当前目录名称:Python pathlib 实践

    本教程旨在指导如何在Python中利用pathlib模块,从一个完整的路径对象中高效地提取出当前(最末级)目录的名称。通过pathlib.Path对象的.name属性,开发者可以简洁、优雅地获取所需目录名,避免手动字符串处理的繁琐与潜在错误,提升代码的可读性和跨平台兼容性。 理解路径与目录名提取的需…

    2025年12月14日
    000
  • 使用 pathlib 模块获取当前目录名称的教程

    本教程详细介绍了如何利用 Python 的 pathlib 模块高效地从完整路径中提取当前工作目录的名称。通过 pathlib.Path.cwd() 获取当前路径对象后,可以直接访问其 .name 属性,从而无需手动解析字符串即可获取目录的名称,极大地简化了路径操作。 1. 理解路径操作的需求 在日…

    2025年12月14日
    000
  • Python Tkinter动画:解决Canvas重复绘制但界面不更新的问题

    在Python Tkinter中实现动态图形更新时,开发者常遇到Canvas内容只更新一次的问题,即使绘制逻辑在循环中正确执行。这通常源于对root.after()和root.update()函数使用不当。本文将深入解析Tkinter的动画机制,指出常见错误,并提供构建高效、持续刷新界面的动画循环的…

    2025年12月14日
    000
  • 解决ObsPy读取SAC文件时的TypeError:版本兼容性指南

    本教程旨在解决使用ObsPy库读取SAC文件时遇到的TypeError: Unknown format for file错误。该问题通常源于ObsPy库的特定版本兼容性问题,尤其是在版本更新后。文章将提供具体的解决方案,即回退到已知稳定的ObsPy版本,并指导如何进行版本管理,确保SAC数据能够被正…

    2025年12月14日
    000
  • 解决QLoRA训练中大批量尺寸导致训练时间过长的问题

    正如文章摘要所述,在使用QLoRA微调openlm-research/open_llama_7b_v2模型时,如果发现增加per_device_train_batch_size反而导致训练时间显著增加,即使GPU内存足够,可能是由于训练步数(max_steps)与epoch设置不当引起的。本文将探讨…

    2025年12月14日
    000
  • python3.5如何安装

    答案:Python 3.5 可在 Windows、macOS 和 Linux 上安装。Windows 用户从官网下载安装包并勾选添加到 PATH;macOS 建议使用官方安装包或 Homebrew 安装;Linux(Ubuntu)可通过 deadsnakes PPA 安装。安装后通过 python3…

    2025年12月14日
    000
  • PySpark XPath 函数:深入理解如何正确提取 XML 元素文本

    本文旨在解决 PySpark 中使用 xpath 函数从 XML 字符串提取元素文本时,结果出现空值数组的常见问题。通过详细的示例代码,我们将阐述如何正确使用 XPath 表达式中的 /text() 指令来准确获取 XML 节点的文本内容,避免数据提取错误,确保 PySpark 数据处理的准确性。 …

    2025年12月14日
    000
  • PySpark中使用XPath从XML字符串提取数据的正确指南

    在使用PySpark的xpath函数从XML字符串中提取数据时,开发者常遇到提取节点文本内容时返回空值数组的问题。本文将深入解析这一常见误区,指出获取节点文本内容需明确使用text()函数,而提取属性值则直接使用@attributeName。通过详细的代码示例,本文将指导您正确地从复杂的XML结构中…

    2025年12月14日
    000
  • PySpark中XPath函数提取XML元素文本内容为Null的解决方案

    在PySpark中使用xpath函数从XML字符串中提取元素内容时,常见问题是返回空值数组。这是因为默认的XPath表达式仅定位到元素节点而非其内部文本。正确的解决方案是在XPath表达式末尾添加/text(),明确指示提取元素的文本内容,从而确保数据被准确解析并避免空值。 1. PySpark中X…

    2025年12月14日
    000
  • PySpark中XPath函数提取XML节点文本内容指南:避免空值数组

    在使用PySpark的xpath函数从XML字符串中提取节点文本内容时,开发者常遇到返回空值数组的问题。本文将深入探讨这一常见误区,解释为何直接指定节点路径无法获取其文本,并提供正确的解决方案:通过在XPath表达式末尾添加/text()来精准定位并提取节点的字符串内容,确保数据能够被正确解析和利用…

    2025年12月14日
    000
  • PySpark中XPath提取XML数据指南:解决文本节点为空的问题

    本文旨在解决PySpark中使用xpath函数从XML字符串提取文本内容时,出现空值数组的问题。核心在于,当需要提取XML元素的文本内容时,必须在XPath表达式末尾明确使用/text()指令,而提取属性值则直接使用@attributeName。文章将通过具体示例代码,详细演示如何在PySpark中…

    2025年12月14日
    000
  • Python中检测符号链接是否指向缺失目录的实用方法

    本教程介绍如何在Python中有效检测符号链接是否指向一个不存在的目录,从而避免FileNotFoundError。核心方法是利用os.path.exists()或pathlib.Path.is_dir()。这些函数在处理符号链接时,会检查其所指向的实际目标路径是否存在,而非符号链接本身,从而帮助开…

    2025年12月14日
    000
  • Python 包管理与虚拟环境最佳实践

    本文旨在帮助开发者理解和掌握 Python 包管理的最佳实践,重点介绍虚拟环境的使用。通过本文,你将了解为什么不应该全局安装 Python 包,以及如何使用 venv 创建和管理独立的 Python 环境,避免依赖冲突,保证项目稳定运行。同时,本文也简要提及了在 root 用户下运行虚拟环境中的 P…

    2025年12月14日
    000
  • 解决余弦相似度始终为 1 的问题:深度解析与实践指南

    本文旨在解决在使用余弦相似度时,结果始终为 1 的问题。通过分析代码示例和模型结构,我们将深入探讨导致此问题的原因,并提供相应的解决方案。理解余弦相似度的本质,以及向量方向和大小的影响,是解决问题的关键。本文将结合 PyTorch 代码示例,帮助读者更好地理解和应用余弦相似度。 余弦相似度的本质 余…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信