使用 Polars 计算 DataFrame 的相关矩阵:余弦相似度方法详解

使用 polars 计算 dataframe 的相关矩阵:余弦相似度方法详解

本文档详细介绍了如何使用 Polars 库计算 DataFrame 中各列之间的余弦相似度,并将其以相关矩阵的形式呈现。通过 join_where 方法生成列组合,利用 Polars 表达式计算余弦相似度,最后使用 pivot 方法将结果转换为矩阵形式,方便进行数据分析和挖掘。

前提条件

确保你已经安装了 Polars 库。可以使用 pip 进行安装:

pip install polars

数据准备

首先,我们创建一个 Polars DataFrame,其中包含字符串列 col1 和列表列 col2。col2 列包含数值列表,我们将基于这些列表计算余弦相似度。

import polars as plfrom numpy.linalg import normdata = {    "col1": ["a", "b", "c", "d"],    "col2": [[-0.06066, 0.072485, 0.548874, 0.158507],             [-0.536674, 0.10478, 0.926022, -0.083722],             [-0.21311, -0.030623, 0.300583, 0.261814],             [-0.308025, 0.006694, 0.176335, 0.533835]],}df = pl.DataFrame(data)print(df)

输出:

shape: (4, 2)┌──────┬─────────────────────────────────┐│ col1 ┆ col2                            ││ ---  ┆ ---                             ││ str  ┆ list[f64]                       │╞══════╪═════════════════════════════════╡│ a    ┆ [-0.06066, 0.072485, … 0.15850… ││ b    ┆ [-0.536674, 0.10478, … -0.0837… ││ c    ┆ [-0.21311, -0.030623, … 0.2618… ││ d    ┆ [-0.308025, 0.006694, … 0.5338… │└──────┴─────────────────────────────────┘

生成列组合

为了计算每对列之间的余弦相似度,我们需要生成所有可能的列组合。我们可以使用 join_where 方法来实现这一点。首先,添加一个行索引,然后使用 join_where 将 DataFrame 与自身连接,条件是左侧的索引小于等于右侧的索引,以避免重复计算。

df = df.with_row_index().lazy()combinations_df = df.join_where(df, pl.col("index") <= pl.col("index_right")).collect()print(combinations_df)

输出:

shape: (10, 6)┌───────┬──────┬─────────────────────────────────┬─────────────┬────────────┬─────────────────────────────────┐│ index ┆ col1 ┆ col2                            ┆ index_right ┆ col1_right ┆ col2_right                      ││ ---   ┆ ---  ┆ ---                             ┆ ---         ┆ ---        ┆ ---                             ││ u32   ┆ str  ┆ list[f64]                       ┆ u32         ┆ str        ┆ list[f64]                       │╞═══════╪══════╪═════════════════════════════════╪═════════════╪════════════╪═════════════════════════════════╡│ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 0           ┆ a          ┆ [-0.06066, 0.072485, … 0.15850… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 0     ┆ a    ┆ [-0.06066, 0.072485, … 0.15850… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 1           ┆ b          ┆ [-0.536674, 0.10478, … -0.0837… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 1     ┆ b    ┆ [-0.536674, 0.10478, … -0.0837… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 2     ┆ c    ┆ [-0.21311, -0.030623, … 0.2618… ┆ 2           ┆ c          ┆ [-0.21311, -0.030623, … 0.2618… ││ 2     ┆ c    ┆ [-0.21311, -0.030623, … 0.2618… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… ││ 3     ┆ d    ┆ [-0.308025, 0.006694, … 0.5338… ┆ 3           ┆ d          ┆ [-0.308025, 0.006694, … 0.5338… │└───────┴──────┴─────────────────────────────────┴─────────────┴────────────┴─────────────────────────────────┘

计算余弦相似度

定义一个函数来计算两个向量之间的余弦相似度。 利用 Polars 表达式,我们可以高效地计算余弦相似度。

cosine_similarity = lambda x, y: (    (x * y).list.sum() / (        (x * x).list.sum().sqrt() * (y * y).list.sum().sqrt()    ))

现在,我们可以使用这个函数来计算每对列之间的余弦相似度。

out = (   combinations_df     .select(        col = "col1",        other = "col1_right",        cosine = cosine_similarity(           x = pl.col("col2"),           y = pl.col("col2_right")        )     ))print(out)

输出:

shape: (10, 3)┌─────┬───────┬──────────┐│ col ┆ other ┆ cosine   ││ --- ┆ ---   ┆ ---      ││ str ┆ str   ┆ f64      │╞═════╪═══════╪══════════╡│ a   ┆ a     ┆ 1.0      ││ a   ┆ b     ┆ 0.856754 ││ a   ┆ c     ┆ 0.827877 ││ a   ┆ d     ┆ 0.540282 ││ b   ┆ b     ┆ 1.0      ││ b   ┆ c     ┆ 0.752199 ││ b   ┆ d     ┆ 0.411564 ││ c   ┆ c     ┆ 1.0      ││ c   ┆ d     ┆ 0.889009 ││ d   ┆ d     ┆ 1.0      │└─────┴───────┴──────────┘

转换为相关矩阵

为了将结果转换为相关矩阵的形式,我们需要将上面的结果进行透视。首先,我们需要将 out DataFrame 中 col 和 other 列互换,然后与原始的 out DataFrame 进行垂直拼接,最后使用 pivot 方法进行透视。

result = pl.concat(   [      out,       out.filter(pl.col("col") != pl.col("other")).select(col="other", other="col", cosine="cosine")   ]).collect().pivot(values="cosine", index="col", columns="other")print(result)

输出:

shape: (4, 5)┌─────┬──────────┬──────────┬──────────┬──────────┐│ col ┆ a        ┆ b        ┆ c        ┆ d        ││ --- ┆ ---      ┆ ---      ┆ ---      ┆ ---      ││ str ┆ f64      ┆ f64      ┆ f64      ┆ f64      │╞═════╪══════════╪══════════╪══════════╪══════════╡│ a   ┆ 1.0      ┆ 0.856754 ┆ 0.827877 ┆ 0.540282 ││ b   ┆ 0.856754 ┆ 1.0      ┆ 0.752199 ┆ 0.411564 ││ c   ┆ 0.827877 ┆ 0.752199 ┆ 1.0      ┆ 0.889009 ││ d   ┆ 0.540282 ┆ 0.411564 ┆ 0.889009 ┆ 1.0      │└─────┴──────────┴──────────┴──────────┴──────────┘

现在,result DataFrame 就是我们想要的相关矩阵,其中每个值表示对应列之间的余弦相似度。

总结

本文档介绍了如何使用 Polars 库计算 DataFrame 中各列之间的余弦相似度,并将其以相关矩阵的形式呈现。通过 join_where 方法生成列组合,利用 Polars 表达式计算余弦相似度,最后使用 pivot 方法将结果转换为矩阵形式。这种方法可以应用于各种数据分析和挖掘任务,例如推荐系统、文本相似度计算等。

注意事项:

确保你的 Polars 版本支持列表算术运算。如果你的 Polars 版本低于 1.8.0,请升级到最新版本。在处理大型 DataFrame 时,可以考虑使用 lazy evaluation 来提高性能。余弦相似度是一种常用的相似度度量方法,但它只考虑向量之间的角度,不考虑向量的长度。在某些情况下,可能需要使用其他的相似度度量方法。

以上就是使用 Polars 计算 DataFrame 的相关矩阵:余弦相似度方法详解的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1376961.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
在 Docker 镜像中安装并切换多个 Python 版本
上一篇 2025年12月14日 16:22:14
使用循环链表实现音乐播放器:修复删除歌曲功能中的Bug
下一篇 2025年12月14日 16:22:33

相关推荐

  • Golang使用Protobuf定义接口与消息格式

    Protobuf通过字段编号实现兼容性,新增字段可忽略、删除字段可保留编号,确保新旧版本互操作,支持服务独立演进。 在Golang项目中,利用Protobuf定义接口和消息格式,本质上是为服务间通信构建了一套高效、类型安全且跨语言的契约。它让数据结构清晰可见,RPC调用标准化,极大地简化了分布式系统…

    2026年5月10日
    000
  • HTML文档如何工作?如何编辑HTML格式文件?

    HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?HTML文档如何工作?如何编辑HTML格式文件?

    浏览器解析和渲染html的过程包括:1. 解析html构建dom树;2. 结合css构建渲染树;3. 布局计算元素位置;4. 绘制像素到屏幕。编辑html可使用记事本、vs code、sublime text等文本或代码编辑器,其中vs code因语法高亮、自动补全和插件生态成为主流选择。标准htm…

    2026年5月10日 用户投稿
    000
  • php代码如何操作JSON数据_php代码解析和生成JSON的方法

    答案:PHP中处理JSON需使用json_encode()和json_decode()函数。1、将数组转为JSON字符串时,用json_encode()并检查返回值是否为false;2、解析JSON字符串时,调用json_decode()并设第二参数为true返回数组,false则返回对象;3、处理…

    2026年5月10日
    000
  • 解决Python脚本中相对路径文件找不到的常见问题与策略

    本文旨在解决python脚本中因相对路径处理不当导致的文件找不到错误,尤其是在项目迁移后。文章将深入探讨python中相对路径的工作原理、当前工作目录(cwd)的影响,并提供使用`os.getcwd()`诊断问题以及利用`os.path.dirname(__file__)`结合`os.path.jo…

    2026年5月10日
    000
  • Golang如何提升TCP长连接处理效率_Golang TCP长连接处理性能优化实践详解

    答案:通过非阻塞I/O、单Goroutine双工模型、sync.Pool对象复用、TCP_NODELAY优化及高效心跳管理,结合系统调优,可显著提升Golang百万级TCP长连接处理效率。 在高并发网络服务场景中,TCP长连接的处理效率直接影响系统的吞吐能力和资源消耗。Golang凭借其轻量级Gor…

    2026年5月10日
    000
  • Go语言:检查预编译库的构建版本与平台信息

    本文详细介绍了如何利用go语言内置的`go tool pack`工具,从预编译的go静态库(`.a`文件)中提取其构建信息,包括go编译器版本、操作系统和cpu架构。当`go build`因库版本不匹配而失败时,此方法能帮助开发者准确诊断问题,确保构建环境与库的兼容性。 在Go语言的开发实践中,我们…

    2026年5月10日
    000
  • C++内存检测工具 Valgrind使用实践指南

    Valgrind是一款主要用于Linux和macOS的内存调试工具,可检测内存泄漏、越界访问、未初始化内存使用等问题,通过memcheck工具结合–leak-check=full、–track-origins=yes等选项进行详细分析,需编译时添加-g选项以支持调试信息,虽然…

    2026年5月10日
    000
  • Python官网函数库的深入学习_Python官网标准库高级用法解析

    掌握Python标准库高级用法需深入functools、itertools、subprocess、pathlib和concurrent.futures模块:1. functools的@lru_cache可缓存递归结果提升性能;2. itertools提供product、groupby和cycle等工…

    2026年5月10日
    000
  • 如何对齐包含用户登录数据的纯文本文件中的列?

    对齐文本文件中的列 问题: 如何对齐包含用户登录数据的纯文本文件中的列?文本数据如下: dtrapani hcpd-epd-3687 mon 05/13/2013 9:47:01.72dlibby hcpd-cos-4611 mon 05/13/2013 9:49:34.55lmurdoch hcp…

    2026年5月10日
    000
  • 微服务中的配置漂移如何防止?

    防止配置漂移需统一管理、版本控制和自动化;2. 使用配置中心集中存储配置,实现动态刷新与权限控制;3. 配置与代码分离并纳入Git,支持审计与CI/CD集成;4. 保持多环境配置结构一致,通过模板生成差异值;5. 容器化与IaC实现不可变基础设施,杜绝手动修改。 微服务架构中,配置漂移指的是不同环境…

    2026年5月10日
    200
  • 怎样为C++配置跨平台GUI环境 Qt6与CMake集成开发方案

    怎样为C++配置跨平台GUI环境 Qt6与CMake集成开发方案怎样为C++配置跨平台GUI环境 Qt6与CMake集成开发方案怎样为C++配置跨平台GUI环境 Qt6与CMake集成开发方案怎样为C++配置跨平台GUI环境 Qt6与CMake集成开发方案

    为c++make配置qt6跨平台gui环境,核心在于利用qt6模块化特性和cmake自动化构建流程。具体步骤如下:1. 安装qt6并选择对应编译器及所需模块;2. 创建cmakelists.txt文件,设定项目信息、c++标准,并使用find_package查找qt6模块;3. 使用qt_add_e…

    2026年5月10日 用户投稿
    000
  • Python 3.11+ 异常处理机制:深入理解 ExceptionTable

    Python 3.11 引入了“零成本”异常处理机制,通过 ExceptionTable 替换了早期版本中基于运行时块栈的异常处理方式。这一改进显著提升了程序在无异常发生时的执行效率,将异常处理的开销降至最低。本文将详细解析 ExceptionTable 的作用、如何在 dis 模块输出中解读它,以…

    2026年5月10日
    000
  • Golang微服务版本管理与灰度发布方法

    Golang微服务通过语义化版本、Git分支策略、Docker镜像标签和API版本控制实现规范版本管理,并借助服务网格或注册中心实现灰度发布,结合监控与回滚机制确保上线稳定。 微服务在现代架构中广泛应用,Golang因其高性能和简洁语法成为微服务开发的热门选择。随着服务数量增长,版本管理和灰度发布变…

    2026年5月10日
    000
  • Go语言:高效移除字符串后缀或文件扩展名

    本文详细介绍了在Go语言中如何使用strings.TrimSuffix和filepath.Ext函数,安全且高效地从字符串中移除文件扩展名。通过示例代码,读者将学习如何提取文件的基础名称,并了解处理不同文件命名情况的注意事项。 在go语言的日常开发中,我们经常会遇到需要处理文件路径或文件名字符串的场…

    2026年5月10日
    000
  • Golang微服务健康检查与自动恢复技巧

    Golang微服务通过/healthz端点实现健康检查,返回200或500状态码;2. 检查内容包括服务状态、依赖连接和资源使用;3. 与Consul或Kubernetes联动,利用liveness/readiness探针触发恢复;4. 内置自愈逻辑如协程重启、连接重连,配合退避策略;5. 健康检查…

    2026年5月10日
    000
  • 如何调试C++中的”access violation”异常?

    如何调试C++中的”access violation”异常?如何调试C++中的”access violation”异常?如何调试C++中的”access violation”异常?如何调试C++中的”access violation”异常?

    遇到“access violation”异常时,应从指针问题、数组越界、调试工具和多线程安全四方面排查。1. 检查指针是否为空或未初始化,使用前判断有效性,释放后置为 nullptr,优先使用智能指针;2. 查看是否有数组越界访问,尽量使用 std::vector 或 at() 方法替代原生数组;3…

    2026年5月10日 用户投稿
    000
  • sublime如何搭建Vue开发环境 sublime配置Vue语法高亮指南

    安装package control并重启sublime text;2. 通过命令面板安装vue syntax highlight插件;3. 手动设置.vue文件默认使用vue syntax highlight语法;4. 可选但推荐安装emmet、sublimelinter-eslint、jspret…

    2026年5月10日
    000
  • 解决 Node.js 连接本地 MongoDB 后程序卡死的问题

    本文旨在帮助开发者解决 Node.js 应用连接本地 MongoDB 数据库时,程序在建立连接后卡死的问题。通过分析可能的原因,并提供相应的解决方案,确保 Node.js 应用能够稳定可靠地与 MongoDB 数据库进行交互。文章将涵盖数据库连接配置、端口冲突、跨平台兼容性等方面,并提供代码示例进行…

    2026年5月10日
    000
  • macOS下PyTorch安装成功却提示ModuleNotFoundError,如何排查?

    macOS下PyTorch安装失败排查指南 在macOS系统上,即使使用pip install torch成功安装PyTorch,仍然可能遇到ModuleNotFoundError错误。这通常是因为系统中存在多个Python环境,导致PyTorch安装在错误的环境中。 本文将指导您如何排查此问题,确…

    2026年5月10日
    000
  • C++使用Makefile管理项目环境搭建方法

    答案:Makefile通过定义编译规则、依赖关系和目标实现C++项目的自动化构建,支持增量编译、依赖管理、跨平台兼容及并行编译,利用变量、模式规则、自动依赖生成和条件判断等特性提升构建效率与可维护性。 C++项目环境搭建,尤其是在没有集成开发环境(IDE)的辅助下,或者需要更精细、可控的构建过程时,…

    用户投稿 2026年5月10日
    000

发表回复

登录后才能评论
关注微信