Polars中利用列值作为字典键进行数据过滤的策略与实践

Polars中利用列值作为字典键进行数据过滤的策略与实践

本文探讨了在polars中尝试使用列值作为字典键时遇到的`typeerror: unhashable type: ‘expr’`错误及其解决方案。核心问题在于polars表达式无法直接作为python字典的键。文章提供了两种主要策略:一是利用`map_elements`进行行级别转换,直接实现字典查找,但效率相对较低;二是推荐通过扁平化嵌套字典并与主dataframe进行连接(join)操作,这是一种更符合polars高性能特性的优化方法,能够显著提升数据过滤的效率和可维护性。

在Polars数据处理中,我们经常需要根据DataFrame中某一列或多列的值去查找外部Python字典中的对应数据。然而,直接将Polars的列表达式(如pl.col(“cliente”))作为Python字典的键使用,会导致TypeError: unhashable type: ‘Expr’错误。这是因为pl.col()返回的是一个Polars表达式对象,而非具体的、可哈希的值,Python字典无法将其作为键进行查找。本教程将详细介绍如何优雅且高效地解决这一问题。

理解问题根源:表达式的不可哈希性

当我们尝试执行类似以下代码时:

# 假设 nested_dict 是一个嵌套字典# 例如: nested_dict = {'A': {'X': 10, 'Y': 20}, 'B': {'X': 30, 'Y': 40}}# 假设 df_x 包含 'cliente', 'cluster', 'score' 列df_x = (    df_x    .filter(pl.col("score") == nested_dict[pl.col("cliente")][pl.col("cluster")]))

nested_dict[pl.col(“cliente”)]会尝试使用pl.col(“cliente”)这个Polars表达式对象作为字典的键。由于Polars表达式是代表计算逻辑的对象,而非具体的数据值,它不具备Python字典键所需的哈希性,因此会抛出TypeError: unhashable type: ‘Expr’。

为了解决这个问题,我们需要确保在字典查找发生时,pl.col()表达式已经被解析为实际的列值。

解决方案一:使用 map_elements 进行行级别转换

一种直接但效率可能不高的解决方案是利用Polars的map_elements方法。map_elements允许我们将一个Python函数应用到Polars Series的每个元素上,从而在Python环境中解析列值并进行字典查找。

为了处理嵌套字典,我们首先需要将涉及到的多列(例如cliente和cluster)组合成一个结构体(struct),然后对这个结构体应用map_elements。

import polars as pl# 示例数据df_x = pl.DataFrame({    "cliente": ["A", "A", "B", "B", "C"],    "cluster": ["X", "Y", "X", "Y", "X"],    "score": [10, 20, 30, 45, 100]})nested_dict = {    'A': {'X': 10, 'Y': 20},    'B': {'X': 30, 'Y': 40},    'C': {'X': 50, 'Y': 60}}# 使用 map_elements 进行过滤filtered_df_map = (    df_x    .filter(        pl.col('score').eq(            pl.struct('cliente', 'cluster')                .map_elements(lambda x: (                    nested_dict[x['cliente']][x['cluster']]                    ), return_dtype=pl.Int64) # 指定返回类型        )    ))print("使用 map_elements 过滤结果:")print(filtered_df_map)

解释:

pl.struct(‘cliente’, ‘cluster’) 将 cliente 和 cluster 两列打包成一个结构体Series。.map_elements(lambda x: nested_dict[x[‘cliente’]][x[‘cluster’]], return_dtype=pl.Int64) 对这个结构体Series的每个元素(即每一行对应的 {‘cliente’: val1, ‘cluster’: val2} 字典)应用一个匿名函数。在匿名函数内部,x[‘cliente’] 和 x[‘cluster’] 已经解析为具体的Python值,可以安全地作为nested_dict的键进行查找。return_dtype 参数非常重要,它告诉Polars map_elements 函数返回的数据类型,有助于Polars进行类型推断和优化。

注意事项:map_elements 虽然解决了问题,但它会在Polars的优化器之外调用Python函数,这会引入Python解释器的开销。对于大型数据集,这种方法可能不是最高效的,因为它无法充分利用Polars的向量化和并行计算能力。

怪兽AI数字人 怪兽AI数字人

数字人短视频创作,数字人直播,实时驱动数字人

怪兽AI数字人 44 查看详情 怪兽AI数字人

解决方案二:优化方法 – 扁平化字典并进行连接(Join)

更符合Polars高性能哲学的做法是将外部的嵌套字典转换为一个Polars DataFrame,然后通过连接(join)操作将其与主DataFrame关联起来。这种方法将字典查找转换为DataFrame之间的列匹配,从而能够利用Polars的优化查询引擎。

步骤一:扁平化嵌套字典

首先,我们需要将 nested_dict 转换为一个扁平的Polars DataFrame,其中包含 cliente、cluster 和对应的 cluster_value 列。

# 扁平化嵌套字典df_nested_prelim = pl.from_dict(nested_dict)df_nested_parts = []for col_name in df_nested_prelim.columns:    df_nested_parts.append(        df_nested_prelim.lazy()        .select(pl.col(col_name).alias("cluster_data")) # 重命名,避免unnest后列名冲突        .unnest("cluster_data") # 展开内部字典        .unpivot(index_columns=[], variable_name='cluster', value_name='cluster_value') # 将cluster键转换为行        .with_columns(cliente=pl.lit(col_name)) # 添加cliente列    )df_nested = pl.concat(df_nested_parts).collect()print("\n扁平化后的字典DataFrame:")print(df_nested)

解释:

pl.from_dict(nested_dict) 将顶层字典键(A, B, C)转换为列名,内部字典作为单元格值。循环遍历这些列:.select(pl.col(col_name).alias(“cluster_data”)) 选取当前列并重命名为 cluster_data。.unnest(“cluster_data”) 将 cluster_data 列中的嵌套字典展开成新的列(X, Y)。.unpivot(index_columns=[], variable_name=’cluster’, value_name=’cluster_value’) 是关键一步,它将展开后的 X, Y 等列转换为行,cluster 列存储原列名(X或Y),cluster_value 存储对应的值。index_columns=[] 表示所有列都参与unpivot。.with_columns(cliente=pl.lit(col_name)) 添加 cliente 列,其值为当前循环的顶层字典键。pl.concat(df_nested_parts).collect() 将所有扁平化后的部分DataFrame合并成一个完整的DataFrame。

步骤二:使用 join 进行过滤

现在,我们有了主DataFrame df_x 和扁平化的字典DataFrame df_nested。我们可以通过在 cliente 和 cluster 列上进行内连接(join),然后基于连接结果进行过滤。

# 使用 join 进行过滤filtered_df_join = (    df_x    .join(df_nested, on=['cliente', 'cluster'], how='inner') # 内连接,只保留匹配项    .filter(pl.col('score') == pl.col('cluster_value')) # 过滤条件    .select(df_x.columns) # 只保留原始 df_x 的列)print("\n使用 join 过滤结果:")print(filtered_df_join)

解释:

df_x.join(df_nested, on=[‘cliente’, ‘cluster’], how=’inner’) 将 df_x 与 df_nested 基于 cliente 和 cluster 两列进行内连接。这意味着只有在两张表中 cliente 和 cluster 值都匹配的行才会被保留。filter(pl.col(‘score’) == pl.col(‘cluster_value’)) 过滤连接后的结果,只保留 score 列与 cluster_value 列(来自扁平化字典)相等。.select(df_x.columns) 这一步是可选的,用于确保最终输出的DataFrame只包含 df_x 的原始列,去除 join 操作可能引入的额外列(如 cluster_value)。

总结与建议

在Polars中利用列值作为字典键进行数据过滤时,直接使用pl.col()表达式会导致类型错误。我们有两种主要解决方案:

map_elements 方法: 适用于逻辑复杂、涉及少量数据或对性能要求不高的场景。它提供了直接的Python函数集成能力,但会牺牲部分Polars的性能优势。扁平化字典并 join 方法: 这是处理此类问题的推荐方法,尤其适用于大型数据集和对性能有严格要求的场景。它将Python字典查找转换为Polars的DataFrame操作,充分利用了Polars的向量化、并行化和查询优化能力,从而实现更高的效率和更好的可扩展性。

在实际开发中,应优先考虑将外部查找数据转换为Polars DataFrame,并通过连接操作进行数据关联,以最大限度地发挥Polars的性能潜力。

以上就是Polars中利用列值作为字典键进行数据过滤的策略与实践的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/597387.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
揭秘荣耀9X(享受长久的电量体验)
上一篇 2025年11月10日 18:51:05
SQL备份操作步骤深度解析_SQL数据库备份流程的优化与管理技巧
下一篇 2025年11月10日 18:51:15

相关推荐

  • Matplotlib 地图中多类型图例的创建与优化

    Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化

    本教程旨在解决matplotlib地图可视化中,如何在一个图例中同时展示颜色块(如区域分类)和自定义标记(如特定兴趣点)的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时,如何利用`matplotlib.lines.line2d`创建标记图例句柄,并将其与颜色块图例句柄合并,从而生成一…

    2026年5月10日 用户投稿
    100
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    100
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • RichHandler与Rich Progress集成:解决显示冲突的教程

    在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 深入理解 Express.js 中 next() 参数的作用与中间件机制

    本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序,以及不正确使用 `next()` 可能导致请求挂起的风险,并通过代码示例和实际应用场景,…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • Python递归函数追踪与性能考量:以序列打印为例

    本文深入探讨了Python中一种递归打印序列元素的方法,并着重演示了如何通过引入缩进参数来有效追踪递归函数的执行流程和参数变化。通过实际代码示例,文章揭示了递归调用可能带来的潜在性能开销,特别是对调用栈空间的需求,以及Python默认递归深度限制可能导致的错误,为读者提供了理解和优化递归算法的实用见…

    2026年5月10日
    000
  • python中zip函数详解 python多序列压缩zip函数应用场景

    zip函数的应用场景包括:1) 同时遍历多个序列,2) 合并多个列表的数据,3) 数据分析和科学计算中的元素运算,4) 处理csv文件,5) 性能优化。zip函数是一个强大的工具,能够简化代码并提高处理多个序列时的效率。 在Python中,zip函数是一个非常有用的工具,它能够将多个可迭代对象打包成…

    2026年5月10日
    000
  • html5怎么画实线_HTML5用CSS border-style:solid画元素实线边框【绘制】

    可通过CSS的border-style属性设为solid添加实线边框:一、内联样式用border:2px solid #000;二、内部样式表统一设置如div{border:1px solid #333};三、外部CSS文件定义.my-box{border:3px solid red}并引入;四、单…

    2026年5月10日
    200
  • Python中怎样使用pymongo?

    在python中使用pymongo可以轻松地与mongodb数据库进行交互。1)安装pymongo:pip install pymongo。2)连接到mongodb:from pymongo import mongoclient; client = mongoclient(‘mongod…

    2026年5月10日
    000
  • JS如何实现迭代器?迭代器协议

    JavaScript中实现迭代器需遵循可迭代协议和迭代器协议,通过定义[Symbol.iterator]方法返回具备next()方法的迭代器对象,从而支持for…of和展开运算符;该机制统一了数据结构的遍历接口,实现惰性求值,适用于自定义对象、树、图及无限序列等复杂场景,提升代码通用性与…

    2026年5月10日
    000
  • Golang空接口如何应用在项目中

    空接口可用于接收任意类型值,常见于日志函数、通用数据结构、JSON动态解析及配置驱动逻辑,提升代码灵活性,但需配合类型断言确保安全,避免滥用以降低维护成本。 空接口 interface{} 在 Go 语言中是一个非常灵活的类型,它可以存储任何类型的值。虽然它牺牲了一部分类型安全,但在实际项目中合理使…

    2026年5月10日
    100
  • 使用 Pydantic v2 实现条件性必填字段

    本文介绍了如何在 Pydantic v2 模型中实现条件性必填字段。通过自定义验证器,可以根据模型中其他字段的值来动态地控制某些字段是否为必填项,从而满足 API 交互中数据验证的复杂需求。本文提供了一个具体的示例,展示了如何确保模型中至少有一个字段被赋值。 在 Pydantic v2 中,虽然没有…

    2026年5月10日
    000
  • React组件中动态属性值的管理与同步:利用状态实现受控组件

    本教程旨在解决react组件中动态属性值同步使用的问题。我们将探讨如何利用react的`usestate` hook来管理组件内部状态,从而实现一个属性的值动态地影响另一个属性,并构建出可预测、易于维护的受控组件。文章将通过具体代码示例,详细阐述从初始化状态到处理状态更新的完整过程,并强调受控组件在…

    2026年5月10日
    000
  • 如何讲html和css_讲解HTML与CSS结合使用基础【基础】

    需将HTML与CSS结合使用以实现网页结构与样式的分离:HTML定义标题、段落等语义结构,CSS控制颜色、字体等外观;可通过内联样式、内部样式表或外部CSS文件引入样式,并利用类选择器和ID选择器精准应用。 如果您希望网页不仅展示内容,还能具备基本的样式和结构布局,则需要将HTML与CSS结合使用。…

    2026年5月10日
    000
  • JavaScript计算器开发:解决数值显示与初始化问题

    本教程深入探讨了使用JavaScript构建计算器时常见的数值显示异常问题,特别是由于类属性未初始化导致的`Cannot read properties of undefined`错误。我们将详细分析问题根源,并通过在构造函数中调用初始化方法来解决该问题,同时优化显示逻辑,确保计算器功能稳定且界面显…

    2026年5月10日
    000
  • Python 函数参数类型:如何使用可变参数和动态参数?

    python 中的参数类型:关键词参数、可变参数和动态参数 在 python 中,函数的参数可以分为以下几种类型: 关键词参数(kw)**:这些参数具有名称,并且在调用函数时明确指定。可变参数(*args):这些参数没有名称,允许函数接受任意数量的位置参数。它们将被收集到一个元组中。动态参数(kwa…

    2026年5月10日
    000
  • 高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行

    高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行高通预热 2023 骁龙峰会:以AI为主题,10 月 25-26 日举行

    【环球网科技综合报道】10月17日消息,高通今日对 2023 骁龙峰会进行了预热,本次大会将以 %ign%ignore_a_1%re_a_1% 为主题,届时骁龙 8 gen 3 处理器也很大可能在本届峰会亮相。 在临近活动召开之日,相关业内人士也透露了高通骁龙8Gen3跑分及规格。据悉,高通骁龙8 …

    2026年5月10日 用户投稿
    000

发表回复

登录后才能评论
关注微信