高效选取Pandas DataFrame特定元素的向量化方法

程序猿 • 2025年11月10日 16:41:28 • 用户投稿 • 阅读 1

本文探讨了如何在pandas dataframe中，根据一个series提供行索引和列标签的映射关系，高效、向量化地选取特定元素。通过介绍`factorize`结合`reindex`和`merge`两种主要方法，详细阐述了如何避免低效的循环操作，实现性能优化，并提供了具体的代码示例和注意事项。

在数据分析和处理中，我们经常需要从Pandas DataFrame中提取特定位置的元素。一个常见的场景是，我们有一个DataFrame，以及一个Series。这个Series的索引对应DataFrame的列名，而Series的值则对应DataFrame的行索引。我们的目标是根据这种映射关系，高效地提取DataFrame中对应位置的元素，并返回一个Series或列表。

传统的做法可能会采用迭代Series的方式，逐个查找并赋值，例如：

import pandas as pd# 假设 df 和 sr 已定义# result = pd.Series()# for c, i in sr.items():#     result[c] = df.loc[i, c]

这种方法虽然直观，但对于大型数据集而言，其性能瓶颈在于循环操作，无法充分利用Pandas和NumPy的向量化优势，导致效率低下。本文将介绍两种更高效、向量化的解决方案。

示例数据

为了更好地说明问题和解决方案，我们首先定义一个示例DataFrame和Series：

import pandas as pdimport numpy as np# 示例 DataFramedata = np.arange(25).reshape(5, 5)df = pd.DataFrame(data, columns=list('abcde'))print("DataFrame (df):n", df)# 示例 Seriessr = pd.Series({'a': 1, 'c': 2, 'b': 3})print("nSeries (sr):n", sr)

输出：

DataFrame (df):    a   b   c   d   e0   0   1   2   3   41   5   6   7   8   92  10  11  12  13  143  15  16  17  18  194  20  21  22  23  24Series (sr):a    1c    2b    3dtype: int64

我们的目标是根据sr的映射关系：

sr[‘a’] = 1 对应 df.loc[1, ‘a’] 即 5sr[‘c’] = 2 对应 df.loc[2, ‘c’] 即 12sr[‘b’] = 3 对应 df.loc[3, ‘b’] 即 16最终得到一个Series：{‘a’: 5, ‘c’: 12, ‘b’: 16}。

方法一：利用 factorize 和 reindex 进行二维查找

这种方法的核心思想是将DataFrame的行索引和列标签以及Series中的对应值，都转换为整数位置编码。然后，通过reindex对DataFrame进行对齐，最后利用NumPy的二维数组索引能力进行高效查找。

步骤详解：

编码Series的值和索引：使用pd.factorize()将sr的值（行索引）和sr的索引（列标签）分别转换为整数编码及其对应的唯一标签列表。

a_i, idx = pd.factorize(sr)       # a_i 是 sr 值的整数编码，idx 是 sr 值的唯一列表a_c, col = pd.factorize(sr.index) # a_c 是 sr 索引的整数编码，col 是 sr 索引的唯一列表

a_i 将是 [1, 2, 3] (对应 sr 的值 1, 2, 3 在 idx 中的位置)idx 将是 [1, 2, 3] (sr 值的唯一集合)a_c 将是 [0, 1, 2] (对应 sr 索引 a, c, b 在 col 中的位置)col 将是 [‘a’, ‘c’, ‘b’] (sr 索引的唯一集合)

对齐DataFrame：使用df.reindex(index=idx, columns=col)根据sr中涉及到的行索引和列标签来重新排列DataFrame。这会创建一个新的DataFrame视图，其行索引和列名与idx和col完全匹配。

reindexed_df = df.reindex(index=idx, columns=col)

此时，reindexed_df的形状和内容已经准备好，可以与a_i和a_c的整数编码进行对应。

英特尔AI工具

英特尔AI与机器学习解决方案

70 查看详情

执行二维数组查找：将reindexed_df转换为NumPy数组，然后利用a_i和a_c作为行和列的整数索引进行查找。

extracted_values = reindexed_df.to_numpy()[a_i, a_c]

[a_i, a_c] 构成了 (行索引数组, 列索引数组) 的形式，NumPy会根据这些对应位置提取元素。

构建结果Series：将提取到的值extracted_values与原始sr的索引重新组合，形成最终的Series。

out = pd.Series(extracted_values, index=sr.index)

完整代码示例：

# 方法一：利用 factorize 和 reindexa_i, idx = pd.factorize(sr)a_c, col = pd.factorize(sr.index)out_factorize = pd.Series(df.reindex(index=idx, columns=col).to_numpy()[a_i, a_c],                          index=sr.index)print("n方法一结果 (factorize):n", out_factorize)

输出：

方法一结果 (factorize): a     5c    12b    16dtype: int64

方法二：利用 merge 进行数据融合

另一种方法是利用Pandas的merge操作。这种方法通常在数据转换和重塑时非常有用，但可能比factorize方法稍微复杂一些。

步骤详解：

重塑 sr：将sr转换为一个DataFrame，使其索引成为一个常规列，方便后续合并。

sr_df = sr.reset_index() # 结果是 DataFrame: 'index' | 0                         #                  'a'     | 1                         #                  'c'     | 2                         #                  'b'     | 3

重塑 df：将df堆叠（stack）成一个Series，其索引将是多级索引 (行索引, 列标签)。然后给这个Series命名，方便后续合并。

df_stacked = df.stack().rename('out')# df_stacked 的索引格式为 (行索引, 列标签)# 例如：(0, 'a') -> 0, (0, 'b') -> 1, ...

执行合并操作：将sr_df与df_stacked进行合并。

left_on=[0, ‘index’]: sr_df的0列（原sr的值，即DataFrame的行索引）和’index’列（原sr的索引，即DataFrame的列标签）作为合并键。right_index=True: df_stacked的索引（多级索引 (行索引, 列标签)）作为合并键。how=’left’: 左合并，保留sr_df的所有记录。

merged_df = sr_df.merge(df_stacked,                      left_on=[0, 'index'],                      right_index=True,                      how='left')

整理结果：合并后的DataFrame包含原始sr的信息以及从df中提取的值。我们需要将其整理回原始sr的索引和结构。

out_merge = merged_df.set_index('index')['out']

完整代码示例：

# 方法二：利用 mergeout_merge = (sr.reset_index()               .merge(df.stack().rename('out'),                      left_on=[0, 'index'],                      right_index=True,                      how='left')              .set_index('index')['out']            )print("n方法二结果 (merge):n", out_merge)

输出：

方法二结果 (merge): indexa     5c    12b    16Name: out, dtype: int64

请注意，merge方法的结果Series的name可能会有所不同，但内容是相同的。

注意事项

sr 索引重复的处理：上述两种向量化方法在处理sr的索引存在重复时，与原始的迭代循环行为可能不同。如果sr的索引有重复，例如 sr = pd.Series({‘a’: 1, ‘c’: 2, ‘b’: 3, ‘a’: 4})，原始循环会取最后一个’a’对应的值（df.loc[4, ‘a’]）。而factorize方法会根据sr的顺序处理，merge方法则可能返回多个匹配项。如果需要模拟原始循环“取最后一个”的行为，应在执行向量化操作前对sr进行预处理，例如：

# 如果 sr 的索引可能重复，且希望保留最后一个匹配项sr_cleaned = sr[~sr.index.duplicated(keep='last')]# 然后将 sr_cleaned 代替 sr 用于上述方法

这会确保每个唯一的sr索引只对应一个值。

性能考量：通常情况下，factorize结合reindex和NumPy索引的方法在性能上会优于merge方法，尤其是在处理大规模数据时，因为它更直接地利用了底层数组操作。merge方法涉及更多的数据重塑和哈希表查找，开销相对较大。

总结

本文介绍了两种在Pandas DataFrame中高效、向量化地选取特定元素的方法，以替代低效的循环迭代。factorize结合reindex和NumPy二维索引的方法，通过将标签转换为整数位置，实现了极高的查找效率。而merge方法则通过数据重塑和融合，提供了一种更具通用性的解决方案。在实际应用中，根据数据规模和对性能的要求，可以选择最适合的方法。同时，对于sr中可能存在的索引重复问题，也提供了相应的预处理建议，以确保结果的准确性。掌握这些向量化技巧，对于提升Pandas数据处理的效率至关重要。

以上就是高效选取Pandas DataFrame特定元素的向量化方法的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/592771.html

性能瓶颈排列编码

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何关闭浏览器弹出窗口拦截功能（在哪里设置电脑浏览器取消拦截）

上一篇 2025年11月10日 16:41:27

如何处理SQL中的大数据量排序？通过分区和索引优化排序性能

下一篇 2025年11月10日 16:41:29

用户投稿

怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

首先创建含enctype的HTML表单，再用PHP接收文件，检查目录、移动临时文件，验证类型与大小，生成唯一文件名，并调整php.ini限制以确保上传成功。如果您尝试在PHP项目中添加图片上传功能，但服务器无法正确接收或保存文件，则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

程序猿
2026年5月10日
1000
用户投稿

PHP动态生成表单输入与POST数据获取实践指南

本教程详细阐述了如何在php中根据动态数据源（如数据库值）生成多个表单输入框，并演示了如何通过post方法准确无误地获取这些动态生成的输入值。文章强调了正确的输入框命名策略，避免了常见的命名误区，并提供了完整的代码示例，确保开发者能够高效处理动态表单数据。动态生成表单输入在Web开发中，我们经常…

程序猿
2026年5月10日
0000
用户投稿

PHP多维数组到复杂XML结构的SOAP序列化实践

本文旨在解决php多维数组向复杂soap xml结构序列化时遇到的“无法序列化结果”问题。通过深入理解soap xml的结构要求，包括命名空间和类型属性，文章将指导您如何构建符合特定xml schema的php关联数组。我们将利用`spatie/array-to-xml`库，详细演示其安装与使用方法…

程序猿
2026年5月10日
0000
虫虫漫画直接进入官网入口_虫虫漫画网页版清爽版

虫虫漫画官网入口为www.ccmh.com，用户可直接通过浏览器访问，支持多端适配与账号同步功能，界面简洁无广告，提供海量国漫、日漫、韩漫资源，涵盖恋爱、玄幻等热门题材，更新及时，支持多种阅读模式及离线缓存，阅读体验流畅。虫虫漫画直接进入官网入口在哪里？这是不少网友都关注的，接下来由PHP小编为大…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Golang如何优化日志写入性能_Golang日志写入与文件IO优化方法

使用缓冲、异步写入、高性能日志库和优化IO策略提升Golang日志性能，推荐zap+异步缓冲+SSD组合以平衡实时性、可靠性与高并发需求。在高并发场景下，Golang程序的日志写入可能成为性能瓶颈。频繁的文件IO操作不仅影响响应速度，还可能导致系统负载升高。要提升日志写入性能，不能只依赖简单的fm…

程序猿
2026年5月10日
0000
用户投稿

Go语言连接外部MySQL数据库：DSN配置与常见错误解析

本文详细阐述了go语言使用`go-sql-driver/mysql`驱动连接外部mysql数据库的正确方法。重点介绍了数据源名称（dsn）的规范格式，特别是主机地址部分的配置，以避免常见的“getaddrinfow: the specified class was not found.”等网络解析错…

程序猿
2026年5月10日
0000
用户投稿

php超过字数怎么解密_用PHP分段处理超字数加密数据并解密教程【技巧】

分段解密超长加密数据需先确定算法限制，再通过OpenSSL扩展支持，编写函数逐段解密并拼接结果。1、明确加密算法与密钥对应的分段大小；2、启用php.ini中openssl扩展并重启服务；3、自定义函数读取私钥、base64解码密文、循环截取块解密；4、确保去除密文换行符并按原加密块大小切分；5、解…

程序猿
2026年5月10日
0000
用户投稿

Python代码如何实现定时任务 Python代码使用Schedule模块的配置

答案：使用Python的schedule模块可实现定时任务，通过try-except处理异常确保程序不中断，结合threading实现多线程任务避免阻塞，利用JSON文件保存和加载任务配置实现持久化。使用Python实现定时任务，主要依赖于schedule模块，它提供了一种简单易懂的方式来安排周期…

程序猿
2026年5月10日
0000
用户投稿

php代码如何操作JSON数据_php代码解析和生成JSON的方法

答案：PHP中处理JSON需使用json_encode()和json_decode()函数。1、将数组转为JSON字符串时，用json_encode()并检查返回值是否为false；2、解析JSON字符串时，调用json_decode()并设第二参数为true返回数组，false则返回对象；3、处理…

程序猿
2026年5月10日
0000
用户投稿

PHP代码注入检测日志分析_PHP代码注入日志检测方法详解

答案：日志分析是发现PHP代码注入的关键手段，主要通过Web服务器访问日志、PHP错误日志、PHP-FPM日志及应用自定义日志等多源数据，结合grep、ELK、WAF等工具识别含eval()、system()、Base64编码、目录遍历等特征的异常请求，并建立基线、设置检测规则与自动化告警，配合事件…

程序猿
2026年5月10日
0000
用户投稿

c++中sizeof运算符的用法和常见陷阱 _c++ sizeof使用技巧及陷阱解析

sizeof运算符在编译时计算类型或对象的字节大小，返回size_t类型，常用于获取数据大小、数组元素个数及内存操作；但存在数组传参退化为指针导致失效、对指针无法获知动态内存大小、表达式不求值、结构体因对齐产生填充等常见陷阱；需结合模板、显式传参、对齐控制等方式规避问题，提升代码可移植性和安全性。 …

程序猿
2026年5月10日
0000
用户投稿

C#如何进行网络编程？Socket与TCP/IP通信编程实例详解

C#通过Socket类实现TCP通信，首先服务器绑定IP和端口并监听，客户端发起连接，双方通过Send/Receive收发数据，最后关闭连接。 C# 进行网络编程主要依赖于 System.Net 和 System.Net.Sockets 命名空间，其中最核心的是使用 Socket 类实现基于 TCP…

程序猿
2026年5月10日
0000
用户投稿

如何测试html5编码_测试HTML5页面编码兼容性方法【编码测试】

HTML5页面编码兼容性测试需五步：一查meta charset是否正确且前置；二验HTTP响应头Content-Type charset是否为utf-8；三用file或chardet工具探测实际编码；四跨浏览器测试URL参数中中文、Emoji解析；五通过W3C验证服务检查编码声明与字节一致性。如…

程序猿
2026年5月10日
1000
用户投稿

HTML/CSS中链接与按钮的正确嵌套：避免文本超链接化与结构优化指南

本教程旨在解决HTML中链接()与按钮(button)或类按钮元素嵌套不当导致非预期文本超链接化的问题。我们将通过修正标签的错误闭合，并推荐使用等语义化元素作为链接内容并应用按钮样式，来创建功能正确、结构清晰且包含文本或图像的交互式按钮，从而提升页面的可维护性和用户体验。在网页开发中，我们经常需…

程序猿
2026年5月10日
0000
用户投稿

如何根据当前月份动态排序 1-12 月？

根据当前月份动态排序 1-12 月想要实现根据当前月份动态排序 1-12 月，可以通过参考以下方法：创建月份数组：首先，创建一个包含 1-12 月信息（如名称和值）的月份数组。获取当前月份：获取 javascript 中表示当前月份的数值（从 0 到 11）。重新排序月份数组：使用 javasc…

程序猿
2026年5月10日
0000
用户投稿

Golang如何提升TCP长连接处理效率_Golang TCP长连接处理性能优化实践详解

答案：通过非阻塞I/O、单Goroutine双工模型、sync.Pool对象复用、TCP_NODELAY优化及高效心跳管理，结合系统调优，可显著提升Golang百万级TCP长连接处理效率。在高并发网络服务场景中，TCP长连接的处理效率直接影响系统的吞吐能力和资源消耗。Golang凭借其轻量级Gor…

程序猿
2026年5月10日
0000
用户投稿

Angular mat-tab 高度自适应与布局优化指南

本教程旨在解决Angular Material mat-tab组件在Flexbox布局中无法自动填充父容器高度的问题。文章将深入分析问题根源，并提供使用CSS深度选择器（::ng-deep）精确控制mat-tab-body-wrapper和mat-tab-body高度的解决方案，确保组件在指定布局下…

程序猿
2026年5月10日
0000
用户投稿

Windows用Prettier一键格式化乱码HTML代码

首先确保HTML文件保存为UTF-8编码，使用文本编辑器另存为UTF-8格式；其次在命令行执行chcp 65001切换至UTF-8代码页后再运行Prettier；接着在VS Code中设置files.encoding为utf8并启用files.autoGuessEncoding；最后可通过Node.…

程序猿
2026年5月10日
0000
用户投稿

PHP动态网页数据库备份恢复_PHP动态网页MySQL数据库备份教程

答案：PHP动态网页的MySQL数据库备份与恢复需通过定期导出SQL文件并安全存储来保障数据安全，核心方法包括使用mysqldump命令行工具实现高效灵活的自动化备份，利用phpMyAdmin图形化工具进行手动导出导入以降低操作门槛，以及通过PHP脚本调用系统命令将备份过程集成到应用中；恢复时可采用…

程序猿
2026年5月10日
0000
用户投稿

html如何制作水印_HTML水印（文字/图片）添加与设置方法

使用CSS和HTML可实现网页水印，方法包括：一、通过background-image与data URI嵌入斜向文字水印；二、利用伪元素结合transform旋转生成叠加文字层；三、插入img标签或背景图设置固定位置图片水印；四、用Canvas绘制多行斜纹并转Base64作背景；五、通过禁用右键、屏…

程序猿
2026年5月10日
1000