Pandas DataFrame中基于NumPy数组进行向量化查找

程序猿 • 2025年12月14日 03:09:14 • 用户投稿 • 阅读 0

本教程详细阐述了如何在Pandas DataFrame中高效地执行向量化查找操作，以替代传统低效的for循环。通过利用DataFrame.loc方法，结合NumPy数组作为索引，我们可以批量、快速地从DataFrame中提取指定行和列的数据，并将其转换为列表或NumPy数组格式，从而显著提升数据处理性能和代码可读性。

在数据分析和处理中，我们经常需要根据一组特定的索引或条件从pandas dataframe中提取数据。一种常见的、但效率低下的做法是使用for循环逐个查找。当数据集规模较小时，这种方法可能不明显，但对于大型数据集，其性能瓶颈会非常突出。

低效的循环查找示例

假设我们有一个Pandas DataFrame df，其索引包含一系列数值，并且我们希望根据一个NumPy数组 ex_arr 中指定的索引值，批量获取HHt列对应的数据。

import pandas as pdimport numpy as np# 示例 DataFramedata = {'HHt': [1, 2, 3, 4, 5, 6, 7, 8]}index_values = [2643, 2644, 2645, 2646, 2647, 2648, 2649, 2650]df = pd.DataFrame(data, index=index_values)# 待查找的索引数组ex_arr = np.array([2643, 2644, 2647])print("原始 DataFrame:")print(df)print("n待查找索引数组:", ex_arr)# 低效的 for 循环方式print("n使用 for 循环查找 (低效):")result_for_loop = []for i in ex_arr:    h_p = df.at[i, "HHt"] # df.at 用于单个标量快速访问    result_for_loop.append(h_p)print(result_for_loop)

上述代码虽然能得到正确结果 [1, 2, 5]，但其逐个访问的特性在处理大量数据时会导致显著的性能开销。

向量化查找：使用 DataFrame.loc

Pandas 提供了强大的向量化操作，可以极大地提高数据处理效率。对于基于标签（索引值或列名）的批量查找，DataFrame.loc 是理想的选择。它可以接受一个列表或NumPy数组作为行索引，实现一次性查找多个行。

要实现上述需求的向量化查找，我们只需将 ex_arr 直接传递给 df.loc 的行索引部分，并指定需要获取的列名。

# 向量化查找：使用 df.locprint("n使用 df.loc 向量化查找:")# 直接通过 df.loc[行索引, 列索引] 获取数据# 结果是一个 Pandas Seriesresult_series = df.loc[ex_arr, 'HHt']print("结果 (Pandas Series):")print(result_series)

输出的 result_series 是一个Pandas Series，其中包含我们所需的数据，并且保留了原始索引。

结果 (Pandas Series):2643    12644    22647    5Name: HHt, dtype: int64

将结果转换为列表或NumPy数组

在某些场景下，我们可能需要将查找结果转换为标准的Python列表或NumPy数组。Pandas Series 对象提供了方便的方法来实现这一点：to_list() 和 to_numpy()。

# 将结果转换为 Python 列表result_list = df.loc[ex_arr, 'HHt'].to_list()print("n结果 (Python 列表):")print(result_list)# 将结果转换为 NumPy 数组result_numpy = df.loc[ex_arr, 'HHt'].to_numpy()print("n结果 (NumPy 数组):")print(result_numpy)

这将分别输出：

结果 (Python 列表):[1, 2, 5]结果 (NumPy 数组):[1 2 5]

注意事项

loc 与 iloc 的区别：df.loc 是基于标签（索引值和列名）进行选择的。df.iloc 是基于整数位置进行选择的。确保根据你的索引类型选择正确的方法。本教程中，ex_arr 包含的是DataFrame的索引标签，因此 loc 是正确的选择。索引存在性：如果 ex_arr 中的某个索引值在DataFrame的索引中不存在，df.loc 会抛出 KeyError。在实际应用中，如果存在这种可能性，你可能需要先检查索引是否存在，或者使用 reindex 等方法进行更复杂的处理。性能优势：向量化操作的性能优势在处理大数据集时尤为显著。Pandas和NumPy的底层实现是C语言，能够高效地执行批处理操作，远超Python层面的for循环。多列选择：如果需要获取多列数据，可以将列名以列表形式传递给 loc：df.loc[ex_arr, [‘ColumnA’, ‘ColumnB’]]。

总结

通过本教程，我们了解了如何利用 DataFrame.loc 方法结合NumPy数组，在Pandas DataFrame中高效地执行向量化查找。这种方法不仅显著提升了数据处理性能，也使得代码更加简洁和可读。掌握向量化操作是高效使用Pandas进行数据分析的关键技能之一。

以上就是Pandas DataFrame中基于NumPy数组进行向量化查找的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1362980.html

c语言 python 代码可读性区别

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

413.8K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Pandas DataFrame向量化查找：高效获取指定行数据

上一篇 2025年12月14日 03:09:12

使用NumPy数组在Pandas DataFrame中进行向量化查找

下一篇 2025年12月14日 03:09:21

用户投稿

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
用户投稿

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
1000
用户投稿

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
如何在网页 F12 调试中查看鼠标悬停时才出现的 DOM 元素？

如何在网页 f12 调试中查看鼠标悬停时才出现的 dom 元素？在 f12 调试模式下，鼠标悬停时才出现的 dom 元素无法通过直接选择查看。解决方法根据显示原理的不同而有所区别： 1. css 控制的元素强制开启悬停状态：在 firefox 浏览器中，可以通过在开发者工具中手动开启选中元素的 …

程序猿
2025年12月24日 • 用户投稿
2000
用户投稿

TDesign UI库中小程序开发的CSS选择器：为什么“.t-grid–card”能生效？

TDesign UI库中CSS选择器困惑在小程序开发中，使用TDesign UI库时，您可能会遇到一个困惑的CSS选择器。例如，在DOM结构中，一个元素的class为”t-grid t-card class t-class”, 但其CSS选择器却是”&#8216…

程序猿
2025年12月24日
2000
用户投稿

逻辑属性与旧版属性：如何根据文本方向选择合适的CSS属性？

CSS 逻辑属性与旧版属性 CSS 中引入了逻辑属性和旧版属性的概念。这些属性负责控制页面元素的外观和布局。逻辑属性逻辑属性以逻辑方向命名，如左右、上下。它们根据元素在文档流中的位置来确定元素的外观。例如：立即学习“前端免费学习笔记（深入）”； marginBlockStart：控制元素在垂直…

程序猿
2025年12月24日
1000
用户投稿

CSS 逻辑属性和旧版属性：如何选择？

css逻辑属性与旧版属性 css中，逻辑属性和旧版属性用于控制元素的布局和外观。然而，两者在语法和使用方式上有所不同。逻辑属性逻辑属性是基于元素在现实世界中的预期行为来命名的。它使用诸如 “start”、”end” 和 “block&#…

程序猿
2025年12月24日
2000
用户投稿

您不需要 CSS 预处理器

原生 css 在最近几个月/几年里取得了长足的进步。在这篇文章中，我将回顾人们使用 sass、less 和 stylus 等 css 预处理器的主要原因，并向您展示如何使用原生 css 完成这些相同的事情。分隔文件分离文件是人们使用预处理器的主要原因之一。尽管您已经能够将另一个文件导入到 css…

程序猿
2025年12月24日
1000
用户投稿

动态样式类名为何失效：嵌套与并列选择器的区别在哪里？

动态样式类名不起作用：嵌套与并列问题在使用动态样式类名时，有时会遇到尽管触发事件但样式却没有改变的情况。这可能是由于使用了后代选择器而造成的。以提供的代码为例：块中，嵌套的类是content类的后代。这意味着类仅在元素包含子元素时才能生效。为了解决这个问题，需要将与类编写为并列，而不是嵌套方…

程序猿
2025年12月24日
3000
用户投稿

CSS 定位属性：六种定位方式的区别是什么？

CSS中的定位属性及其区别 CSS中的 position 属性定义元素的定位行为，它共有六个可供选择的属性值，分别是：静态定位 (static)：默认值，元素按照正常文档流进行定位。相对定位 (relative)：元素相对于自身原本的位置进行偏移。绝对定位 (absolute)：元素相对于最近的非…

程序猿
2025年12月24日
1000
用户投稿

父元素仅设置 Line-height 对子元素高度的影响：行内块级元素与块级元素有什么区别？

父元素仅设置 Line-height 对子元素的块级或行内块级元素的影响当父元素只设置了 Line-height 而没有设置高度时，对其子元素的影响将取决于子元素的类型。如果子元素是行内块级元素，如 inine-block，父元素的 Line-height 将成为子元素的高度。这是因为行内块级元…

程序猿
2025年12月24日
1000
用户投稿

当父元素仅设置行高时，块级和行内块级元素的行为有何区别？

当父元素仅设置行高时，块级或行内块级子元素的行为在 html 中，当父元素仅设置行高 line-height 时，块级或行内块级元素的行为会有所不同。 <line-height: 60px; background-color: antiquewhite; 哈哈哈行内块级元素（display…

程序猿
2025年12月24日
3000
用户投稿

为什么将perspective样式设置在带有transform-style: preserve-3d样式的元素的父级元素上才能得到预期的3D变换效果？

perspective必须设置在带有transform style: preserve-3d样式的元素的父级元素上吗？问题：你的HTML和CSS代码中，将perspective样式设置在了.scene元素上，当你将其移动到.cube元素后，效果却发生了变化。这是为什么？解答： perspect…

程序猿
2025年12月24日
1000
用户投稿

perspective属性设置在父元素和后代元素上，对3D效果有什么区别？

perspective属性的位置对3d效果的影响通常情况下，perspective属性需要设置在应用了transform-style: preserve-3d属性的父元素上。然而，如果perspective属性设置在后代元素上会产生不同的效果。为了演示区别，让我们扩展已有的示例： front b…

程序猿
2025年12月24日
0000
用户投稿

CSS perspective 属性，设置在不同元素上会产生什么区别？

perspective 属性在不同元素上的效果对比 CSS 中的 perspective 属性用于指定 3D 转换的视角距离。它可以通过改变物体相对于观察者的远近距离来创建三维效果。然而，将 perspective 设置在不同的元素上会产生不同的效果。根据提供的代码，我们将 perspective…

程序猿
2025年12月24日
0000
用户投稿

什么是功能类优先的 CSS 框架？

理解功能类优先 tailwind css 是一款功能类优先的 css 框架，用户可以通过组合功能类轻松构建设计。为了理解功能类优先，我们首先要区分语义类和功能类这两种 css 类名命名方式。语义类以前比较常见的 css 命名方式是根据页面中模块的功能来命名。例如：立即学习“前端免费学习笔记（深…

程序猿
2025年12月24日
1000
用户投稿

## PostCSS vs. Sass/Less/Stylus：如何选择合适的 CSS 代码编译工具？

PostCSS 与 Sass/Less/Stylus：CSS 代码编译转换中的异同在 CSS 代码的编译转换领域，PostCSS 与 Sass/Less/Stylus 扮演着重要的角色，但它们的作用却存在细微差异。区别 PostCSS 主要是一种 CSS 后处理器，它在 CSS 代码编译后进行处…

程序猿
2025年12月24日
0000
用户投稿

CSS flex 布局中 justify-content 的 flex-start 和 start 的区别是什么？

CSS flex 中 justify-content 的 flex-start 和 start 的区别在 CSS flex 布局中，justify-content 属性用于控制子元素在主轴上的对齐方式。其中，flex-start 和 start 似乎是相同的，但实际上它们有微妙的区别。定义根据…

程序猿
2025年12月24日
0000
用户投稿

css flex 中 justify-content 的 flex-start 和 start 可互换吗？

CSS flex 中 justify-content 的 flex-start 和 start 区别解析 MDN 文档上似乎没有提及 start 和 flex-start 在 justify-content 中的区别，但 post-css 插件却会对此发出警告。本文将对此进行解析。虽然在官方规范中…

程序猿
2025年12月24日
0000
用户投稿

“flex-start”和“start”在 CSS Flex 中有何差异？

深入剖析 CSS Flex 中 justify-content 的 start 和 flex-start 在 CSS 的 flex 布局中，justify-content 属性控制子元素在主轴上的对齐方式，其中包含两个值：”flex-start” 和 “start…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

Pandas DataFrame中基于NumPy数组进行向量化查找

关于作者

相关推荐

发表回复