利用Pandas与NumPy高效构建坐标DataFrame

利用pandas与numpy高效构建坐标dataframe

本文旨在指导读者如何基于现有DataFrame和索引列表,高效地构建一个新的坐标DataFrame。我们将探讨两种主要方法:基于循环和字典的迭代方法,以及利用NumPy高级索引和向量化操作的更优方法,旨在提高数据处理的效率和代码简洁性,为后续数据可视化(如路线绘制)奠定基础。

在数据分析和处理中,我们经常需要从一个大型数据集中根据特定的索引或规则提取子集,并将其组织成新的结构。本教程将以一个具体场景为例,演示如何从一个包含节点信息的Pandas DataFrame中,根据一个索引列表(tours)提取对应的X和Y坐标,并构建一个新的DataFrame。

场景描述

假设我们拥有以下两个核心数据结构:

一个名为 tours 的列表,其中每个子列表包含两个整数,分别代表X坐标和Y坐标在原始DataFrame df 中的行索引。例如,[0, 4] 表示从 df 的第0行获取X值,从 df 的第4行获取Y值。

tours = [[0, 4], [0, 5], [0, 6], [1, 13], [2, 0], [3, 8], [4, 9], [5, 10],         [6, 7], [7, 1], [8, 2], [9, 3], [10, 11], [11, 14], [12, 0], [13, 12], [14, 0]]

一个名为 df 的Pandas DataFrame,包含了多个节点的详细信息,其中包括 X 和 Y 坐标。

import pandas as pdimport numpy as npdata = {    'Node': [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16],    'X': [5.7735, 2.8867, -2.8868, -5.7735, -2.8867, 2.8868, 8.6603, 0.0000, -8.6603, -8.6603, 0.0000, 8.6603, 5.3405, 3.3198, 6.4952],    'Y': [0.00, 5.00, 5.00, 0.00, -5.00, -5.00, 5.00, 10.00, 5.00, -5.00, -10.00, -5.00, 0.75, 4.25, -1.25],    'Demand': [40.0, 40.0, 40.0, 40.0, 40.0, 40.0, 40.0, 40.0, 40.0, 40.0, 40.0, 40.0, 10.0, 10.0, 10.0],    'Profit': [16.0, 16.0, 16.0, 16.0, 16.0, 16.0, 16.0, 16.0, 24.0, 24.0, 24.0, 24.0, 10.0, 10.0, 11.0]}df = pd.DataFrame(data)# 调整DataFrame的索引以匹配问题描述中的iloc行为# 原始df的索引是1-15,但iloc[0]会访问到Node=2的行。# 为了使iloc[0]访问到Node=2的行,我们需要确保df的默认整数索引是0开始的。# 示例数据中已经确保了这一点。

我们的目标是创建一个新的DataFrame coord,其中包含 tours 中每个索引对对应的 X 和 Y 坐标。

方法一:迭代与字典转换

这种方法通过循环遍历 tours 列表,在每次迭代中根据索引从 df 中提取 X 和 Y 值,并将这些值存储在一个字典中。最后,将字典转换为DataFrame。

实现步骤:

初始化一个空字典 d。遍历 tours 列表,使用 enumerate 获取当前元素的索引 t 和子列表 tour。从 tour 中提取 xi (X的索引) 和 yi (Y的索引)。使用 df[“X”].iloc[xi] 和 df[“Y”].iloc[yi] 从 df 中获取对应的X和Y值。将获取到的 (X, Y) 对作为值,t 作为键存入字典 d。使用 pd.DataFrame.from_dict() 方法,指定 orient=’index’ 和 columns=[‘X’, ‘Y’] 将字典转换为DataFrame。orient=’index’ 确保字典的键成为DataFrame的索引,值成为行数据。

示例代码:

d = {}for t, tour in enumerate(tours):    xi = tour[0]    yi = tour[1]    # 注意:df.iloc[index] 是基于位置的索引,与问题描述中的预期行为一致    d[t] = df["X"].iloc[xi], df["Y"].iloc[yi]coord_iterative = pd.DataFrame.from_dict(d, orient='index', columns=['X', 'Y'])print("--- 方法一:迭代与字典转换 ---")print(coord_iterative)

优点:

逻辑清晰,易于理解,尤其适合初学者。对于小型数据集,性能影响不明显。

缺点:

涉及显式循环,对于大型数据集效率较低。Python的循环通常比向量化操作慢。

方法二:向量化操作与NumPy高级索引

为了提高效率,特别是处理大数据时,推荐使用Pandas和NumPy提供的向量化操作。这种方法避免了显式Python循环,转而利用底层C实现的优化操作。

实现步骤:

将 tours 列表转换为NumPy数组。这使得我们可以利用NumPy的强大索引功能。从原始DataFrame df 中提取 X 和 Y 列,并将其转换为NumPy数组 arr。这样做可以避免在循环中反复进行Pandas Series的索引操作。利用NumPy的高级索引功能,一步到位地从 arr 中提取所有需要的X和Y值。tours[:, 0] 提取 tours 数组中所有子列表的第一个元素(即X的索引列表)。tours[:, 1] 提取 tours 数组中所有子列表的第二个元素(即Y的索引列表)。arr[tours[:, 0], 0] 表示使用X的索引列表去 arr 的第0列(即X值)中查找对应的值。arr[tours[:, 1], 1] 表示使用Y的索引列表去 arr 的第1列(即Y值)中查找对应的值。将这些提取出的X和Y值直接构建成一个新的Pandas DataFrame。

示例代码:

# 将tours转换为NumPy数组,方便进行高级索引tours_np = np.array(tours)# 提取df的X和Y列并转换为NumPy数组# 注意:这里假设df的索引是0-based的整数索引,与iloc行为一致arr = df[["X", "Y"]].to_numpy()# 使用NumPy高级索引直接获取X和Y坐标# tours_np[:, 0] 得到所有X的索引# tours_np[:, 1] 得到所有Y的索引# arr[row_indices, column_index]# arr[tours_np[:, 0], 0] 从arr的第0列(X值)中,按照tours_np[:, 0]提供的行索引提取值# arr[tours_np[:, 1], 1] 从arr的第1列(Y值)中,按照tours_np[:, 1]提供的行索引提取值coord_vectorized = pd.DataFrame({    "X": arr[tours_np[:, 0], 0],    "Y": arr[tours_np[:, 1], 1]})print("n--- 方法二:向量化操作与NumPy高级索引 ---")print(coord_vectorized)

优点:

高效性: 充分利用了NumPy的底层优化,执行速度远快于Python循环,尤其适用于大数据集。简洁性: 代码更为紧凑和优雅。Pandas/NumPy生态系统优势: 与Pandas和NumPy的数据结构无缝集成。

缺点:

对于初学者来说,NumPy的高级索引可能需要一些时间来理解。

性能比较与选择

在实际应用中,对于数据量较小(例如几百到几千行)的场景,两种方法在性能上的差异可能不明显,此时选择可读性更好的迭代方法也无妨。然而,当处理的数据量达到数万、数十万甚至更高时,向量化操作的性能优势将变得极其显著,能够大幅缩短程序运行时间。

因此,推荐在大多数情况下优先使用方法二(向量化操作与NumPy高级索引),因为它代表了Pandas和NumPy处理数据的最佳实践。

总结与注意事项

通过本教程,我们学习了两种从现有DataFrame中提取指定坐标并构建新DataFrame的方法。

迭代方法:通过循环和字典辅助构建,易于理解,但效率相对较低。向量化方法:利用NumPy的高级索引,代码简洁且性能卓越,是处理大量数据的首选。

在实践中,选择哪种方法取决于具体的数据规模和对性能的要求。对于最终目标是绘制路线图的场景,生成的 coord DataFrame将直接作为绘图库(如Matplotlib, Seaborn, Plotly等)的输入,其准确性和高效生成是至关重要的。

注意事项:

索引范围:确保 tours 列表中的索引值不会超出 df DataFrame的有效行索引范围,否则会导致 IndexError。数据类型:在将数据转换为NumPy数组时,确保数据类型兼容,以避免潜在的类型转换问题。可读性与性能平衡:虽然向量化操作更高效,但在某些极端复杂的逻辑中,如果过度追求单行代码而牺牲可读性,可能会增加维护成本。始终在性能和代码可读性之间找到最佳平衡点。

以上就是利用Pandas与NumPy高效构建坐标DataFrame的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1378967.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 20:15:29
下一篇 2025年12月14日 20:15:37

相关推荐

  • Python datetime模块计时器:避免精确时间比较陷阱

    本文深入探讨了在使用python `datetime`模块构建计时器时,因对时间进行精确相等比较(`==`)而引发的常见问题。由于`datetime`对象具有微秒级精度,`datetime.now()`在循环中几乎不可能与预设的`endtime`完全一致,导致计时器无法终止。本教程将阐明此核心问题,…

    2025年12月14日
    000
  • Python类循环引用:深入理解与解耦优化策略

    本文深入探讨了Python中类之间看似循环引用的场景,特别是通过from __future__ import annotations和if TYPE_CHECKING进行类型注解时的行为。文章澄清了类型注解与运行时依赖的区别,指出许多“循环引用”并非真正的运行时问题。同时,文章强调了Python鸭子…

    2025年12月14日
    000
  • 使用Python提取Word文档表格中带编号列表的文本

    本文详细介绍了如何使用`python-docx`库从Word文档的表格中准确提取包含编号列表的文本内容。通过遍历文档、表格、行、单元格及段落,并结合段落样式和文本前缀判断,可以有效识别并提取如“1. 外观”这类带编号的列表项,同时提供了处理多行列表项的优化方案,确保提取结果的准确性和完整性。 引言 …

    2025年12月14日
    000
  • Matplotlib动画中的全局变量管理与性能优化实践

    在使用Matplotlib的`FuncAnimation`模块创建动态数据可视化时,开发者经常会遇到需要实时更新内部状态变量的场景,例如模拟自适应滤波器(如CALP)的系数调整、物理系统的状态变化等。这种动态更新要求动画回调函数能够访问并修改这些状态变量。然而,如果不理解Python的变量作用域规则…

    2025年12月14日
    000
  • Pandas与NumPy:高效构建基于索引的坐标DataFrame

    本文详细介绍了如何从一个包含索引对的列表和一个现有dataframe中,高效地提取x和y坐标,并构建一个新的坐标dataframe。教程对比了基于循环的字典构建方法与利用numpy进行向量化操作的优化方案,强调了后者在处理大规模数据时的性能优势和代码简洁性,最终目标是为后续的路径绘制提供精确的坐标数…

    2025年12月14日
    000
  • Python异步编程:实现延迟加载属性的最佳实践

    本文深入探讨了在python `asyncio` 环境中如何高效且正确地实现异步延迟加载属性。针对在描述符 `__get__` 方法中直接 `await` 异步调用的常见误区,文章指出关键在于让属性本身返回一个可等待对象,并要求属性的消费者进行 `await` 操作,从而确保非阻塞的数据加载,避免事…

    2025年12月14日
    000
  • python自由变量是什么

    自由变量是在嵌套函数中被内层函数引用但定义于外层函数的变量,属于闭包机制的一部分。例如在 outer 函数中定义的 x 被 inner 函数引用时,x 对 inner 来说是自由变量,其作用域为 enclosing,可通过 __code__.co_freevars 查看变量名,通过 __closur…

    2025年12月14日
    000
  • 解决 PyMongo 连接 MongoDB Atlas 认证失败问题

    本文旨在解决pymongo连接mongodb atlas时常见的“bad auth: authentication failed”错误。即使ip白名单和用户权限看似正确,有时问题仍可能出在用户账户本身。教程将提供详细的排查步骤,包括连接字符串、ip白名单和用户权限验证,并重点介绍一种有效的解决方案:…

    2025年12月14日
    000
  • 计算多边形最远坐标并以海里为单位计算距离

    本文旨在提供一种使用 Python Shapely 库和 geopy 库计算多边形上两个最远坐标点之间距离的方法,结果以海里为单位。文章详细解释了代码实现,包括坐标点的选取、距离计算函数的正确使用以及最终结果的展示。通过本文,读者可以掌握计算多边形最大线性范围并测量距离的有效方法。 在处理地理空间数…

    2025年12月14日
    000
  • python删除元素的使用条件

    del语句用于删除列表、字典、切片或变量,不返回值,需注意索引和键是否存在;2. remove()方法按值删除列表中第一个匹配元素,元素不存在时抛ValueError;3. pop()方法删除并返回列表指定位置或字典指定键的元素,常用于需获取删除值的场景;4. clear()方法清空列表、字典或集合…

    2025年12月14日
    000
  • Python中处理带单位字符串数据并转换为浮点数的教程

    本教程旨在解决将包含单位(如“m”表示百万,“b”表示十亿)的字符串数据转换为浮点数值,并保留特定字符串(如“damages not recorded”)的常见编程问题。文章将分析常见错误,并提供一个结构化、健壮的python函数实现,涵盖字符串处理、条件判断及数据类型转换的最佳实践,以确保数据处理…

    2025年12月14日
    000
  • 在Streamlit应用中高效展示本地GIF集合的教程

    本教程详细阐述了如何在streamlit应用中加载并显示来自本地文件夹的多个gif图片。通过利用python的glob模块进行文件路径匹配,结合base64编码将gif内容嵌入到html的标签中,我们提供了一种健壮且跨平台兼容的解决方案。文章将涵盖环境配置、代码实现细节以及关键注意事项,确保用户能够…

    好文分享 2025年12月14日
    000
  • Python并发编程:解决无限循环阻塞与实现任务并行

    本教程旨在解决Python中无限循环阻塞后续代码执行的问题,特别是当需要同时运行后台任务(如打印消息)和周期性操作(如窗口管理)时。我们将探讨从简单调整代码结构到利用Python的`threading`模块实现真正并发执行的多种方法,确保应用程序的响应性和效率。 引言:理解无限循环的阻塞效应 在Py…

    2025年12月14日
    000
  • Python3官网地址怎么官方查找_Python3官网地址官方查找渠道与方法说明

    Python3官网地址是https://www.python.org/,通过搜索引擎输入“Python官网”或直接在浏览器地址栏输入该网址即可访问,官网顶部导航栏提供Downloads、Documentation等功能入口,便于用户下载安装包和查阅官方文档。 Python3官网地址怎么官方查找?这是…

    2025年12月14日
    000
  • Python多线程编程入门指南 Python多线程的基本概念与用法

    多线程是Python中提升I/O密集型任务效率的并发技术,通过threading模块实现,虽受GIL限制无法真正并行执行CPU任务,但适用于文件读写、网络请求等场景。线程是操作系统调度的最小单位,共享进程内存空间,便于通信。使用threading.Thread类创建线程,target指定目标函数,a…

    2025年12月14日
    000
  • Pandas DataFrame 数据截取:基于列值高效筛选与切割

    本文详细介绍了如何在pandas dataframe中根据特定列的值进行数据截取和筛选。我们将探讨布尔索引、query() 方法以及结合 loc 进行筛选的多种高效技术,旨在帮助用户精确地从数据集中选择符合特定条件(如小于或等于某个阈值)的行,从而满足数据分析和可视化的需求,避免常见的筛选错误。 在…

    2025年12月14日
    000
  • PyMongo连接MongoDB Atlas认证失败:深度排查与解决方案

    本文详细探讨了使用pymongo连接mongodb atlas时常见的认证失败问题,特别是`bad auth`错误。文章将指导用户系统性地检查连接字符串、ip白名单和数据库用户权限。重点强调,在所有配置看似正确的情况下,创建新的数据库用户账户往往是解决此类顽固认证问题的有效且直接的方案,避免不必要的…

    2025年12月14日
    000
  • Pandas中基于分组和扩展窗口计算百分位排名

    本文旨在详细阐述如何在Pandas中使用`groupby()`、`expanding()`和`apply()`结合`scipy.stats.percentileofscore`函数,正确计算数据集中按组和扩展窗口的百分位排名。我们将重点解析`apply`函数中`lambda x`参数的正确用法,避免…

    2025年12月14日
    000
  • Pandas数据帧按自定义顺序排序:以月份为例实现精确控制

    本文详细介绍了如何在Python Pandas中对数据帧进行自定义顺序排序,特别是针对月份等具有内在顺序但字符串表示时默认按字母排序的场景。通过将目标列转换为Pandas的Categorical类型,并指定精确的类别顺序,我们可以确保数据按照期望的逻辑顺序排列,从而解决传统字符串排序无法满足的业务需…

    2025年12月14日
    000
  • Anaconda环境怎么安装_Anaconda环境安装与Python集成使用全攻略

    答案:Anaconda是数据分析等领域常用的Python发行版,提供包管理、虚拟环境及Jupyter等工具集成。首先从官网下载对应系统版本并安装,推荐添加至PATH;通过conda create、activate等命令创建和管理独立环境,避免依赖冲突;优先使用conda install安装常用库,必…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信