使用 Polars 将包含逗号分隔整数的字符串列转换为整数列

使用 polars 将包含逗号分隔整数的字符串列转换为整数列

本文介绍了如何使用 Polars 库将包含逗号分隔整数的字符串列转换为多个整数列。通过 `.str.strip_chars()`, `.cast(pl.List(pl.Int32))`, `.list.to_struct()` 以及 `.unpivot()` 和 `.pivot()` 等方法,可以高效地实现这一转换,并提供了代码示例进行演示,帮助读者更好地理解和应用。

在数据处理中,经常会遇到将包含逗号分隔数值的字符串列转换为数值列的需求。Polars 提供了多种方法来高效地完成这一任务。本文将介绍几种常用的方法,并提供详细的代码示例。

方法一:使用 str.strip_chars(), str.split(), cast() 和 list.to_struct()

这种方法的核心思想是先去除字符串末尾的逗号,然后将字符串分割成列表,再将列表转换为结构体,最后将结构体展开为多个列。

import polars as pldf = pl.DataFrame(    {        "chrom": ["1", "1", "2", "X"],        "blockSizes": ["10,29,", "20,22,", "30,25,", "40,23,"],        "blockStarts": ["0,50,", "0,45,", "0,60,", "0,70,"]    })cols = "blockSizes", "blockStarts"(df.with_columns(    pl.col(col)      .str.strip_chars(",")      .str.split(",")      .cast(pl.List(pl.Int32))      .list.to_struct(         n_field_strategy = "max_width",          fields = lambda idx, col=col: f"{col}_{idx}"      )    for col in cols ) .unnest(cols))

代码解释:

pl.col(col).str.strip_chars(“,”): 去除指定列 col 中字符串末尾的逗号。.str.split(“,”): 将字符串按照逗号分割成字符串列表。.cast(pl.List(pl.Int32)): 将字符串列表转换为整数列表。.list.to_struct(…): 将列表转换为结构体,n_field_strategy=”max_width” 表示使用列表的最大长度作为结构体的字段数量,fields=lambda idx, col=col: f”{col}_{idx}” 用于动态地为结构体字段命名,例如 blockSizes_0, blockSizes_1。.unnest(cols): 将结构体展开为多个列。

输出结果:

shape: (4, 5)┌───────┬──────────────┬──────────────┬───────────────┬───────────────┐│ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 ││ ---   ┆ ---          ┆ ---          ┆ ---           ┆ ---           ││ str   ┆ i32          ┆ i32          ┆ i32           ┆ i32           │╞═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡│ 1     ┆ 10           ┆ 29           ┆ 0             ┆ 50            ││ 1     ┆ 20           ┆ 22           ┆ 0             ┆ 45            ││ 2     ┆ 30           ┆ 25           ┆ 0             ┆ 60            ││ X     ┆ 40           ┆ 23           ┆ 0             ┆ 70            │└───────┴──────────────┴──────────────┴───────────────┴───────────────┘

为了代码更简洁,可以定义一个函数来封装上述操作:

def csv_to_struct(col):    expr = pl.col(col).str.strip_chars(",").str.split(",")    expr = expr.cast(pl.List(pl.Int32))    return expr.list.to_struct(        n_field_strategy = "max_width",         fields = lambda idx: f"{col}_{idx}"    )cols = "blockSizes", "blockStarts"df.with_columns(map(csv_to_struct, cols)).unnest(cols)

方法二:使用 unpivot() 和 pivot()

这种方法的核心思想是先将数据进行 unpivot 操作,将多个列合并为一个列,然后对列进行处理,最后再进行 pivot 操作,将数据恢复为原来的形式。

小绿鲸英文文献阅读器 小绿鲸英文文献阅读器

英文文献阅读器,专注提高SCI阅读效率

小绿鲸英文文献阅读器 437 查看详情 小绿鲸英文文献阅读器

cols = "blockSizes", "blockStarts"(df.with_row_index()   .with_columns(      pl.col(cols).str.strip_chars(",").str.split(",").cast(pl.List(int))   )   .explode(cols)   .unpivot(index=["index", "chrom"], variable_name="name")   .with_columns(      pl.format("{}_{}",          "name",          pl.col("index").cum_count().over("index", "name") - 1      )   )   .pivot(on="name", index=["index", "chrom"]))

代码解释:

df.with_row_index(): 添加一个行索引列。pl.col(cols).str.strip_chars(“,”).str.split(“,”).cast(pl.List(int)): 与方法一相同,去除逗号,分割字符串,转换为整数列表。.explode(cols): 将列表展开为多行。.unpivot(index=[“index”, “chrom”], variable_name=”name”): 将 blockSizes 和 blockStarts 列 unpivot 为一个名为 name 的列。.with_columns(…): 创建新的列名,使用 pl.format 结合 pl.col(“index”).cum_count().over(“index”, “name”) – 1 生成 blockSizes_0, blockSizes_1 等列名。.pivot(on=”name”, index=[“index”, “chrom”]): 将数据 pivot 回原来的形式。

输出结果:

shape: (4, 6)┌───────┬───────┬──────────────┬──────────────┬───────────────┬───────────────┐│ index ┆ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 ││ ---   ┆ ---   ┆ ---          ┆ ---          ┆ ---           ┆ ---           ││ u32   ┆ str   ┆ i64          ┆ i64          ┆ i64          ┆ i64           │╞═══════╪═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡│ 0     ┆ 1     ┆ 10           ┆ 29           ┆ 0             ┆ 50            ││ 1     ┆ 1     ┆ 20           ┆ 22           ┆ 0             ┆ 45            ││ 2     ┆ 2     ┆ 30           ┆ 25           ┆ 0             ┆ 60            ││ 3     ┆ X     ┆ 40           ┆ 23           ┆ 0             ┆ 70            │└───────┴───────┴──────────────┴──────────────┴───────────────┴───────────────┘

总结

本文介绍了两种使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的方法。第一种方法使用了 str.strip_chars(), str.split(), cast() 和 list.to_struct(),思路清晰,易于理解。第二种方法使用了 unpivot() 和 pivot(),代码更简洁,但理解起来可能稍有难度。选择哪种方法取决于具体的需求和个人偏好。在实际应用中,可以根据数据的特点和性能要求选择最适合的方法。

注意事项:

确保字符串中的数值都是整数,否则在 cast() 步骤会报错。如果字符串中包含缺失值,需要先进行处理,例如使用 str.replace() 将缺失值替换为 0。如果列表的长度不一致,list.to_struct() 会使用最长的列表长度作为结构体的字段数量,较短的列表会用 None 填充。

希望本文能够帮助你更好地使用 Polars 进行数据处理。

以上就是使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/920234.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月29日 07:28:10
下一篇 2025年11月29日 07:28:32

相关推荐

  • JavaScript数据可视化进阶

    答案是%ignore_a_1%进阶需以叙事为核心,结合工具深度与交互设计。首先理解场景,选用D3.js、Chart.js或ECharts等工具,挖掘其数据驱动、动态更新与插件扩展能力;其次优化性能,通过Web Workers、LTTB算法和Canvas渲染处理大规模数据;再者增强交互,实现跨图表联动…

    2025年12月6日 web前端
    000
  • 解决Hadoop Map任务无输出记录的问题

    本文旨在帮助开发者诊断并解决Hadoop MapReduce任务中Map阶段无输出记录的问题。通过分析常见原因,例如数据解析错误、异常处理不当以及数据类型不匹配等,提供详细的排查步骤和代码示例,确保Map任务能够正确处理输入数据并生成有效输出。 在Hadoop MapReduce编程中,Map任务的…

    2025年12月6日 java
    000
  • 小米14 Ultra系统更新卡顿 小米14 Ultra升级修复教程

    小米14 Ultra更新后卡顿多因系统适配和缓存问题,可通过清理存储、清除应用缓存、重启手机缓解;进一步进入开发者选项调快动画、限制后台进程,并开启强制GPU渲染、关闭内存扩展及管理自启动应用以提升流畅度;若无效可尝试修复系统或恢复出厂设置,通常能恢复正常体验。 小米14 Ultra在系统更新后出现…

    2025年12月6日 手机教程
    000
  • OpenCSV CsvToBean解析带BOM头:ZWNBSP字符处理教程

    本文探讨了opencsv csvtobean 在处理csv文件头部包含零宽度不间断空格(zwnbsp,即bom)字符时遇到的解析问题。当csv文件以\ufeff字符开头时,opencsv可能无法正确匹配列名,导致字段值为null。教程提供了一种有效的临时解决方案:通过在@csvbindbyname注…

    2025年12月6日 java
    000
  • AI推文助手如何设置多语言翻译 AI推文助手的国际化内容创作

    启用多语言翻译功能是实现AI推文助手国际化内容创作的关键,首先需在管理后台开启多语言模块并设置源语言,系统将支持50余种语言实时翻译;接着配置目标语言清单,勾选所需语言如西班牙语、法语、日语等,并设定优先级以优化资源分配;为提升翻译质量,启用上下文感知模式,通过选择内容分类调整术语与语气,使表达更符…

    2025年12月6日 科技
    000
  • PHP字符串函数怎么用_PHP常用字符串函数使用指南

    使用strlen()和mb_strlen()获取字符串长度,strpos()和stripos()进行查找,str_replace()和str_ireplace()实现替换;通过substr()截取、explode()拆分、implode()合并字符串;利用trim()清理空白,strtolower(…

    2025年12月6日 后端开发
    000
  • 如何在mysql中比较不同存储引擎适用场景

    InnoDB适合高并发、强一致性的事务型应用,如电商和金融系统;2. MyISAM适用于读多写少的静态数据场景,如报表和数据仓库;3. Memory用于内存中快速访问的临时数据,如缓存和会话存储;4. Archive和CSV分别适用于日志归档与数据交换等特殊用途。 在MySQL中选择合适的存储引擎对…

    2025年12月6日 数据库
    000
  • 深度剖析:抖音店铺销售订单明细表格的详解

    抖音店铺销售订单明细表格是一项不可或缺的数据工具,能够帮助商家全面掌握销售情况与用户购买习惯。本文将从多个维度深入解析该表格的核心内容与实际应用技巧。 1. 表格构成与字段说明 一份完整的抖音店铺销售订单明细表通常包含多个关键字段,每个字段都承载着特定的信息价值。以下是主要字段的详细解读: · 订单…

    2025年12月5日
    100
  • 实现php连接mssql的批量操作_优化php连接mssql的批量处理性能

    使用批量插入语法(如BULK INSERT)、临时表+事务提交、连接池及驱动参数优化,可显著提升PHP操作MSSQL的性能。 在PHP中操作SQL Server数据库时,批量处理大量数据是常见需求。直接使用逐条插入或更新的方式效率极低,尤其在网络延迟较高或数据量大的场景下表现更差。要提升PHP连接M…

    2025年12月5日
    100
  • win10移动硬盘无法识别怎么办_win10移动硬盘不显示的解决方法

    首先检查硬件连接是否稳定,更换USB线或接口并测试其他电脑;若识别但无盘符,在磁盘管理中手动分配驱动器号;更新或重装磁盘驱动程序与USB控制器;使用diskpart和chkdsk命令修复文件系统错误;最后通过数据蛙等专业软件恢复数据。 如果您尝试在Windows 10系统中连接移动硬盘,但电脑无法识…

    2025年12月5日
    000
  • js怎么解析csv文件数据 前端解析CSV数据并生成表格展示

    前端使用javascript解析csv并生成表格,核心步骤为:1.通过filereader读取文件;2.用papa parse或自定义逻辑解析csv数据;3.动态创建html表格展示数据。对于大型文件,可通过分块读取、web workers、虚拟滚动或服务端处理优化性能。表格美化可借助css样式或框…

    2025年12月5日 web前端
    000
  • 如何使用Composer轻松集成RetailCRMAPI,告别繁琐手动操作!

    可以通过一下地址学习composer:学习地址 告别繁琐:当你的电商系统遭遇RetailCRM集成难题 作为一名开发者,我深知将不同系统连接起来的痛苦。最近,我负责的一个电商项目就遇到了这样的挑战:我们需要将网站上产生的订单、新注册的用户以及后续的客户互动数据,实时、准确地同步到公司的retailc…

    开发工具 2025年12月5日
    000
  • 恢复格式化数据的方法

    近日,一位网友向小编留言表示,自己电脑上的一个硬盘不知为何被儿子格式化了,硬盘中的所有数据都消失了,这让他感到十分沮丧。那么,当硬盘被格式化后,有没有可能找回这些丢失的数据呢?接下来,小编将为大家介绍一些硬盘格式化后的数据恢复方法。 有时,电脑硬盘可能会因为感染病毒而出现问题,例如无法正常打开或运行…

    2025年12月4日 系统教程
    000
  • 虚拟化与云计算技术硬核内幕 (20) —— 时间管理大师(下)

    在上一期中,小e了解了“时间管理大师”的概念。实际上,这种将物理硬件分配给多个使用者的技术,称为“时分复用”。计算机操作系统的任务调度模块,实际上提供的就是将cpu以“时分复用”的方式分配给不同任务使用的机制。 在虚拟化系统中,如果同样利用时分复用机制,将一个物理CPU或HT分配给多个虚拟机使用,就…

    2025年12月4日
    000
  • 金士顿u盘写保护开关在哪里

    有写保护开关的型号金士顿U盘的滑块开关通常位于侧面或一端,其开关位置可能不同,有时需使用小工具拨动;若找不到物理开关,可能是软件设置(如设置为只读)或U盘故障造成,后者需要备份重要数据后更换新U盘。 金士顿U盘的写保护开关并非所有型号都配备。 很多新款U盘已经取消了物理写保护开关的设计。 如果您手上…

    2025年12月4日
    000
  • 380驱动大师怎么修复u盘 380驱动大师怎么修复u盘启动教程

    380驱动大师并非专门用于修复U盘损坏,而是侧重于驱动程序管理。对于U盘启动问题,需判断根源:驱动问题:可尝试更新驱动程序,但需慎重操作并备份数据。物理损坏或文件系统损坏:需使用专业数据恢复和分区管理软件。 380驱动大师并非用于修复U盘损坏的主力工具。它主要功能是驱动程序管理,并非数据恢复或U盘修…

    2025年12月4日
    100
  • 文件超过七天失效恢复方法(如何恢复超过七天失效的文件)

    在数字化时代,文件已成为我们不可或缺的一部分。 不幸的是,我们有时可能会丢失或删除宝贵的文件,而这些文件超过七天,无法通过回收站恢复。当这种情况发生时,您该如何恢复超过七天失效的文件?别担心,本文将为您提供一些实用的方法和技巧。php小编子墨将引导您了解如何找到专业的数据恢复软件、使用免费的数据恢复…

    2025年12月4日
    000
  • 苹果怎么查微信删除的聊天记录_iPhone微信聊天记录恢复

    误删微信聊天记录可通过四种方法恢复:一、使用微信内置修复工具,进入“帮助与反馈”中的“故障修复”选项尝试修复;二、从iCloud云备份恢复,需抹掉手机并选择包含记录的备份还原;三、通过电脑版微信恢复备份,登录后选择“恢复备份至手机”并扫码确认;四、借助第三方软件如iMyFone D-Back深度扫描…

    2025年12月4日
    100
  • 如何在mysql中使用CAST和CONVERT转换数据类型

    CAST()和CONVERT()用于MySQL类型转换,语法不同但功能相似。1. CAST(expression AS type)可读性强,如CAST(‘123’ AS SIGNED)将字符串转整数。2. CONVERT(expression, type)支持类型与字符集转换…

    2025年12月3日
    000
  • 互盾数据恢复软件vip怎么使用_VIP会员功能解锁与特权使用

    互盾VIP服务可解锁完整恢复功能,需支付后获取注册码激活,支持多设备及大文件恢复,并提供技术支持,激活后按“选择模式-扫描-预览-恢复”流程操作,恢复时应避免原路径以防覆盖。 互盾数据恢复软件的VIP服务主要是为了帮助用户解锁完整功能,实现更高效的数据找回。这类软件通常提供基础的免费扫描,但要真正恢…

    2025年12月3日
    000

发表回复

登录后才能评论
关注微信