使用 Polars 将包含逗号分隔整数的字符串列转换为整数列

使用 polars 将包含逗号分隔整数的字符串列转换为整数列

本文介绍了如何使用 Polars 库将包含逗号分隔整数的字符串列转换为多个整数列。通过 `.str.strip_chars()`, `.cast(pl.List(pl.Int32))`, `.list.to_struct()` 以及 `.unpivot()` 和 `.pivot()` 等方法,可以高效地实现这一转换,并提供了代码示例进行演示,帮助读者更好地理解和应用。

在数据处理中,经常会遇到将包含逗号分隔数值的字符串列转换为数值列的需求。Polars 提供了多种方法来高效地完成这一任务。本文将介绍几种常用的方法,并提供详细的代码示例。

方法一:使用 str.strip_chars(), str.split(), cast() 和 list.to_struct()

这种方法的核心思想是先去除字符串末尾的逗号,然后将字符串分割成列表,再将列表转换为结构体,最后将结构体展开为多个列。

import polars as pldf = pl.DataFrame(    {        "chrom": ["1", "1", "2", "X"],        "blockSizes": ["10,29,", "20,22,", "30,25,", "40,23,"],        "blockStarts": ["0,50,", "0,45,", "0,60,", "0,70,"]    })cols = "blockSizes", "blockStarts"(df.with_columns(    pl.col(col)      .str.strip_chars(",")      .str.split(",")      .cast(pl.List(pl.Int32))      .list.to_struct(         n_field_strategy = "max_width",          fields = lambda idx, col=col: f"{col}_{idx}"      )    for col in cols ) .unnest(cols))

代码解释:

pl.col(col).str.strip_chars(“,”): 去除指定列 col 中字符串末尾的逗号。.str.split(“,”): 将字符串按照逗号分割成字符串列表。.cast(pl.List(pl.Int32)): 将字符串列表转换为整数列表。.list.to_struct(…): 将列表转换为结构体,n_field_strategy=”max_width” 表示使用列表的最大长度作为结构体的字段数量,fields=lambda idx, col=col: f”{col}_{idx}” 用于动态地为结构体字段命名,例如 blockSizes_0, blockSizes_1。.unnest(cols): 将结构体展开为多个列。

输出结果:

shape: (4, 5)┌───────┬──────────────┬──────────────┬───────────────┬───────────────┐│ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 ││ ---   ┆ ---          ┆ ---          ┆ ---           ┆ ---           ││ str   ┆ i32          ┆ i32          ┆ i32           ┆ i32           │╞═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡│ 1     ┆ 10           ┆ 29           ┆ 0             ┆ 50            ││ 1     ┆ 20           ┆ 22           ┆ 0             ┆ 45            ││ 2     ┆ 30           ┆ 25           ┆ 0             ┆ 60            ││ X     ┆ 40           ┆ 23           ┆ 0             ┆ 70            │└───────┴──────────────┴──────────────┴───────────────┴───────────────┘

为了代码更简洁,可以定义一个函数来封装上述操作:

def csv_to_struct(col):    expr = pl.col(col).str.strip_chars(",").str.split(",")    expr = expr.cast(pl.List(pl.Int32))    return expr.list.to_struct(        n_field_strategy = "max_width",         fields = lambda idx: f"{col}_{idx}"    )cols = "blockSizes", "blockStarts"df.with_columns(map(csv_to_struct, cols)).unnest(cols)

方法二:使用 unpivot() 和 pivot()

这种方法的核心思想是先将数据进行 unpivot 操作,将多个列合并为一个列,然后对列进行处理,最后再进行 pivot 操作,将数据恢复为原来的形式。

小绿鲸英文文献阅读器 小绿鲸英文文献阅读器

英文文献阅读器,专注提高SCI阅读效率

小绿鲸英文文献阅读器 437 查看详情 小绿鲸英文文献阅读器

cols = "blockSizes", "blockStarts"(df.with_row_index()   .with_columns(      pl.col(cols).str.strip_chars(",").str.split(",").cast(pl.List(int))   )   .explode(cols)   .unpivot(index=["index", "chrom"], variable_name="name")   .with_columns(      pl.format("{}_{}",          "name",          pl.col("index").cum_count().over("index", "name") - 1      )   )   .pivot(on="name", index=["index", "chrom"]))

代码解释:

df.with_row_index(): 添加一个行索引列。pl.col(cols).str.strip_chars(“,”).str.split(“,”).cast(pl.List(int)): 与方法一相同,去除逗号,分割字符串,转换为整数列表。.explode(cols): 将列表展开为多行。.unpivot(index=[“index”, “chrom”], variable_name=”name”): 将 blockSizes 和 blockStarts 列 unpivot 为一个名为 name 的列。.with_columns(…): 创建新的列名,使用 pl.format 结合 pl.col(“index”).cum_count().over(“index”, “name”) – 1 生成 blockSizes_0, blockSizes_1 等列名。.pivot(on=”name”, index=[“index”, “chrom”]): 将数据 pivot 回原来的形式。

输出结果:

shape: (4, 6)┌───────┬───────┬──────────────┬──────────────┬───────────────┬───────────────┐│ index ┆ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 ││ ---   ┆ ---   ┆ ---          ┆ ---          ┆ ---           ┆ ---           ││ u32   ┆ str   ┆ i64          ┆ i64          ┆ i64          ┆ i64           │╞═══════╪═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡│ 0     ┆ 1     ┆ 10           ┆ 29           ┆ 0             ┆ 50            ││ 1     ┆ 1     ┆ 20           ┆ 22           ┆ 0             ┆ 45            ││ 2     ┆ 2     ┆ 30           ┆ 25           ┆ 0             ┆ 60            ││ 3     ┆ X     ┆ 40           ┆ 23           ┆ 0             ┆ 70            │└───────┴───────┴──────────────┴──────────────┴───────────────┴───────────────┘

总结

本文介绍了两种使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的方法。第一种方法使用了 str.strip_chars(), str.split(), cast() 和 list.to_struct(),思路清晰,易于理解。第二种方法使用了 unpivot() 和 pivot(),代码更简洁,但理解起来可能稍有难度。选择哪种方法取决于具体的需求和个人偏好。在实际应用中,可以根据数据的特点和性能要求选择最适合的方法。

注意事项:

确保字符串中的数值都是整数,否则在 cast() 步骤会报错。如果字符串中包含缺失值,需要先进行处理,例如使用 str.replace() 将缺失值替换为 0。如果列表的长度不一致,list.to_struct() 会使用最长的列表长度作为结构体的字段数量,较短的列表会用 None 填充。

希望本文能够帮助你更好地使用 Polars 进行数据处理。

以上就是使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/920234.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
win10信任文件在哪里设置 win10添加信任文件的方法
上一篇 2025年11月29日 07:28:19
外星人电脑怎么刷机硬盘教程
下一篇 2025年11月29日 07:28:30

相关推荐

  • 硬盘数据被误删除怎么办?教你快速找回删除的文件!

    硬盘数据被误删除,别慌!恢复数据并非不可能,关键在于你接下来的操作。立刻停止对该硬盘的任何写入操作,然后尝试使用专业的数据恢复软件。 解决方案 首先,数据恢复的原理是,删除文件后,操作系统只是将文件占用的空间标记为“可覆盖”,但文件本身的数据可能还存在于硬盘上。所以,避免新的数据写入覆盖掉旧数据,是…

    2026年5月10日
    000
  • 解决Go语言中GOPATH未设置错误及工作区配置指南

    本文旨在解决go语言开发中常见的“gopath not set”错误,并提供详细的go工作区配置指南。内容涵盖`gopath`环境变量的设置、go项目目录结构、`path`变量的扩展,以及一些高级配置技巧,旨在帮助开发者建立一个高效、规范的go开发环境,确保包的下载、编译和运行顺利进行。 Go语言在…

    2026年5月10日
    000
  • 使用GCP BlobWriter正确写入CSV文件

    本文旨在解决在使用GCP BlobWriter向Google Cloud Storage (GCS) 写入CSV文件时,数据以JSON格式而非CSV格式存储的问题。通过示例代码演示如何正确地使用csv模块配合BlobWriter,将字典数据列表转换为符合CSV标准的格式,并成功写入GCS bucke…

    2026年5月10日
    000
  • Golang模板方法模式与业务逻辑分离

    模板方法模式通过固定算法骨架实现业务逻辑分离,Go中用接口定义Read、Validate、Transform、Save步骤,由CSVProcessor和JSONProcessor等具体类型实现差异化处理,统一流程控制在ProcessDataTemplate函数中。 Golang中的模板方法模式提供了…

    2026年5月10日
    000
  • 使用Python Logging模块优雅地记录Pandas DataFrame

    本文详细介绍了如何利用Python的`logging`模块和`pandas`库,通过自定义`Formatter`类,实现将Pandas DataFrame以格式化、可控行数的方式集成到标准日志流中。这种方法不仅确保了日志输出的一致性,还能通过日志级别和动态参数灵活控制DataFrame的显示细节,避…

    2026年5月10日
    000
  • Pandas教程:高效向DataFrame添加唯一行并重置连续ID

    本教程详细介绍了如何使用pandas高效地向现有dataframe添加新行,同时自动去重并确保id列的连续性。通过结合pd.concat和drop_duplicates方法,并最终重新分配id,我们能够简洁地处理数据合并与清洗任务,避免常见问题。 在数据处理和分析中,我们经常需要将新的数据记录合并到…

    2026年5月10日
    000
  • Web Workers:多线程编程在前端的应用

    Web Workers通过后台线程执行耗时任务,避免主线程阻塞,提升页面流畅性;它适用于大数据处理、图像计算等场景,但需注意通信开销与调试复杂度。 Web Workers 是前端领域一个非常重要的概念,它允许你在浏览器后台运行脚本,而不会阻塞主线程。简单来说,它为JavaScript带来了“多线程”…

    2026年5月10日
    000
  • JavaScript中的Blob对象有哪些应用场景?

    Blob对象用于处理不可变二进制数据,适用于文件分片上传、前端生成文件下载、图像音频处理及离线存储。通过slice()实现大文件分片,结合Fetch上传支持断点续传;利用URL.createObjectURL()和download属性可直接下载动态内容;Canvas和MediaRecorder输出B…

    2026年5月10日
    000
  • Golang bytes字节操作与处理示例

    Go语言bytes包提供高效字节切片操作,支持比较、查找、替换、大小写转换、修剪、拼接及分割合并等功能,适用于二进制数据处理与字符串转换。通过bytes.Equal、bytes.Index、bytes.ReplaceAll、bytes.TrimSpace、bytes.ToUpper/ToLower、…

    2026年5月10日
    000
  • 如何利用Web Workers提升前端应用的性能与响应能力?

    如何利用Web Workers提升前端应用的性能与响应能力?如何利用Web Workers提升前端应用的性能与响应能力?如何利用Web Workers提升前端应用的性能与响应能力?如何利用Web Workers提升前端应用的性能与响应能力?

    Web Workers通过将耗时任务移至后台线程避免主线程阻塞,提升前端性能。它基于独立上下文运行JavaScript,不访问DOM,通过postMessage通信,适用于大数据处理、加密解压等计算密集型任务。创建Worker实例并加载单独JS文件即可实现异步执行,如数组排序不卡页面。需注意结构化克…

    2026年5月10日 用户投稿
    100
  • PyInstaller打包应用时的数据文件依赖管理

    本文深入探讨了PyInstaller打包Python程序为可执行文件时,如何有效处理非脚本类数据文件(如文本文件、图片等)的依赖问题。核心解决方案是确保可执行文件与这些数据文件位于同一目录下,以保证程序能正确访问它们。文章将通过示例说明常见错误场景,并提供最佳实践,帮助开发者构建功能完整的独立应用。…

    2026年5月10日
    000
  • PHP动态网页CSV文件导入_PHP动态网页CSV数据文件导入处理指南

    在日常的Web应用开发中,我们经常会遇到需要从外部导入数据的情况,其中CSV文件因其简洁和通用性,成为了最常见的选择。但别看它只是纯文本,实际处理起来,从文件上传、解析、数据清洗到最终入库,每一步都藏着不少细节和挑战。说白了,就是把用户扔过来的一个文本表格,安全、准确地塞进我们的数据库里。 要实现P…

    2026年5月10日
    000
  • JavaScript中Base64图片到ImageData数组的转换指南

    本文详细介绍了在javascript中如何将base64编码的图片字符串转换为可用于像素级操作的imagedata数组。通过利用html canvas元素和image对象,教程将逐步演示从加载base64图片、绘制到canvas,最终提取imagedata的过程,并提供完整的代码示例及注意事项,帮助…

    2026年5月10日
    000
  • WooCommerce教程:获取指定产品分类下所有产品的SKU

    本教程详细介绍了如何在WooCommerce中获取特定产品分类下所有产品的SKU(库存单位)。通过结合使用WordPress的get_posts函数获取产品ID,并利用get_post_meta函数遍历这些ID以提取每个产品的SKU,最终生成一个包含所有目标SKU的数组。 引言 在WooCommer…

    2026年5月10日
    000
  • C++怎么实现一个高效的字符串分割函数_C++ string与stringstream性能对比

    答案:C++中高效字符串分割推荐使用find+substr手动实现,性能优于stringstream。该方法时间复杂度接近O(n),支持多字符分隔符,通过emplace_back和reserve可进一步优化;而stringstream虽简洁但仅支持单字符分隔符,存在流开销,适合对性能不敏感的简单场景…

    2026年5月10日
    000
  • php数据如何使用策略模式优化代码_php数据策略模式应用场景

    策略模式通过封装不同算法为独立类,实现业务逻辑与具体策略解耦。在PHP中适用于折扣计算、数据导出、权限控制等场景,由上下文调用统一接口,支持运行时切换行为,避免冗长条件判断,提升可维护性与扩展性,符合开闭原则。 在PHP开发中,当处理多种数据格式、计算规则或业务逻辑分支时,代码容易变得臃肿且难以维护…

    2026年5月10日
    000
  • 高效地将变长列表数据整合到Pandas DataFrame中:避免性能碎片化

    本文旨在提供一种高效且健壮的方法,用于将具有不同长度的列表数据作为新列添加到现有pandas dataframe中,特别是在循环场景下避免dataframe碎片化带来的性能问题。通过巧妙结合使用`itertools.zip_longest`进行数据填充和`pd.concat`进行高效合并,本教程将展…

    2026年5月10日
    000
  • html5怎么读取文件_html5用FileReader API读取本地文件内容或属性【读取】

    HTML5的FileReader API支持读取本地文件内容及获取基本信息:一、通过input type=”file”获取File对象;二、用readAsText读取文本;三、用readAsDataURL生成Data URL预览资源;四、用readAsArrayBuffer读…

    2025年12月23日
    200
  • html5怎样插入csv数据表_html5csv表格嵌入与格式化显示【实操】

    可在HTML5页面中用JavaScript实现CSV数据展示:一、File API本地读取;二、fetch加载远程CSV;三、预转JSON再渲染;四、用PapaParse库高兼容解析,均需解析后生成HTML表格。 如果您希望在HTML5页面中直接展示CSV格式的数据,但浏览器本身不支持原生解析CSV…

    2025年12月23日
    000
  • html如何做图标_使用图标字体或SVG制作HTML图标【制作】

    HTML图标实现有四种主流方案:一、图标字体(如Font Awesome),通过CSS调用Unicode码点;二、内联SVG,直接嵌入HTML并用CSS控制;三、SVG sprite,集中管理多图标并按需引用;四、CSS伪元素+SVG数据URI,避免额外请求。 如果您希望在HTML页面中添加图标,但…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信