使用 Polars 将字符串列转换为列表再转换为整数列

程序猿 • 2025年12月14日 17:43:28 • 用户投稿 • 阅读 1

本文介绍了如何使用 Polars 库将包含逗号分隔整数的字符串列转换为整数列。我们将探讨多种方法，包括使用 str.strip_chars()、cast() 和 list.to_struct() 函数，以及使用 unpivot() 和 pivot() 函数进行转换。通过这些方法，可以高效地处理和转换 TSV 文件中 BED12 格式的数据。

在数据处理中，经常会遇到需要将包含特定格式的字符串列转换为其他数据类型的情况。例如，在处理 TSV 文件时，某些列可能包含逗号分隔的整数，这些整数最初以字符串形式存储。为了进行数值分析或进一步处理，我们需要将这些字符串转换为整数列。Polars 是一个高性能的 DataFrame 库，提供了多种灵活的方法来执行这种转换。

使用 str.strip_chars()、cast() 和 list.to_struct()

这种方法的核心思路是首先去除字符串末尾的逗号，然后将字符串分割成列表，再将列表转换为结构体，最后将结构体展开为单独的列。

以下是具体步骤和代码示例：

去除末尾逗号: 使用 str.strip_chars(“,”) 函数去除字符串末尾的逗号。分割字符串: 使用 str.split(“,”) 函数将字符串分割成字符串列表。类型转换: 使用 cast(pl.List(pl.Int32)) 将字符串列表转换为整数列表。转换为结构体: 使用 list.to_struct() 函数将列表转换为结构体。可以使用 fields 参数动态地命名结构体字段。展开结构体: 使用 unnest() 函数将结构体展开为单独的列。

import polars as pldf = pl.DataFrame(    {        "chrom": ["1", "1", "2", "X"],        "blockSizes": ["10,29,", "20,22,", "30,25,", "40,23,"],        "blockStarts": ["0,50,", "0,45,", "0,60,", "0,70,"]    })cols = "blockSizes", "blockStarts"df = (df.with_columns(    pl.col(col)      .str.strip_chars(",")      .str.split(",")      .cast(pl.List(pl.Int32))      .list.to_struct(         n_field_strategy = "max_width",          fields = lambda idx, col=col: f"{col}_{idx}"      )    for col in cols ) .unnest(cols))print(df)

这段代码首先定义了一个 DataFrame df，其中包含字符串列 “blockSizes” 和 “blockStarts”。然后，它使用一个循环来处理这两个列。对于每一列，代码首先去除末尾的逗号，然后将字符串分割成字符串列表，再将字符串列表转换为整数列表，最后将列表转换为结构体并展开。

为了使代码更简洁，可以定义一个函数来执行这些操作：

def csv_to_struct(col):    expr = pl.col(col).str.strip_chars(",").str.split(",")    expr = expr.cast(pl.List(pl.Int32))    return expr.list.to_struct(        n_field_strategy = "max_width",         fields = lambda idx: f"{col}_{idx}"    )cols = "blockSizes", "blockStarts"df = df.with_columns(map(csv_to_struct, cols)).unnest(cols)print(df)

使用 unpivot() 和 pivot()

另一种方法是使用 unpivot() 和 pivot() 函数。这种方法的核心思路是首先将 DataFrame 转换为长格式，然后将列表展开，再将 DataFrame 转换为宽格式。

以下是具体步骤和代码示例：

添加行索引: 使用 with_row_index() 函数添加行索引。分割字符串: 使用 str.strip_chars(“,”) 和 str.split(“,”) 函数将字符串分割成字符串列表，并使用 cast(pl.List(int)) 转换为整数列表。展开列表: 使用 explode() 函数展开列表。转换为长格式: 使用 unpivot() 函数将 DataFrame 转换为长格式。生成列名: 使用 pl.format() 函数生成新的列名。转换为宽格式: 使用 pivot() 函数将 DataFrame 转换为宽格式。

cols = "blockSizes", "blockStarts"df = (df.with_row_index()   .with_columns(      pl.col(cols).str.strip_chars(",").str.split(",").cast(pl.List(int))   )   .explode(cols)   .unpivot(index=["index", "chrom"], variable_name="name")   .with_columns(      pl.format("{}_{}",          "name",          pl.col("index").cum_count().over("index", "name") - 1      )   )   .pivot(on="name", index=["index", "chrom"]))print(df)

这段代码首先添加了行索引，然后将字符串列分割成整数列表，并展开这些列表。接着，它使用 unpivot() 函数将 DataFrame 转换为长格式，并生成新的列名。最后，它使用 pivot() 函数将 DataFrame 转换为宽格式。

总结

本文介绍了两种使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的方法。第一种方法使用 str.strip_chars()、cast() 和 list.to_struct() 函数，这种方法比较直观，易于理解。第二种方法使用 unpivot() 和 pivot() 函数，这种方法更加灵活，可以处理更复杂的情况。选择哪种方法取决于具体的需求和数据格式。在实际应用中，可以根据数据的特点选择最合适的方法。

以上就是使用 Polars 将字符串列转换为列表再转换为整数列的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1377375.html

csv

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

AWS CDK Python Lambda层部署：解决导入错误的关键路径配置

上一篇 2025年12月14日 17:43:23

如何将 Iris 数据集加载到 Pandas DataFrame 中

下一篇 2025年12月14日 17:43:35

用户投稿

解决Go语言中GOPATH未设置错误及工作区配置指南

本文旨在解决go语言开发中常见的“gopath not set”错误，并提供详细的go工作区配置指南。内容涵盖`gopath`环境变量的设置、go项目目录结构、`path`变量的扩展，以及一些高级配置技巧，旨在帮助开发者建立一个高效、规范的go开发环境，确保包的下载、编译和运行顺利进行。 Go语言在…

程序猿
2026年5月10日
0000
用户投稿

使用GCP BlobWriter正确写入CSV文件

本文旨在解决在使用GCP BlobWriter向Google Cloud Storage (GCS) 写入CSV文件时，数据以JSON格式而非CSV格式存储的问题。通过示例代码演示如何正确地使用csv模块配合BlobWriter，将字典数据列表转换为符合CSV标准的格式，并成功写入GCS bucke…

程序猿
2026年5月10日
0000
用户投稿

Golang模板方法模式与业务逻辑分离

模板方法模式通过固定算法骨架实现业务逻辑分离，Go中用接口定义Read、Validate、Transform、Save步骤，由CSVProcessor和JSONProcessor等具体类型实现差异化处理，统一流程控制在ProcessDataTemplate函数中。 Golang中的模板方法模式提供了…

程序猿
2026年5月10日
0000
用户投稿

使用Python Logging模块优雅地记录Pandas DataFrame

本文详细介绍了如何利用Python的`logging`模块和`pandas`库，通过自定义`Formatter`类，实现将Pandas DataFrame以格式化、可控行数的方式集成到标准日志流中。这种方法不仅确保了日志输出的一致性，还能通过日志级别和动态参数灵活控制DataFrame的显示细节，避…

程序猿
2026年5月10日
0000
用户投稿

Pandas教程：高效向DataFrame添加唯一行并重置连续ID

本教程详细介绍了如何使用pandas高效地向现有dataframe添加新行，同时自动去重并确保id列的连续性。通过结合pd.concat和drop_duplicates方法，并最终重新分配id，我们能够简洁地处理数据合并与清洗任务，避免常见问题。在数据处理和分析中，我们经常需要将新的数据记录合并到…

程序猿
2026年5月10日
0000
用户投稿

Web Workers：多线程编程在前端的应用

Web Workers通过后台线程执行耗时任务，避免主线程阻塞，提升页面流畅性；它适用于大数据处理、图像计算等场景，但需注意通信开销与调试复杂度。 Web Workers 是前端领域一个非常重要的概念，它允许你在浏览器后台运行脚本，而不会阻塞主线程。简单来说，它为JavaScript带来了“多线程”…

程序猿
2026年5月10日
0000
用户投稿

JavaScript中的Blob对象有哪些应用场景？

Blob对象用于处理不可变二进制数据，适用于文件分片上传、前端生成文件下载、图像音频处理及离线存储。通过slice()实现大文件分片，结合Fetch上传支持断点续传；利用URL.createObjectURL()和download属性可直接下载动态内容；Canvas和MediaRecorder输出B…

程序猿
2026年5月10日
0000
用户投稿

Golang bytes字节操作与处理示例

Go语言bytes包提供高效字节切片操作，支持比较、查找、替换、大小写转换、修剪、拼接及分割合并等功能，适用于二进制数据处理与字符串转换。通过bytes.Equal、bytes.Index、bytes.ReplaceAll、bytes.TrimSpace、bytes.ToUpper/ToLower、…

程序猿
2026年5月10日
0000
如何利用Web Workers提升前端应用的性能与响应能力？

Web Workers通过将耗时任务移至后台线程避免主线程阻塞，提升前端性能。它基于独立上下文运行JavaScript，不访问DOM，通过postMessage通信，适用于大数据处理、加密解压等计算密集型任务。创建Worker实例并加载单独JS文件即可实现异步执行，如数组排序不卡页面。需注意结构化克…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

PyInstaller打包应用时的数据文件依赖管理

本文深入探讨了PyInstaller打包Python程序为可执行文件时，如何有效处理非脚本类数据文件（如文本文件、图片等）的依赖问题。核心解决方案是确保可执行文件与这些数据文件位于同一目录下，以保证程序能正确访问它们。文章将通过示例说明常见错误场景，并提供最佳实践，帮助开发者构建功能完整的独立应用。…

程序猿
2026年5月10日
0000
用户投稿

PHP动态网页CSV文件导入_PHP动态网页CSV数据文件导入处理指南

在日常的Web应用开发中，我们经常会遇到需要从外部导入数据的情况，其中CSV文件因其简洁和通用性，成为了最常见的选择。但别看它只是纯文本，实际处理起来，从文件上传、解析、数据清洗到最终入库，每一步都藏着不少细节和挑战。说白了，就是把用户扔过来的一个文本表格，安全、准确地塞进我们的数据库里。要实现P…

程序猿
2026年5月10日
0000
用户投稿

JavaScript中Base64图片到ImageData数组的转换指南

本文详细介绍了在javascript中如何将base64编码的图片字符串转换为可用于像素级操作的imagedata数组。通过利用html canvas元素和image对象，教程将逐步演示从加载base64图片、绘制到canvas，最终提取imagedata的过程，并提供完整的代码示例及注意事项，帮助…

程序猿
2026年5月10日
0000
用户投稿

WooCommerce教程：获取指定产品分类下所有产品的SKU

本教程详细介绍了如何在WooCommerce中获取特定产品分类下所有产品的SKU（库存单位）。通过结合使用WordPress的get_posts函数获取产品ID，并利用get_post_meta函数遍历这些ID以提取每个产品的SKU，最终生成一个包含所有目标SKU的数组。引言在WooCommer…

程序猿
2026年5月10日
0000
用户投稿

C++怎么实现一个高效的字符串分割函数_C++ string与stringstream性能对比

答案：C++中高效字符串分割推荐使用find+substr手动实现，性能优于stringstream。该方法时间复杂度接近O(n)，支持多字符分隔符，通过emplace_back和reserve可进一步优化；而stringstream虽简洁但仅支持单字符分隔符，存在流开销，适合对性能不敏感的简单场景…

程序猿
2026年5月10日
0000
用户投稿

php数据如何使用策略模式优化代码_php数据策略模式应用场景

策略模式通过封装不同算法为独立类，实现业务逻辑与具体策略解耦。在PHP中适用于折扣计算、数据导出、权限控制等场景，由上下文调用统一接口，支持运行时切换行为，避免冗长条件判断，提升可维护性与扩展性，符合开闭原则。在PHP开发中，当处理多种数据格式、计算规则或业务逻辑分支时，代码容易变得臃肿且难以维护…

程序猿
2026年5月10日
0000
用户投稿

html5怎么读取文件_html5用FileReader API读取本地文件内容或属性【读取】

HTML5的FileReader API支持读取本地文件内容及获取基本信息：一、通过input type=”file”获取File对象；二、用readAsText读取文本；三、用readAsDataURL生成Data URL预览资源；四、用readAsArrayBuffer读…

程序猿
2025年12月23日
2000
用户投稿

html5怎样插入csv数据表_html5csv表格嵌入与格式化显示【实操】

可在HTML5页面中用JavaScript实现CSV数据展示：一、File API本地读取；二、fetch加载远程CSV；三、预转JSON再渲染；四、用PapaParse库高兼容解析，均需解析后生成HTML表格。如果您希望在HTML5页面中直接展示CSV格式的数据，但浏览器本身不支持原生解析CSV…

程序猿
2025年12月23日
0000
用户投稿

html如何做图标_使用图标字体或SVG制作HTML图标【制作】

HTML图标实现有四种主流方案：一、图标字体（如Font Awesome），通过CSS调用Unicode码点；二、内联SVG，直接嵌入HTML并用CSS控制；三、SVG sprite，集中管理多图标并按需引用；四、CSS伪元素+SVG数据URI，避免额外请求。如果您希望在HTML页面中添加图标，但…

程序猿
2025年12月23日
0000
用户投稿

怎么根据运行结果写html_据运行结果写html代码技巧【技巧】

首先分析程序输出的数据结构，确定其格式如文本、JSON或表格；若为行列数据，使用标签构建表格，配合、、定义行与单元格，并添加边框或CSS提升可读性；若为条目集合，则用或包裹项形成列表，注意转义特殊字符；通过脚本动态读取输出并插入HTML模板，生成完整页面文件；最后对“成功”“失败”等关键词应用颜色样…

程序猿
2025年12月23日
0000
用户投稿

如何添加双虚线html_在HTML中使用CSS添加双虚线边框【边框】

CSS不支持原生双虚线边框，但可通过四种方法模拟：一、border与outline组合；二、伪元素::before叠加；三、box-shadow配合outline；四、SVG背景图像精确绘制。如果您希望在HTML元素上实现双虚线边框效果，CSS本身不直接支持“双虚线”这一单一边框样式，但可通过多重…

程序猿
2025年12月23日
0000