使用 Polars 将包含逗号分隔整数的字符串列转换为整数列

程序猿 • 2025年11月29日 07:28:20 • 用户投稿 • 阅读 1

本文介绍了如何使用 Polars 库将包含逗号分隔整数的字符串列转换为多个整数列。通过 `.str.strip_chars()`, `.cast(pl.List(pl.Int32))`, `.list.to_struct()` 以及 `.unpivot()` 和 `.pivot()` 等方法，可以高效地实现这一转换，并提供了代码示例进行演示，帮助读者更好地理解和应用。

在数据处理中，经常会遇到将包含逗号分隔数值的字符串列转换为数值列的需求。Polars 提供了多种方法来高效地完成这一任务。本文将介绍几种常用的方法，并提供详细的代码示例。

方法一：使用 str.strip_chars(), str.split(), cast() 和 list.to_struct()

这种方法的核心思想是先去除字符串末尾的逗号，然后将字符串分割成列表，再将列表转换为结构体，最后将结构体展开为多个列。

import polars as pldf = pl.DataFrame(    {        "chrom": ["1", "1", "2", "X"],        "blockSizes": ["10,29,", "20,22,", "30,25,", "40,23,"],        "blockStarts": ["0,50,", "0,45,", "0,60,", "0,70,"]    })cols = "blockSizes", "blockStarts"(df.with_columns(    pl.col(col)      .str.strip_chars(",")      .str.split(",")      .cast(pl.List(pl.Int32))      .list.to_struct(         n_field_strategy = "max_width",          fields = lambda idx, col=col: f"{col}_{idx}"      )    for col in cols ) .unnest(cols))

代码解释：

pl.col(col).str.strip_chars(“,”): 去除指定列 col 中字符串末尾的逗号。.str.split(“,”): 将字符串按照逗号分割成字符串列表。.cast(pl.List(pl.Int32)): 将字符串列表转换为整数列表。.list.to_struct(…): 将列表转换为结构体，n_field_strategy=”max_width” 表示使用列表的最大长度作为结构体的字段数量，fields=lambda idx, col=col: f”{col}_{idx}” 用于动态地为结构体字段命名，例如 blockSizes_0, blockSizes_1。.unnest(cols): 将结构体展开为多个列。

输出结果：

shape: (4, 5)┌───────┬──────────────┬──────────────┬───────────────┬───────────────┐│ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 ││ ---   ┆ ---          ┆ ---          ┆ ---           ┆ ---           ││ str   ┆ i32          ┆ i32          ┆ i32           ┆ i32           │╞═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡│ 1     ┆ 10           ┆ 29           ┆ 0             ┆ 50            ││ 1     ┆ 20           ┆ 22           ┆ 0             ┆ 45            ││ 2     ┆ 30           ┆ 25           ┆ 0             ┆ 60            ││ X     ┆ 40           ┆ 23           ┆ 0             ┆ 70            │└───────┴──────────────┴──────────────┴───────────────┴───────────────┘

为了代码更简洁，可以定义一个函数来封装上述操作：

def csv_to_struct(col):    expr = pl.col(col).str.strip_chars(",").str.split(",")    expr = expr.cast(pl.List(pl.Int32))    return expr.list.to_struct(        n_field_strategy = "max_width",         fields = lambda idx: f"{col}_{idx}"    )cols = "blockSizes", "blockStarts"df.with_columns(map(csv_to_struct, cols)).unnest(cols)

方法二：使用 unpivot() 和 pivot()

这种方法的核心思想是先将数据进行 unpivot 操作，将多个列合并为一个列，然后对列进行处理，最后再进行 pivot 操作，将数据恢复为原来的形式。

小绿鲸英文文献阅读器

英文文献阅读器，专注提高SCI阅读效率

437 查看详情

cols = "blockSizes", "blockStarts"(df.with_row_index()   .with_columns(      pl.col(cols).str.strip_chars(",").str.split(",").cast(pl.List(int))   )   .explode(cols)   .unpivot(index=["index", "chrom"], variable_name="name")   .with_columns(      pl.format("{}_{}",          "name",          pl.col("index").cum_count().over("index", "name") - 1      )   )   .pivot(on="name", index=["index", "chrom"]))

代码解释：

df.with_row_index(): 添加一个行索引列。pl.col(cols).str.strip_chars(“,”).str.split(“,”).cast(pl.List(int)): 与方法一相同，去除逗号，分割字符串，转换为整数列表。.explode(cols): 将列表展开为多行。.unpivot(index=[“index”, “chrom”], variable_name=”name”): 将 blockSizes 和 blockStarts 列 unpivot 为一个名为 name 的列。.with_columns(…): 创建新的列名，使用 pl.format 结合 pl.col(“index”).cum_count().over(“index”, “name”) – 1 生成 blockSizes_0, blockSizes_1 等列名。.pivot(on=”name”, index=[“index”, “chrom”]): 将数据 pivot 回原来的形式。

输出结果：

shape: (4, 6)┌───────┬───────┬──────────────┬──────────────┬───────────────┬───────────────┐│ index ┆ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 ││ ---   ┆ ---   ┆ ---          ┆ ---          ┆ ---           ┆ ---           ││ u32   ┆ str   ┆ i64          ┆ i64          ┆ i64          ┆ i64           │╞═══════╪═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡│ 0     ┆ 1     ┆ 10           ┆ 29           ┆ 0             ┆ 50            ││ 1     ┆ 1     ┆ 20           ┆ 22           ┆ 0             ┆ 45            ││ 2     ┆ 2     ┆ 30           ┆ 25           ┆ 0             ┆ 60            ││ 3     ┆ X     ┆ 40           ┆ 23           ┆ 0             ┆ 70            │└───────┴───────┴──────────────┴──────────────┴───────────────┴───────────────┘

总结

本文介绍了两种使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的方法。第一种方法使用了 str.strip_chars(), str.split(), cast() 和 list.to_struct()，思路清晰，易于理解。第二种方法使用了 unpivot() 和 pivot()，代码更简洁，但理解起来可能稍有难度。选择哪种方法取决于具体的需求和个人偏好。在实际应用中，可以根据数据的特点和性能要求选择最适合的方法。

注意事项：

确保字符串中的数值都是整数，否则在 cast() 步骤会报错。如果字符串中包含缺失值，需要先进行处理，例如使用 str.replace() 将缺失值替换为 0。如果列表的长度不一致，list.to_struct() 会使用最长的列表长度作为结构体的字段数量，较短的列表会用 None 填充。

希望本文能够帮助你更好地使用 Polars 进行数据处理。

以上就是使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/920234.html

csv 数据恢复

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

win10信任文件在哪里设置 win10添加信任文件的方法

上一篇 2025年11月29日 07:28:19

外星人电脑怎么刷机硬盘教程

下一篇 2025年11月29日 07:28:30

用户投稿

html5怎么读取文件_html5用FileReader API读取本地文件内容或属性【读取】

HTML5的FileReader API支持读取本地文件内容及获取基本信息：一、通过input type=”file”获取File对象；二、用readAsText读取文本；三、用readAsDataURL生成Data URL预览资源；四、用readAsArrayBuffer读…

程序猿
2025年12月23日
1000
用户投稿

html5怎样插入csv数据表_html5csv表格嵌入与格式化显示【实操】

可在HTML5页面中用JavaScript实现CSV数据展示：一、File API本地读取；二、fetch加载远程CSV；三、预转JSON再渲染；四、用PapaParse库高兼容解析，均需解析后生成HTML表格。如果您希望在HTML5页面中直接展示CSV格式的数据，但浏览器本身不支持原生解析CSV…

程序猿
2025年12月23日
0000
用户投稿

html如何做图标_使用图标字体或SVG制作HTML图标【制作】

HTML图标实现有四种主流方案：一、图标字体（如Font Awesome），通过CSS调用Unicode码点；二、内联SVG，直接嵌入HTML并用CSS控制；三、SVG sprite，集中管理多图标并按需引用；四、CSS伪元素+SVG数据URI，避免额外请求。如果您希望在HTML页面中添加图标，但…

程序猿
2025年12月23日
0000
用户投稿

怎么根据运行结果写html_据运行结果写html代码技巧【技巧】

首先分析程序输出的数据结构，确定其格式如文本、JSON或表格；若为行列数据，使用标签构建表格，配合、、定义行与单元格，并添加边框或CSS提升可读性；若为条目集合，则用或包裹项形成列表，注意转义特殊字符；通过脚本动态读取输出并插入HTML模板，生成完整页面文件；最后对“成功”“失败”等关键词应用颜色样…

程序猿
2025年12月23日
0000
用户投稿

如何添加双虚线html_在HTML中使用CSS添加双虚线边框【边框】

CSS不支持原生双虚线边框，但可通过四种方法模拟：一、border与outline组合；二、伪元素::before叠加；三、box-shadow配合outline；四、SVG背景图像精确绘制。如果您希望在HTML元素上实现双虚线边框效果，CSS本身不直接支持“双虚线”这一单一边框样式，但可通过多重…

程序猿
2025年12月23日
0000
用户投稿

表格如何导出为HTML格式_数据转换教程【方案】

表格数据转HTML有四种方法：一、Excel另存为网页；二、Python pandas的to_html()导出；三、Google Sheets下载HTML；四、Notepad++正则替换生成HTML标签。如果您需要将表格数据转换为HTML格式以便在网页中展示或进一步编辑，则需通过特定工具或代码实现…

程序猿
2025年12月23日
0000
用户投稿

HTML如何连接文字与链接_锚标签使用技巧【详解】

HTML中锚标签（）用于实现文字跳转，包括页面内ID跳转、外部网页链接、新窗口打开、文件下载及样式定制，需注意ID唯一性、URL规范、安全性（rel属性）和可访问性。如果您希望在HTML页面中实现文字与特定位置或外部资源的跳转连接，则需要使用锚标签（）进行定义。以下是锚标签在不同场景下的具体应用方…

程序猿
2025年12月23日
0000
用户投稿

excel如何html_将Excel表格转换为HTML格式展示【表格】

将Excel表格转为网页有五种方法：一、用Excel“另存为网页”快速生成静态HTML；二、复制粘贴至文本编辑器手动编写HTML代码；三、用Python pandas库批量导出带样式的HTML字符串；四、借助在线工具临时转换，注意数据隐私；五、通过Power Query与Power Automate…

程序猿
2025年12月23日
0000
用户投稿

excel如何html_将Excel数据导出为HTML格式【导出】

可将Excel数据导出为HTML：一、用“另存为”直接保存为网页，保留格式；二、复制粘贴后手动添加HTML标签；三、通过Power Query+外部脚本自动化转换；四、用VBA宏编程生成自定义HTML文件。如果您希望将Excel工作表中的数据以网页形式展示或共享，可直接利用Excel内置功能将其保…

程序猿
2025年12月23日
0000
用户投稿

HTML如何放置背景图片_多层叠加技巧解析【方案】

可通过CSS background属性、伪元素、嵌套容器、CSS变量及SVG内联五种方法实现HTML背景图片多层叠加：1. background逗号分隔多图层；2. ::before/::after伪元素独立控制；3. 嵌套容器配合z-index；4. CSS变量动态调节opacity；5. SVG…

程序猿
2025年12月23日
0000
用户投稿

html5如何使用图标_HTML5使用图标字体与SVG图标【图标】

HTML5中实现图标有五种主流方式：一、图标字体（如Font Awesome），通过CDN引入并用标签调用；二、内联SVG，直接嵌入SVG代码并用CSS控制；三、SVG Sprite，整合多图标为单文件并通过引用；四、标签引入外部SVG文件，适合静态图标；五、CSS background-image…

程序猿
2025年12月23日
0000
用户投稿

html5如何读取数据_html5数据读取步骤详解【开发技巧】

HTML5提供五种原生数据读取机制：一、FileReader异步读取本地文件；二、fetch()获取远程结构化数据；三、XMLHttpRequest精细控制请求；四、URL.createObjectURL()预览二进制文件；五、IndexedDB持久化读取本地结构化数据。如果您需要在网页中从本地文…

程序猿
2025年12月23日
0000
用户投稿

JavaScript中如何将Base64图片转换为ImageData数组

本教程详细介绍了如何使用JavaScript将Base64编码的图片字符串转换为`ImageData`数组。通过利用HTML Canvas API，我们可以创建一个图像对象，将其绘制到画布上，然后通过`getImageData`方法提取出包含R、G、B、A像素数据的`Uint8ClampedArra…

程序猿
2025年12月23日
0000
使用Scrapy高效抓取并整合Div内不定数量P标签文本

本文旨在指导如何使用scrapy框架高效地从网页中抓取特定元素内不定数量的标签内容。我们将探讨如何利用xpath表达式精准定位并提取所有目标标签，并通过python的字符串连接方法，将这些分散的文本内容整合为一个单一字段，以便于数据存储和后续处理，解决仅保存最后一个标签的问题。引言：处理动…

程序猿
2025年12月23日 • 用户投稿
0000
用户投稿

Scrapy教程：高效抓取并整合多个P标签内容至单一字段

本教程详细讲解如何使用scrapy框架高效抓取html页面中不确定数量的` `标签内容，并将其整合为一个单一字符串字段，以便于数据存储和导出。文章通过分析常见错误，提供优化的xpath表达式和python代码实现，确保所有目标文本都能被正确提取并聚合。 1. 理解多P标签抓取的需求与挑战在网页抓取…

程序猿
2025年12月23日
0000
用户投稿

如何使用Scrapy和XPath高效抓取div中可变数量的p标签并合并存储

本文详细介绍了如何利用scrapy框架和xpath表达式，从网页中准确提取特定`div`元素内数量不定的` `标签内容，并将其合并为单个字符串进行存储。通过分析常见问题，提供了一种简洁高效的解决方案，确保所有段落内容都能被正确抓取并导出到csv文件，避免只存储最后一个段落的错误。在进行网页抓取时，…

程序猿
2025年12月23日
0000
用户投稿

JavaScript中处理表格数据：将扁平数组行转换为结构化对象记录

本教程详细介绍了如何在javascript中将从google sheets或excel等表格数据源获取的扁平数组（数组的数组）转换为更具语义化和易于操作的结构化对象数组。我们将利用array.prototype.reduce()方法，通过索引映射和数组切片技术，高效地将每一行数据转换为包含明确属性的…

程序猿
2025年12月23日
1000
用户投稿

JavaScript数据转换：将扁平数组重塑为结构化对象数组

本教程详细介绍了如何使用javascript将常见的扁平二维数组（例如从电子表格获取的数据）转换为结构化的对象数组。通过运用`array.prototype.reduce()`方法，我们将学习如何遍历原始数据，并根据预设的键值对创建新的对象，同时处理嵌套数组的生成，从而提升数据可读性和易用性。数据…

程序猿
2025年12月23日
0000
用户投稿

JavaScript中Base64图片到ImageData数组的转换指南

本文详细介绍了在javascript中如何将base64编码的图片字符串转换为可用于像素级操作的imagedata数组。通过利用html canvas元素和image对象，教程将逐步演示从加载base64图片、绘制到canvas，最终提取imagedata的过程，并提供完整的代码示例及注意事项，帮助…

程序猿
2025年12月23日
0000
用户投稿

JavaScript教程：将Base64图片转换为ImageData数组

本文详细介绍了在javascript中如何将base64编码的图片字符串转换为imagedata数组。通过利用image对象和html canvas api，我们将学习如何解码base64数据，将其绘制到画布上，并最终提取出包含原始像素数据（rgba值）的一维数组，并提供实用的代码示例进行指导。在…

程序猿
2025年12月23日
0000