
本文介绍了如何使用 Polars 库将包含逗号分隔整数的字符串列转换为多个整数列。通过 `.str.strip_chars()`, `.cast(pl.List(pl.Int32))`, `.list.to_struct()` 以及 `.unpivot()` 和 `.pivot()` 等方法,可以高效地实现这一转换,并提供了代码示例进行演示,帮助读者更好地理解和应用。
在数据处理中,经常会遇到将包含逗号分隔数值的字符串列转换为数值列的需求。Polars 提供了多种方法来高效地完成这一任务。本文将介绍几种常用的方法,并提供详细的代码示例。
方法一:使用 str.strip_chars(), str.split(), cast() 和 list.to_struct()
这种方法的核心思想是先去除字符串末尾的逗号,然后将字符串分割成列表,再将列表转换为结构体,最后将结构体展开为多个列。
import polars as pldf = pl.DataFrame( { "chrom": ["1", "1", "2", "X"], "blockSizes": ["10,29,", "20,22,", "30,25,", "40,23,"], "blockStarts": ["0,50,", "0,45,", "0,60,", "0,70,"] })cols = "blockSizes", "blockStarts"(df.with_columns( pl.col(col) .str.strip_chars(",") .str.split(",") .cast(pl.List(pl.Int32)) .list.to_struct( n_field_strategy = "max_width", fields = lambda idx, col=col: f"{col}_{idx}" ) for col in cols ) .unnest(cols))
代码解释:
pl.col(col).str.strip_chars(“,”): 去除指定列 col 中字符串末尾的逗号。.str.split(“,”): 将字符串按照逗号分割成字符串列表。.cast(pl.List(pl.Int32)): 将字符串列表转换为整数列表。.list.to_struct(…): 将列表转换为结构体,n_field_strategy=”max_width” 表示使用列表的最大长度作为结构体的字段数量,fields=lambda idx, col=col: f”{col}_{idx}” 用于动态地为结构体字段命名,例如 blockSizes_0, blockSizes_1。.unnest(cols): 将结构体展开为多个列。
输出结果:
shape: (4, 5)┌───────┬──────────────┬──────────────┬───────────────┬───────────────┐│ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 ││ --- ┆ --- ┆ --- ┆ --- ┆ --- ││ str ┆ i32 ┆ i32 ┆ i32 ┆ i32 │╞═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡│ 1 ┆ 10 ┆ 29 ┆ 0 ┆ 50 ││ 1 ┆ 20 ┆ 22 ┆ 0 ┆ 45 ││ 2 ┆ 30 ┆ 25 ┆ 0 ┆ 60 ││ X ┆ 40 ┆ 23 ┆ 0 ┆ 70 │└───────┴──────────────┴──────────────┴───────────────┴───────────────┘
为了代码更简洁,可以定义一个函数来封装上述操作:
def csv_to_struct(col): expr = pl.col(col).str.strip_chars(",").str.split(",") expr = expr.cast(pl.List(pl.Int32)) return expr.list.to_struct( n_field_strategy = "max_width", fields = lambda idx: f"{col}_{idx}" )cols = "blockSizes", "blockStarts"df.with_columns(map(csv_to_struct, cols)).unnest(cols)
方法二:使用 unpivot() 和 pivot()
这种方法的核心思想是先将数据进行 unpivot 操作,将多个列合并为一个列,然后对列进行处理,最后再进行 pivot 操作,将数据恢复为原来的形式。
小绿鲸英文文献阅读器
英文文献阅读器,专注提高SCI阅读效率
437 查看详情
cols = "blockSizes", "blockStarts"(df.with_row_index() .with_columns( pl.col(cols).str.strip_chars(",").str.split(",").cast(pl.List(int)) ) .explode(cols) .unpivot(index=["index", "chrom"], variable_name="name") .with_columns( pl.format("{}_{}", "name", pl.col("index").cum_count().over("index", "name") - 1 ) ) .pivot(on="name", index=["index", "chrom"]))
代码解释:
df.with_row_index(): 添加一个行索引列。pl.col(cols).str.strip_chars(“,”).str.split(“,”).cast(pl.List(int)): 与方法一相同,去除逗号,分割字符串,转换为整数列表。.explode(cols): 将列表展开为多行。.unpivot(index=[“index”, “chrom”], variable_name=”name”): 将 blockSizes 和 blockStarts 列 unpivot 为一个名为 name 的列。.with_columns(…): 创建新的列名,使用 pl.format 结合 pl.col(“index”).cum_count().over(“index”, “name”) – 1 生成 blockSizes_0, blockSizes_1 等列名。.pivot(on=”name”, index=[“index”, “chrom”]): 将数据 pivot 回原来的形式。
输出结果:
shape: (4, 6)┌───────┬───────┬──────────────┬──────────────┬───────────────┬───────────────┐│ index ┆ chrom ┆ blockSizes_0 ┆ blockSizes_1 ┆ blockStarts_0 ┆ blockStarts_1 ││ --- ┆ --- ┆ --- ┆ --- ┆ --- ┆ --- ││ u32 ┆ str ┆ i64 ┆ i64 ┆ i64 ┆ i64 │╞═══════╪═══════╪══════════════╪══════════════╪═══════════════╪═══════════════╡│ 0 ┆ 1 ┆ 10 ┆ 29 ┆ 0 ┆ 50 ││ 1 ┆ 1 ┆ 20 ┆ 22 ┆ 0 ┆ 45 ││ 2 ┆ 2 ┆ 30 ┆ 25 ┆ 0 ┆ 60 ││ 3 ┆ X ┆ 40 ┆ 23 ┆ 0 ┆ 70 │└───────┴───────┴──────────────┴──────────────┴───────────────┴───────────────┘
总结
本文介绍了两种使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的方法。第一种方法使用了 str.strip_chars(), str.split(), cast() 和 list.to_struct(),思路清晰,易于理解。第二种方法使用了 unpivot() 和 pivot(),代码更简洁,但理解起来可能稍有难度。选择哪种方法取决于具体的需求和个人偏好。在实际应用中,可以根据数据的特点和性能要求选择最适合的方法。
注意事项:
确保字符串中的数值都是整数,否则在 cast() 步骤会报错。如果字符串中包含缺失值,需要先进行处理,例如使用 str.replace() 将缺失值替换为 0。如果列表的长度不一致,list.to_struct() 会使用最长的列表长度作为结构体的字段数量,较短的列表会用 None 填充。
希望本文能够帮助你更好地使用 Polars 进行数据处理。
以上就是使用 Polars 将包含逗号分隔整数的字符串列转换为整数列的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/920234.html
微信扫一扫
支付宝扫一扫