
本文详细介绍了如何使用 `jq` 工具对 json 数据进行高效的递归清理。内容涵盖了如何递归地移除空值(包括空字符串、空数组、空对象及空键值对),修剪所有字符串的空白,并将特定字符串(如 “true” 和 “false”)转换为布尔类型。文章通过优化 `walk` 函数,提供了一个高性能的 `jq` 解决方案,旨在降低 cpu 占用,提升数据预处理效率。
在数据处理流程中,经常需要对复杂的 JSON 数据进行清洗和标准化。这些操作包括移除无效或空的数据项、统一数据格式以及进行类型转换。对于嵌套层级较深的 JSON 结构,手动编写递归逻辑不仅繁琐,而且容易出错。jq 作为一款强大的命令行 JSON 处理器,提供了处理此类需求的优雅方案。
核心需求分析
本次数据清洗任务的核心需求可以归纳为以下几点:
递归移除空值: 需要从 JSON 结构中的任何层级移除以下类型的空值:空数组 ([])空对象 ({})空字符串 (“”),包括仅包含空白字符的字符串 (” “, “t”)键为空字符串的对象属性 ({“”: 5})值为 null 的属性。递归修剪字符串空白: 对 JSON 中所有字符串类型的值(包括对象键)进行前后空白字符的修剪。字符串到布尔值的类型转换: 将字符串 “true” 转换为布尔值 true,将字符串 “false” 转换为布尔值 false。
所有这些操作都必须以递归方式应用于整个 JSON 结构。
jq 中的 walk 函数与递归处理
jq 提供了一个内置的 walk 函数,它允许用户对 JSON 结构中的每个节点应用一个过滤器。walk(f) 的基本思想是:对于每个节点,它首先递归地处理其子节点,然后将函数 f 应用于当前节点。这使得 walk 成为处理递归清洗任务的理想选择。
用户最初尝试的 jq 解决方案利用了 walk 函数,并根据节点类型应用不同的清洗逻辑:
jq 'walk( if type == "string" then # 字符串处理:修剪空白并转换为布尔值 (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then . |= true else . end | if . == "false" then . |= false else . end) elif type == "object" then # 对象处理:修剪键的空白,并移除空键或空值的条目 with_entries( select(.value | . != "" and . != null and . != [] and . != {}) # 过滤空值 | .key |= sub("^[[:space:]]+"; "") | .key |= sub("[[:space:]]+$"; "") # 修剪键的空白 | select(.key | length > 0) # 过滤空键 ) elif type == "array" then # 数组处理:移除空元素 map(select(. | . != "" and . != null and . != [] and . != {})) # 过滤空值 else . end)'
这个方案在功能上是完整的,能够实现所有预期的清洗和转换。然而,在处理大规模数据或性能敏感的环境中,内置的 walk 函数可能不是最优选择,尤其是在 CPU 密集型场景下。
优化 walk 函数以提升性能
为了提高处理效率,我们可以定义一个自定义的、更高效的 walk 函数。标准的 jq 内置 walk 在某些实现中可能存在性能开销。通过自定义 walk 函数,我们可以更精细地控制递归过程,尤其是在对象处理上,使用 reduce keys_unsorted[] 通常比其他方法更高效。
以下是优化后的 walk 函数定义:
# 定义一个优化的 walk 函数def walk(f): def w: if type == "object" then # 对于对象,递归处理每个键值对,然后将函数 f 应用于整个对象 . as $in | reduce keys_unsorted[] as $key ( {}; . + { ($key): ($in[$key] | w) } ) | f elif type == "array" then # 对于数组,递归处理每个元素,然后将函数 f 应用于整个数组 map( w ) | f else # 对于其他类型(如字符串、数字、布尔值、null),直接应用函数 f f end; w;
这个优化后的 walk 函数通过以下方式提升了性能:
明确的递归路径: 对于对象和数组,它明确地通过 reduce keys_unsorted[] 和 map 来处理子元素,然后将 f 应用于当前节点。避免不必要的拷贝: reduce 配合 {} 初始化和 .+ 操作通常比其他对象构建方式更高效。直接应用 f: 对于非容器类型(字符串、数字等),直接应用 f,减少了额外的处理开销。
结合优化 walk 与数据清洗逻辑
现在,我们将之前的数据清洗和转换逻辑封装到一个独立的 jq 过滤器中,并将其作为参数传递给优化后的 walk 函数。
# 定义优化的 walk 函数def walk(f): def w: if type == "object" then . as $in | reduce keys_unsorted[] as $key ( {}; . + { ($key): ($in[$key] | w) } ) | f elif type == "array" then map( w ) | f else f end; w;# 定义数据清洗和转换逻辑def cleanup_transform_filter: if type == "string" then # 字符串处理:修剪空白并转换为布尔值 (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "") | if . == "true" then true elif . == "false" then false else . end) elif type == "object" then # 对象处理:修剪键的空白,并移除空键或空值的条目 with_entries( .key |= (sub("^[[:space:]]+"; "") | sub("[[:space:]]+$"; "")) # 修剪键的空白 | select(.key | length > 0) # 过滤空键 | select(.value | . != "" and . != null and . != [] and . != {}) # 过滤空值 ) elif type == "array" then # 数组处理:移除空元素 map(select(. | . != "" and . != null and . != [] and . != {})) # 过滤空值 else . # 其他类型保持不变 end;# 应用优化后的 walk 函数和清洗逻辑walk(cleanup_transform_filter)
示例输入 JSON:
{ "key1": " value1 ", "key2": "", "key3": "true", "key4": "false", "key5": null, "key6": [], "key7": {}, " key8 ": 123, "key9": [ " array_val ", "", null, {}, "false" ], "key10": { "sub_key1": " sub_val ", "sub_key2": "", " ": 456, "sub_key3": [] }, "": "empty_key_value"}
使用上述 jq 脚本处理后的输出:
{ "key1": "value1", "key3": true, "key4": false, "key8": 123, "key9": [ "array_val", false ], "key10": { "sub_key1": "sub_val" }}
从输出可以看出:
所有字符串前后空白已被修剪。字符串 “true” 和 “false” 已转换为布尔值。空字符串、null、空数组、空对象以及空键的属性均已被移除。
注意事项与总结
jq 版本兼容性: 上述脚本中使用的 sub 函数和 . != “” and . != null … 这种组合适用于 jq 1.6 及更高版本。如果使用更旧的版本,可能需要调整某些语法。特别是,IN 运算符在较旧的 jq 版本中不可用,因此使用 or 组合条件是更通用的做法。性能考量: 尽管优化了 walk 函数,但对于极其庞大且嵌套极深的 JSON 数据,jq 的递归处理仍然会消耗一定的 CPU 资源。如果数据量达到 TB 级别,或者对延迟有极高的要求,可能需要考虑流式处理(如 jq –stream)或使用其他语言(如 Python、Go)编写更定制化的解析器。可读性与维护性: 将清洗逻辑封装到独立的 def 过滤器中,可以提高脚本的可读性和维护性。当需要修改清洗规则时,只需调整 cleanup_transform_filter 即可。避免重复造轮子: jq 在处理 JSON 结构化数据方面表现出色,尤其是在递归遍历和转换方面。在考虑使用其他编程语言(如 JavaScript 或 Groovy)重写之前,应充分探索 jq 的优化潜力,因为它往往能以更简洁、高效的方式解决此类问题。
通过上述优化方案,我们能够在 jq 中高效地实现复杂的 JSON 数据清洗和转换任务,从而更好地支持数据预处理流程。
以上就是使用 jq 高效递归清理 JSON 数据:移除空值、类型转换与字符串修剪的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1529208.html
微信扫一扫
支付宝扫一扫