Python数据清洗：高效移除JSON文件中的NaN值

程序猿 • 2025年12月14日 11:35:49 • 用户投稿 • 阅读 1

本教程旨在指导如何使用Python准确地从JSON数据中移除NaN（非数字）值。文章将详细阐述NaN与null（Python中的None）的区别，并提供一个基于math.isnan()的健壮解决方案，以实现选择性地过滤掉包含NaN的键值对，从而确保数据纯净性，同时保留合法的null值。

引言：理解JSON中的NaN与Null

在数据处理和交换中，json（javascript object notation）是一种广泛使用的轻量级数据格式。然而，在从数据库、科学计算或数据分析工具（如pandas）导出数据时，我们经常会遇到两种特殊的值：nan（not a number，非数字）和null。尽管它们都表示“缺失”或“无效”的概念，但在语义和处理方式上却有着本质的区别：

NaN: 通常来源于浮点数运算的无效结果（如0/0，sqrt(-1)）或数据集中表示缺失的浮点数。在Python中，NaN由float(‘nan’)表示，它是一个浮点数类型。一个关键特性是NaN不等于自身（NaN != NaN），这使得直接比较变得复杂。Null: 在JSON中表示一个空值或缺失值，对应于Python中的None。它是一个独立的类型，与数字类型无关，并且可以被视为有效但为空的数据。

我们的目标是精确地移除JSON数据中所有值为NaN的键值对，同时保留值为null（Python中的None）的键值对。例如，{“height”: null}应该被保留，而{“weight”: NaN}则应该被移除。

核心挑战：识别NaN的特殊性

由于NaN != NaN的特性，我们不能简单地使用value == float(‘nan’)来判断一个值是否为NaN。Python的math模块提供了一个专门用于此目的的函数：math.isnan()。

为了准确识别一个值是否为NaN，我们需要两个条件：

类型检查: 确保该值首先是一个浮点数类型。因为math.isnan()只适用于浮点数。NaN判断: 使用math.isnan()来确认这个浮点数是否确实是NaN。

因此，判断一个值value是否为NaN的可靠条件是 isinstance(value, float) and math.isnan(value)。

立即学习“Python免费学习笔记（深入）”；

解决方案：构建NaN移除函数

我们将创建一个辅助函数remove_nans，它接收一个字典对象，并返回一个移除了所有NaN键值对的新字典。这个函数将利用字典推导式和上述的NaN识别逻辑。

首先，假设我们有一个包含多个JSON对象的列表，其中一些对象包含NaN和null值：

import mathimport json# 模拟输入JSON数据# 注意：在实际的JSON文件中，NaN通常会被json.loads()转换为float('nan')# 或者在序列化时被json.dumps()转换为null。# 这里我们直接构造Python对象来模拟解析后的数据。data = [    {        "name": "John Doe",        "age": 30,        "height": None,  # JSON null        "weight": float('nan'), # JSON NaN        "city": "New York"    },    {        "name": "Jim Hanks",        "age": float('nan'),        "height": float('nan'),        "weight": float('nan'),        "occupation": None    },    {        "id": 101,        "value": 123.45,        "status": "active"    }]print("原始数据示例:")for item in data:    print(item)print("-" * 30)# 定义移除NaN的函数def remove_nans(obj):    """    从字典对象中移除所有值为NaN的键值对。    保留None（JSON null）值。    """    # 使用字典推导式遍历所有键值对    # 条件：如果值不是浮点数NaN，则保留该键值对    return {        key: value        for key, value in obj.items()        if not (isinstance(value, float) and math.isnan(value))    }# 应用函数到数据列表中的每个字典processed_data = [remove_nans(row) for row in data]print("处理后的数据示例:")for item in processed_data:    print(item)

代码解析：

import math 和 import json: 导入必要的模块。math用于isnan函数，json虽然在此示例中直接构造了Python对象，但在实际应用中会用于加载和保存JSON文件。data: 这是一个列表，其中包含了多个字典，每个字典代表一个JSON对象。我们手动将NaN表示为float(‘nan’)，将null表示为None，以模拟JSON解析后的Python对象。remove_nans(obj) 函数:它接收一个字典obj作为输入。{key: value for key, value in obj.items() if …} 是一个字典推导式，它遍历输入字典的所有键值对。if not (isinstance(value, float) and math.isnan(value)) 是核心过滤条件。isinstance(value, float) 检查value是否为浮点数类型。math.isnan(value) 检查该浮点数是否为NaN。not (…) 表示只有当value不是一个NaN浮点数时，才将该键值对保留在新字典中。例如，如果value是None，isinstance(None, float)为False，整个条件not (False and …)为True，所以None会被保留。如果value是float(‘nan’)，isinstance(float(‘nan’), float)为True，math.isnan(float(‘nan’))为True，整个条件not (True and True)为False，所以float(‘nan’)会被移除。processed_data = [remove_nans(row) for row in data]: 使用列表推导式，将remove_nans函数应用于data列表中的每个字典，生成一个全新的、经过清洗的字典列表。

完整示例代码

为了展示一个更完整的流程，包括从JSON字符串加载数据和最终输出，我们可以结合json模块：

import mathimport json# 模拟原始JSON字符串数据# 注意：在JSON标准中，NaN不是一个合法的字面量。# 通常，float('nan')在json.dumps时会被转换为null。# 但如果JSON文件是从某些非标准源生成，可能包含字符串"NaN"。# 本教程假设我们处理的是解析后Python对象中的float('nan')。json_string = """[  {    "name": "John Doe",    "age": 30,    "height": null,    "weight": NaN,    "city": "New York"  },  {    "name": "Jim Hanks",    "age": NaN,    "height": NaN,    "weight": NaN,    "occupation": null  },  {    "id": 101,    "value": 123.45,    "status": "active"  }]"""# 为了让json.loads能够处理非标准的"NaN"字符串，需要自定义parse_constant# 否则，如果json_string中直接是"NaN"，json.loads会报错。# 如果实际JSON文件中的NaN是"null"，则不需要这一步。# 这里我们假设数据源已经正确地将NaN转换为Python的float('nan')。# 如果json_string中直接是NaN，需要这样处理：# import re# json_string_parsed = re.sub(r'NaN', 'null', json_string) # 或者其他处理# data_from_json = json.loads(json_string_parsed)# 更直接模拟问题中的情况，假设json.loads能够处理或我们直接构造了包含float('nan')的Python对象# 实际的json.loads()默认会将NaN转换为null，除非自定义parser。# 因此，为了匹配问题中“weight: NaN”在Python中被识别为float('nan')的场景，# 我们直接使用前面构造的Python对象来演示。data_from_json = [    {        "name": "John Doe",        "age": 30,        "height": None,        "weight": float('nan'),        "city": "New York"    },    {        "name": "Jim Hanks",        "age": float('nan'),        "height": float('nan'),        "weight": float('nan'),        "occupation": None    },    {        "id": 101,        "value": 123.45,        "status": "active"    }]print("--- 原始数据（Python对象形式）---")print(json.dumps(data_from_json, indent=2, default=lambda x: str(x) if math.isnan(x) else x)) # 打印时将NaN转换为字符串显示# 定义移除NaN的函数def remove_nans(obj):    """    从字典对象中移除所有值为NaN的键值对。    保留None（JSON null）值。    """    return {        key: value        for key, value in obj.items()        if not (isinstance(value, float) and math.isnan(value))    }# 应用函数到数据列表中的每个字典processed_data = [remove_nans(row) for row in data_from_json]print("n--- 处理后的数据（Python对象形式）---")print(json.dumps(processed_data, indent=2))# 期望的JSON输出格式：# { "name": "John Doe", "age": 30, "height": null, "city": "New York" }# { "name": "Jim Hanks", "occupation": null }# { "id": 101, "value": 123.45, "status": "active" }

运行上述代码，你会看到weight、age和height中所有float(‘nan’)值对应的键值对都被成功移除，而null（None）值则被保留。

注意事项与最佳实践

输入数据格式的假设: 本教程的核心是处理Python对象中float(‘nan’)形式的NaN。

如果JSON文件中的NaN是字符串”NaN”: json.loads()在默认情况下会报错，因为”NaN”不是一个合法的JSON值。你需要预处理JSON字符串（例如使用str.replace(‘”NaN”‘, ‘null’)）或提供自定义的parse_constant函数给json.loads()。json.dumps()的默认行为: 当将包含float(‘nan’)的Python对象序列化为JSON字符串时，json.dumps()通常会将float(‘nan’)转换为null。如果你的目标是输出一个不含null的JSON，那么在序列化之前移除NaN是必要的。

处理嵌套结构: 上述remove_nans函数仅适用于单层字典。如果你的JSON数据包含嵌套的字典或列表，你需要一个递归函数来遍历所有层级。

def remove_nans_recursive(obj):    if isinstance(obj, dict):        return {            key: remove_nans_recursive(value)            for key, value in obj.items()            if not (isinstance(value, float) and math.isnan(value))        }    elif isinstance(obj, list):        return [remove_nans_recursive(elem) for elem in obj]    else:        # 对于非字典、非列表的叶子节点，直接返回其值        # 确保NaN浮点数不被保留        if isinstance(obj, float) and math.isnan(obj):            return None # 或者其他处理，这里为了兼容可以返回None，但通常应该在父级被过滤        return obj

请注意，在递归版本中，如果一个叶子节点是NaN，它最终会被父级字典的过滤条件移除。如果递归到它本身，它会被if isinstance(obj, float) and math.isnan(obj): return None处理。更严谨的做法是让父级负责过滤，因此叶子节点可以直接返回obj。

# 改进后的递归版本，确保过滤逻辑在字典层级生效def remove_nans_recursive_v2(obj):    if isinstance(obj, dict):        cleaned_dict = {}        for key, value in obj.items():            if not (isinstance(value, float) and math.isnan(value)):                cleaned_dict[key] = remove_nans_recursive_v2(value)        return cleaned_dict    elif isinstance(obj, list):        return [remove_nans_recursive_v2(elem) for elem in obj]    else:        return obj # 非字典、非列表的叶子节点直接返回

性能考量: 对于非常大的JSON文件或数据流，一次性加载到内存并处理可能效率低下。在这种情况下，可以考虑使用迭代器或流式解析库（如ijson）来逐块处理数据。

None与NaN的区分: 再次强调，本教程的解决方案精确地区分了None和NaN。如果你也想移除null值，只需修改过滤条件，例如 if value is not None and not (isinstance(value, float) and math.isnan(value))。

总结

通过本教程，我们学习了如何在Python中利用math.isnan()函数，结合类型检查，高效且精确地从JSON数据中移除NaN值。这种方法不仅能够处理常见的NaN场景，还能确保null值得到正确保留，从而满足严格的数据清洗要求。掌握这一技巧对于任何处理外部数据源并需要维护数据质量的Python开发者都至关重要。

以上就是Python数据清洗：高效移除JSON文件中的NaN值的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1371604.html

java javascript js json python 区别工具键值对

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python requests 模块获取特定类别随机词汇的挑战与API选择指南

上一篇 2025年12月14日 11:35:39

Flask set_cookie 失效问题解析与正确实践

下一篇 2025年12月14日 11:35:56

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
1000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
如何在网页 F12 调试中查看鼠标悬停时才出现的 DOM 元素？

如何在网页 f12 调试中查看鼠标悬停时才出现的 dom 元素？在 f12 调试模式下，鼠标悬停时才出现的 dom 元素无法通过直接选择查看。解决方法根据显示原理的不同而有所区别： 1. css 控制的元素强制开启悬停状态：在 firefox 浏览器中，可以通过在开发者工具中手动开启选中元素的 …

程序猿
2025年12月24日 • 好文分享
2000
好文分享

如何直接访问 Sass 地图变量的值？

直接访问 sass 地图变量的值在 sass 中，我们可以使用地图变量来存储一组键值对。而有时候，我们可能需要直接访问其中的某个值。可以通过 map-get 函数直接从地图中获取特定的值。语法如下： map-get($map, $key) 其中： $map 是我们要获取值的 sass 地图变量。…

程序猿
2025年12月24日
0000
好文分享

TDesign UI库中小程序开发的CSS选择器：为什么“.t-grid–card”能生效？

TDesign UI库中CSS选择器困惑在小程序开发中，使用TDesign UI库时，您可能会遇到一个困惑的CSS选择器。例如，在DOM结构中，一个元素的class为”t-grid t-card class t-class”, 但其CSS选择器却是”&#8216…

程序猿
2025年12月24日
1000
好文分享

逻辑属性与旧版属性：如何根据文本方向选择合适的CSS属性？

CSS 逻辑属性与旧版属性 CSS 中引入了逻辑属性和旧版属性的概念。这些属性负责控制页面元素的外观和布局。逻辑属性逻辑属性以逻辑方向命名，如左右、上下。它们根据元素在文档流中的位置来确定元素的外观。例如：立即学习“前端免费学习笔记（深入）”； marginBlockStart：控制元素在垂直…

程序猿
2025年12月24日
1000
好文分享

CSS 逻辑属性和旧版属性：如何选择？

css逻辑属性与旧版属性 css中，逻辑属性和旧版属性用于控制元素的布局和外观。然而，两者在语法和使用方式上有所不同。逻辑属性逻辑属性是基于元素在现实世界中的预期行为来命名的。它使用诸如 “start”、”end” 和 “block&#…

程序猿
2025年12月24日
2000
好文分享

您不需要 CSS 预处理器

原生 css 在最近几个月/几年里取得了长足的进步。在这篇文章中，我将回顾人们使用 sass、less 和 stylus 等 css 预处理器的主要原因，并向您展示如何使用原生 css 完成这些相同的事情。分隔文件分离文件是人们使用预处理器的主要原因之一。尽管您已经能够将另一个文件导入到 css…

程序猿
2025年12月24日
1000
好文分享

动态样式类名为何失效：嵌套与并列选择器的区别在哪里？

动态样式类名不起作用：嵌套与并列问题在使用动态样式类名时，有时会遇到尽管触发事件但样式却没有改变的情况。这可能是由于使用了后代选择器而造成的。以提供的代码为例：块中，嵌套的类是content类的后代。这意味着类仅在元素包含子元素时才能生效。为了解决这个问题，需要将与类编写为并列，而不是嵌套方…

程序猿
2025年12月24日
3000
好文分享

CSS 定位属性：六种定位方式的区别是什么？

CSS中的定位属性及其区别 CSS中的 position 属性定义元素的定位行为，它共有六个可供选择的属性值，分别是：静态定位 (static)：默认值，元素按照正常文档流进行定位。相对定位 (relative)：元素相对于自身原本的位置进行偏移。绝对定位 (absolute)：元素相对于最近的非…

程序猿
2025年12月24日
1000
好文分享

父元素仅设置 Line-height 对子元素高度的影响：行内块级元素与块级元素有什么区别？

父元素仅设置 Line-height 对子元素的块级或行内块级元素的影响当父元素只设置了 Line-height 而没有设置高度时，对其子元素的影响将取决于子元素的类型。如果子元素是行内块级元素，如 inine-block，父元素的 Line-height 将成为子元素的高度。这是因为行内块级元…

程序猿
2025年12月24日
1000
好文分享

当父元素仅设置行高时，块级和行内块级元素的行为有何区别？

当父元素仅设置行高时，块级或行内块级子元素的行为在 html 中，当父元素仅设置行高 line-height 时，块级或行内块级元素的行为会有所不同。 <line-height: 60px; background-color: antiquewhite; 哈哈哈行内块级元素（display…

程序猿
2025年12月24日
3000
好文分享

为什么将perspective样式设置在带有transform-style: preserve-3d样式的元素的父级元素上才能得到预期的3D变换效果？

perspective必须设置在带有transform style: preserve-3d样式的元素的父级元素上吗？问题：你的HTML和CSS代码中，将perspective样式设置在了.scene元素上，当你将其移动到.cube元素后，效果却发生了变化。这是为什么？解答： perspect…

程序猿
2025年12月24日
0000
好文分享

perspective属性设置在父元素和后代元素上，对3D效果有什么区别？

perspective属性的位置对3d效果的影响通常情况下，perspective属性需要设置在应用了transform-style: preserve-3d属性的父元素上。然而，如果perspective属性设置在后代元素上会产生不同的效果。为了演示区别，让我们扩展已有的示例： front b…

程序猿
2025年12月24日
0000
好文分享

CSS perspective 属性，设置在不同元素上会产生什么区别？

perspective 属性在不同元素上的效果对比 CSS 中的 perspective 属性用于指定 3D 转换的视角距离。它可以通过改变物体相对于观察者的远近距离来创建三维效果。然而，将 perspective 设置在不同的元素上会产生不同的效果。根据提供的代码，我们将 perspective…

程序猿
2025年12月24日
0000
好文分享

## PostCSS vs. Sass/Less/Stylus：如何选择合适的 CSS 代码编译工具？

PostCSS 与 Sass/Less/Stylus：CSS 代码编译转换中的异同在 CSS 代码的编译转换领域，PostCSS 与 Sass/Less/Stylus 扮演着重要的角色，但它们的作用却存在细微差异。区别 PostCSS 主要是一种 CSS 后处理器，它在 CSS 代码编译后进行处…

程序猿
2025年12月24日
0000
好文分享

CSS flex 布局中 justify-content 的 flex-start 和 start 的区别是什么？

CSS flex 中 justify-content 的 flex-start 和 start 的区别在 CSS flex 布局中，justify-content 属性用于控制子元素在主轴上的对齐方式。其中，flex-start 和 start 似乎是相同的，但实际上它们有微妙的区别。定义根据…

程序猿
2025年12月24日
0000
好文分享

css flex 中 justify-content 的 flex-start 和 start 可互换吗？

CSS flex 中 justify-content 的 flex-start 和 start 区别解析 MDN 文档上似乎没有提及 start 和 flex-start 在 justify-content 中的区别，但 post-css 插件却会对此发出警告。本文将对此进行解析。虽然在官方规范中…

程序猿
2025年12月24日
0000
好文分享

“flex-start”和“start”在 CSS Flex 中有何差异？

深入剖析 CSS Flex 中 justify-content 的 start 和 flex-start 在 CSS 的 flex 布局中，justify-content 属性控制子元素在主轴上的对齐方式，其中包含两个值：”flex-start” 和 “start…

程序猿
2025年12月24日
0000