Pandas中处理对象类型数据并计算均值：从数据清洗到数值分析

程序猿 • 2025年12月14日 23:20:46 • 好文分享 • 阅读 0

在pandas数据分析中，当包含数值和单位的列被错误识别为“对象”类型时，直接计算均值等统计量会受阻。本教程详细介绍了如何通过系统性的数据清洗和类型转换，将这些“对象”列精确地转换为数值类型，从而实现准确的描述性统计分析，包括处理缺失值、单位转换、分隔符统一及异常值处理，最终计算出有效的统计指标。

引言

在数据预处理阶段，我们经常会遇到Pandas DataFrame中某些本应是数值型的列被错误地识别为object（对象）类型的情况。这通常是由于数据中混杂了文本（如单位、描述性文字）、特殊字符（如逗号作为小数点）、空格或多种数据格式。当这些列被标记为object类型时，我们无法直接使用mean()、median()等数值统计函数来计算它们的中心趋势度量。本教程将指导您如何识别这类问题，并提供一套系统性的方法来清洗和转换这些object类型数据，使其能够进行准确的数值分析。

识别问题：对象类型中的数值数据

首先，我们需要了解数据集中哪些列是object类型，以及它们内部的数据结构。通过df.info()和df.head()可以初步检查数据类型和前几行数据，从而发现潜在的问题。

假设我们有一个名为data.xlsx的数据集，其中包含笔记本电脑的各种属性，例如Memory Speed、Device Weight、Screen Size、Max Processor Speed、RAM (System Memory)和SSD Capacity等。

import pandas as pdimport numpy as np# 加载数据集dataset = pd.read_excel('data.xlsx')# 查看数据集信息print("--- 原始数据集信息 ---")print(dataset.info())# 查看数据集前几行print("n--- 原始数据集前5行 ---")print(dataset.head())

从dataset.info()的输出中，我们可以看到许多列，如Memory Speed、Device Weight、Screen Size等，都被识别为object类型。而dataset.head()的输出则揭示了这些object列中包含的实际数据：例如Memory Speed可能包含“2666 MHz”，Device Weight包含“2 – 4 kg”，Screen Size包含“15.6 inches”，SSD Capacity包含“256 GB”或“1 TB”。这些都是带有单位的数值，或者包含范围、特殊分隔符的数值。

直接对这些object列使用describe()函数（即使include=’all’）也无法提供准确的数值统计信息，因为它会将它们视为分类数据。

# 尝试使用describe(include='all')查看原始数据集的描述性统计print("n--- 原始数据集的描述性统计 (include='all') ---")print(dataset.describe(include="all"))

此时，对于object类型的列，describe()只会给出count、unique、top和freq等信息，而不会计算均值、标准差等数值统计量。

解决方案：系统性的数据清洗与类型转换

要计算这些“对象”类型列的均值，我们必须将其转换为数值类型。这需要一个逐列、逐值的细致处理过程，以应对数据中的各种复杂情况。

核心转换逻辑

我们将遍历DataFrame中的每一列。如果一列是object类型，我们将对其进行以下处理：

处理缺失值 (NaN)：如果值是NaN，则直接保留为NaN。检测并分离数值与单位：检查值中是否包含空格。如果包含，通常意味着数值和单位是分开的（例如 “15.6 inches”）。我们将尝试将值按空格分割。处理小数点分隔符：在某些地区，逗号（,）被用作小数点。如果分割后的数值部分包含逗号，需要将其替换为英文句号（.）。单位标准化：对于某些列，如SSD Capacity，单位可能不一致（例如GB和TB）。需要将所有单位统一到某个基准（例如，将TB转换为GB，或将GB转换为TB）。尝试转换为浮点数：使用try-except块尝试将处理后的数值部分转换为float类型。如果转换失败（例如，值是“High”、“Low”或“1920 x 1080”这样的纯文本或复杂字符串），则保留其原始字符串形式。处理不含空格或无法转换的值：如果值不含空格，或者经过分割处理后仍无法转换为数值，则保留其原始形式。

示例代码实现

# 创建一个新的DataFrame用于存储清洗后的数据df_cleaned = pd.DataFrame(columns=dataset.columns)for col in dataset.columns: # 遍历每一列    if dataset[col].dtypes == "object": # 如果列的数据类型是'object'        values = [] # 初始化一个空列表来存储处理后的值        for val in dataset[col].values: # 遍历列中的每一个值            if pd.isna(val): # 如果值是NaN                values.append(np.nan) # 添加NaN            elif isinstance(val, (int, float)): # 如果值已经是数字类型（即使列是object，也可能有个别是数字）                values.append(float(val))            elif " " in str(val): # 如果值中包含空格（通常表示数值和单位）                val_splitted = str(val).split(" ") # 按空格分割                # 检查并替换逗号为小数点                if "," in val_splitted[0]:                    val_splitted[0] = val_splitted[0].replace(",", ".")                if len(val_splitted) == 2: # 如果分割后只有两部分（数值和单位）                    try:                        # 特殊处理 'SSD Capacity' 列，统一单位                        if col == "SSD Capacity":                            if val_splitted[1].upper() == "GB": # 如果单位是GB                                values.append(float(val_splitted[0]) / 1000) # 转换为TB                            elif val_splitted[1].upper() == "TB": # 如果单位是TB                                values.append(float(val_splitted[0])) # 直接使用                            else: # 其他未知单位，保留原值                                values.append(val)                        # 特殊处理 'Device Weight' 列，取均值                        elif col == "Device Weight" and "-" in val_splitted[0]:                            weight_range = val_splitted[0].split("-")                            avg_weight = (float(weight_range[0]) + float(weight_range[1])) / 2                            values.append(avg_weight)                        else: # 其他列，直接尝试转换为浮点数                            values.append(float(val_splitted[0]))                    except ValueError: # 如果转换失败，保留原值                        values.append(val)                else: # 如果分割后不是两部分（例如 "1920 x 1080" 或其他复杂字符串），保留原值                    values.append(val)            else: # 如果不含空格，直接尝试转换为浮点数                try:                    # 检查并替换逗号为小数点                    if "," in str(val):                        val = str(val).replace(",", ".")                    values.append(float(val))                except ValueError: # 如果转换失败，保留原值                    values.append(val)        df_cleaned[col] = values # 将处理后的值赋给新DataFrame的对应列    else: # 如果列不是'object'类型，直接复制        df_cleaned[col] = dataset[col]# 再次查看清洗后数据集的信息和描述性统计print("n--- 清洗后数据集信息 ---")print(df_cleaned.info())print("n--- 清洗后数据集的描述性统计 (include='all') ---")print(df_cleaned.describe(include="all"))

代码解释：

df_cleaned = pd.DataFrame(columns=dataset.columns): 创建一个空的DataFrame，与原始DataFrame具有相同的列名，用于存储清洗后的数据。for col in dataset.columns:: 遍历原始DataFrame的每一列。if dataset[col].dtypes == “object”:: 检查当前列是否为object类型。只有object类型的列才需要进行特殊处理。if pd.isna(val):: 检查当前值是否为NaN。NaN代表缺失值，直接保留。elif ” ” in str(val):: 检查值中是否包含空格。这是判断数值和单位是否分离的常见模式。val_splitted = str(val).split(” “): 按空格分割字符串。if “,” in val_splitted[0]: … .replace(“,”, “.”): 处理欧洲等地区使用逗号作为小数点的习惯，将其替换为英文句号。if len(val_splitted) == 2:: 如果分割后得到两部分（通常是数值和单位）。if col == “SSD Capacity”: …: 针对SSD Capacity列进行特殊处理。这里假设我们希望将所有容量统一到TB单位。如果原始单位是GB，则除以1000。elif col == “Device Weight” and “-” in val_splitted[0]:: 处理像 “2 – 4 kg” 这样的范围值，取其平均值。else: values.append(float(val_splitted[0])): 对于其他列，尝试将数值部分直接转换为浮点数。except ValueError:: 如果float()转换失败，说明该值不是纯数字或无法解析为数字，此时保留其原始字符串形式。else: values.append(val): 如果分割后不是两部分（例如”1920 x 1080″），说明它不是简单的数值+单位结构，保留原值。else: try: … except ValueError: …: 对于不含空格的object类型值，也尝试直接转换为浮点数，并处理逗号小数点的可能性。df_cleaned[col] = values: 将处理后的值列表赋给新DataFrame的对应列。else: df_cleaned[col] = dataset[col]: 对于非object类型的列，直接复制到新DataFrame。

清洗后的结果

运行上述代码后，df_cleaned.info()会显示许多列的数据类型已成功转换为float64。此时，df_cleaned.describe(include=”all”)将能够为这些数值列提供准确的描述性统计信息，包括均值（mean）、标准差（std）、最小值（min）、25%分位数、中位数（50%分位数）、75%分位数和最大值（max）。

例如，根据示例输出，我们可以看到Memory Speed、Screen Size、Max Processor Speed、RAM (System Memory)和SSD Capacity等列现在都有了正确的数值统计量。

Memory Speed Screen Size Backlit Max Processor Speed RAM (System Memory) SSD Capacity

count888.000994.000994.000950.000987.000991.000mean3339.87415.3360.2434.29317.4310.638std626.2840.9230.4290.61612.2350.423min1066.00010.0000.0001.0504.0000.00025%3200.00015.6000.0004.2008.0000.50050%3200.00015.6000.0004.40016.0000.51275%3200.00015.6000.0004.70016.0001.000max6400.00018.4001.0005.600128.0004.000

注意事项与最佳实践

数据模式的理解：在进行这种复杂的类型转换之前，务必深入了解数据的具体格式和模式。使用df[‘column_name’].unique()或df[‘column_name’].value_counts()可以帮助您发现所有不同的值及其出现的频率，从而更好地设计清洗逻辑。错误处理：try-except块是关键。它能确保在遇到无法转换为数值的数据时，程序不会崩溃，而是优雅地处理这些异常情况（例如，保留原始字符串或替换为NaN）。单位标准化：对于带有单位的数值，务必将其统一到一致的单位。例如，如果SSD Capacity有GB和TB两种单位，需要决定是全部转换为GB还是TB，并进行相应的乘除操作。范围值处理：对于像“2 – 4 kg”这样的范围值，可以根据分析需求选择取平均值、取最小值、取最大值或创建新的列来表示范围。非数值型字符串：对于像“High”、“Low”、“1920 x 1080”这类本身不代表数值的字符串，应保留其字符串形式，或者在必要时将其转换为分类编码。性能考虑：对于非常大的数据集，逐行遍历可能会比较慢。可以考虑使用Pandas的apply()方法结合自定义函数，或者使用正则表达式进行更高效的模式匹配和提取。然而，对于复杂且多变的模式，逐值遍历通常是最可靠的方法。

总结

将Pandas中object类型的数值数据转换为可计算的数值类型是数据预处理中的一个常见且关键的步骤。通过系统性地处理缺失值、分离数值与单位、统一小数点格式、标准化单位以及健壮的错误处理，我们可以成功地将这些混合数据转换为纯数值类型。这不仅解锁了对数据进行描述性统计分析的能力，也为后续更深入的数据建模和机器学习任务奠定了坚实的基础。理解数据模式并灵活运用Python和Pandas的数据处理功能，是成为高效数据分析师的关键技能。

以上就是Pandas中处理对象类型数据并计算均值：从数据清洗到数值分析的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1381789.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Django视图中统一处理表单创建与编辑操作

上一篇 2025年12月14日 23:20:42

深入理解TensorFlow Keras图像数据增强的随机性与模型训练

下一篇 2025年12月14日 23:20:50

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

css怎么设置文件编码

在css中，可以使用“@charset”规则来设置编码，语法格式“@charset “字符编码类型”;”。“@charset”规则可以指定样式表中使用的字符编码，它必须是样式表中的第一个元素，并且不能以任何字符开头。本教程操作环境：windows7系统、CSS3&&…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
1000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
4000
好文分享

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
1000
html5怎么引用js_HTML5用外链或内嵌JS代码引用脚本【引用】

HTML5中执行JavaScript需通过外链或内嵌方式引入：一、外链用，支持defer/async；二、内嵌将代码写入间，推荐置于body底部；三、type属性默认可省略；四、模块化使用type=”module”支持ES6 import/export。 <img sr…

程序猿
好文分享 2025年12月23日
1000
好文分享

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
4000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
1000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
1000
好文分享

html如何滑动_实现HTML页面或元素滑动效果【效果】

可通过CSS scroll-behavior实现平滑锚点跳转，JavaScript scrollTo精确控制滚动位置，CSS transform模拟高性能滑动动画，或使用Swiper等第三方库实现触摸拖拽、循环播放等高级交互功能。如果您希望在网页中实现页面或特定元素的滑动效果，可以通过CSS和Ja…

程序猿
2025年12月23日
0000
好文分享

html5怎么读取文件_html5用FileReader API读取本地文件内容或属性【读取】

HTML5的FileReader API支持读取本地文件内容及获取基本信息：一、通过input type=”file”获取File对象；二、用readAsText读取文本；三、用readAsDataURL生成Data URL预览资源；四、用readAsArrayBuffer读…

程序猿
2025年12月23日
1000