Python Pandas DataFrame列信息概览：数据类型与唯一值统计

程序猿 • 2025年12月14日 04:47:11 • 好文分享 • 阅读 0

本文详细介绍了如何使用Python Pandas库高效地为DataFrame中的所有列生成一份综合概览表。该表将展示每列的名称、数据类型以及其包含的唯一值列表及其数量。通过遍历DataFrame的列并结合Pandas内置函数，我们可以轻松构建一个结构清晰、易于分析的汇总报告，尤其适用于快速理解大型数据集的特征分布，为后续的数据探索和清洗工作提供重要依据。

1. 概述与需求

在数据分析的初期阶段，了解数据集的结构至关重要。特别是对于拥有大量列的dataframe，手动检查每一列的数据类型和唯一值既耗时又容易出错。一个自动化的方法能够生成一个汇总表格，清晰地列出每列的名称、数据类型、所有唯一值以及唯一值的数量，将极大提升数据探索的效率。

例如，对于以下DataFrame：

import pandas as pddf = pd.DataFrame({    'letter': ['a','b','c','a','b','c'],    'state': ['CA','FL','CA','FL','CA','FL'],    'scores': [11.6,12.8,13.9,14.2,15.8,16.2],    'age': [12,28,19,14,12,28]})print(df)

期望的输出是一个新的DataFrame，其结构如下：

columns_names Dtype Unique_values Unique_count

letterobjecta, b, c3stateobjectCA, FL2scoresfloat6411.6, 12.8, 13.9, 14.2, 15.8, 16.26ageint6412, 28, 19, 144

2. 实现方法

实现上述需求的核心思路是遍历DataFrame的每一列，并针对每列提取所需的信息（列名、数据类型、唯一值列表及数量），然后将这些信息汇总到一个新的DataFrame中。

2.1 核心步骤

获取列名： 使用 df.columns 获取所有列的名称。获取数据类型： 使用 df.dtypes 获取所有列的数据类型。获取唯一值： 对于每一列，使用 df[col].unique() 方法获取其所有唯一值。统计唯一值数量： 获取唯一值数组的长度。格式化唯一值： 将获取到的唯一值数组转换为字符串列表，并用逗号和空格连接成一个单一的字符串，以便在表格中显示。构建结果DataFrame： 将收集到的所有信息组织成字典或列表，然后传入 pd.DataFrame 构造函数。

2.2 示例代码

以下是实现上述功能的完整Python代码：

立即学习“Python免费学习笔记（深入）”；

import pandas as pd# 示例 DataFramedf = pd.DataFrame({    'letter': ['a','b','c','a','b','c'],    'state': ['CA','FL','CA','FL','CA','FL'],    'scores': [11.6,12.8,13.9,14.2,15.8,16.2],    'age': [12,28,19,14,12,28]})# 用于存储每列信息的列表column_names = []data_types = []unique_values_str = []unique_counts = []# 遍历 DataFrame 的每一列for col in df.columns:    # 收集列名    column_names.append(col)    # 收集数据类型，转换为字符串表示    data_types.append(str(df[col].dtype))    # 获取唯一值数组    unique_vals = df[col].unique()    # 将唯一值数组中的每个元素转换为字符串，然后用 ', ' 连接    # 确保所有类型的值都能正确转换为字符串并拼接    formatted_unique_vals = [str(x) for x in unique_vals]    unique_values_str.append(', '.join(formatted_unique_vals))    # 统计唯一值数量    unique_counts.append(len(unique_vals))# 构建结果 DataFramesummary_df = pd.DataFrame({    'columns_names': column_names,    'Dtype': data_types,    'Unique_values': unique_values_str,    'Unique_count': unique_counts})print(summary_df)

输出结果：

  columns_names    Dtype                    Unique_values  Unique_count0        letter   object                          a, b, c             31         state   object                           CA, FL             22        scores  float64  11.6, 12.8, 13.9, 14.2, 15.8, 16.2          63           age    int64                   12, 28, 19, 14             4

2.3 封装为函数

为了提高代码的复用性和可维护性，特别是当需要对多个DataFrame执行相同操作时，可以将上述逻辑封装成一个函数：

import pandas as pddef generate_dataframe_summary(df: pd.DataFrame) -> pd.DataFrame:    """    为给定的 Pandas DataFrame 生成一个包含列名、数据类型、唯一值列表和唯一值数量的汇总表。    Args:        df (pd.DataFrame): 需要分析的 DataFrame。    Returns:        pd.DataFrame: 包含每列概览信息的新 DataFrame。    """    column_names = []    data_types = []    unique_values_str = []    unique_counts = []    for col in df.columns:        column_names.append(col)        data_types.append(str(df[col].dtype))        unique_vals = df[col].unique()        formatted_unique_vals = [str(x) for x in unique_vals]        unique_values_str.append(', '.join(formatted_unique_vals))        unique_counts.append(len(unique_vals))    summary_df = pd.DataFrame({        'columns_names': column_names,        'Dtype': data_types,        'Unique_values': unique_values_str,        'Unique_count': unique_counts    })    return summary_df# 示例使用df_large = pd.DataFrame({    f'col_{i}': [i % 5, (i + 1) % 3, (i + 2) % 7] * 100 for i in range(70)})df_large['text_col'] = ['apple', 'banana', 'orange'] * 70df_large['float_col'] = [float(x) / 10 for x in range(210)]summary_of_large_df = generate_dataframe_summary(df_large)print(summary_of_large_df.head()) # 打印前几行，因为列数较多

3. 注意事项

唯一值数量过多时的显示： 如果某一列的唯一值数量非常庞大（例如，一个ID列有数百万个唯一值），将其全部转换为字符串并连接成一个长字符串可能会导致内存消耗过大，并且在显示时失去可读性。在这种情况下，可以考虑对 Unique_values 列进行优化，例如：只显示前 N 个唯一值，并在末尾添加 …。对于唯一值数量超过某个阈值的列，只显示 (N unique values) 而不列出具体值。数据类型表示： df.dtypes 返回的是Pandas内部的数据类型对象（如 int64, float64, object）。使用 str() 函数将其转换为字符串，以获得更易读的表示。性能考量： 对于拥有成千上万列的超大型DataFrame，上述遍历列的方法通常效率足够。但对于极端情况，如果唯一值计算成为瓶颈，可能需要考虑更底层的优化，例如使用NumPy的 unique 函数或并行处理。然而，对于大多数常见的数据分析场景，当前的方法是高效且易于理解的。缺失值处理： unique() 方法默认会包含 NaN（如果存在）。如果需要排除缺失值，可以在调用 unique() 之前先进行缺失值过滤，例如 df[col].dropna().unique()。

4. 总结

通过本文介绍的方法，我们可以轻松地为任何Pandas DataFrame生成一份详细的列信息概览表。这份汇总表不仅包含了每列的数据类型和唯一值数量，还以清晰的格式展示了具体的唯一值列表，这对于数据探索、验证数据质量以及规划后续的数据清洗和特征工程步骤都非常有帮助。将此功能封装为函数，进一步提升了其在实际项目中的可用性和效率。

以上就是Python Pandas DataFrame列信息概览：数据类型与唯一值统计的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1365749.html

python

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

生成DataFrame列的综合摘要表：数据类型、唯一值与计数

上一篇 2025年12月14日 04:47:07

如何使用 Pandas 生成 DataFrame 列的数据类型与唯一值汇总表

下一篇 2025年12月14日 04:47:19

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
0000
好文分享

safari怎么打开html5_Safari浏览器直接输入html5链接自动渲染打开【打开】

Safari中正确渲染HTML5内容需采用file://协议、禁用本地限制、启用HTTP服务器或更新版本并开启实验性功能。具体包括：一、用file:///绝对路径打开本地HTML文件；二、勾选高级设置中的“显示开发菜单”并禁用本地文件限制；三、用Python启动本地HTTP服务，通过http://l…

程序猿
2025年12月23日
0000
好文分享

电脑html5怎么使用_电脑用新版浏览器打开HTML5文件直接渲染使用【使用】

需用支持HTML5的现代浏览器，通过file://协议双击打开、浏览器菜单打开、本地HTTP服务器（Python/Node.js）、VS Code Live Server插件或Visual Studio内置功能加载页面。如果您编写完成一个HTML5页面文件，希望在电脑上直接查看其渲染效果，则需确保…

程序猿
2025年12月23日
0000
好文分享

html5怎样插入带样式的docx_html5docx样式保留与展示方案【攻略】

无法直接嵌入.docx，需转换为HTML：一、前端用docxtemplater+html-docx-js生成内联样式HTML；二、后端用python-docx等转为语义化HTML+CSS；三、用Office Online Viewer iframe只读展示；四、用docx-preview库解析Blo…

程序猿
2025年12月23日
0000
好文分享

mac html5 怎么下载_mac浏览器直接打开html5文件无需额外下载【说明】

Mac上HTML5文件被下载而非渲染，需检查文件关联、浏览器安全限制、使用Python服务器托管、验证编码与MIME声明、禁用干扰扩展。如果您在 Mac 上使用浏览器打开 HTML5 文件时发现需要额外下载而非直接渲染，可能是由于文件关联设置、浏览器默认行为或文件路径问题导致。以下是解决此问题的步…

程序猿
2025年12月23日
2000
好文分享

如何快速开发html5_快速开发HTML5应用的方法【应用】

快速构建HTML5应用有五种方法：一、用HTML5 Boilerplate模板跳过基础搭建；二、用Vite等构建工具链实现自动化开发；三、集成Bootstrap等UI组件库减少样式与交互开发；四、借助CodePen等在线平台即时调试；五、封装Web Components实现模块复用。如果您希望在短…

程序猿
2025年12月23日
0000
好文分享

putty怎么运行html_putty连接环境运行html方法【教程】

1、可通过本地浏览器查看：使用SFTP下载HTML文件后双击用默认浏览器打开预览；2、启动轻量级Web服务器：在PuTTY中用Python命令python3 -m http.server 8000运行并本地访问服务器IP:8000查看；3、配置Apache：安装Apache2服务，将HTML文件放入…

程序猿
2025年12月23日
0000
好文分享

html5怎么指定路径_HTML5用相对或绝对路径指定图片视频等资源位置【指定】

HTML5资源无法显示通常因路径错误，解决方法包括：一、相对路径（如src=”images/logo.png”）；二、绝对路径（如src=”/media/video.mp4″）；三、data URL内联小资源；四、base标签统一基准路径；五、避免fi…

程序猿
2025年12月23日
0000
好文分享

CSS样式如何转换为HTML内联_样式整合方案【攻略】

CSS转内联样式有四种方案：一、手动提取并逐元素标注；二、用PostCSS插件自动注入，忽略伪类和媒体查询；三、Python脚本批量解析注入，需处理!important；四、在线工具临时转换，需人工修正失效引用。如果您拥有外部或内部CSS样式表，但需要将这些样式转换为HTML元素的内联style属…

程序猿
2025年12月23日
0000