Python Pandas：高效处理多CSV文件并统计指定列唯一值

程序猿 • 2025年12月14日 23:02:59 • 好文分享 • 阅读 0

本教程详细介绍了如何使用python pandas库高效地处理多个csv文件，并统计其中指定列（例如列’b’）的唯一值数量。文章通过实际示例演示了如何读取文件、识别并计数唯一项，最终生成一份汇总表格。此外，还探讨了如何提取每个文件中首次出现的唯一值行，为数据分析提供灵活的解决方案。

在日常数据分析工作中，我们经常会遇到需要处理大量分散在多个文件中的数据。一个常见的需求是，从一系列结构相似的CSV文件中，提取并统计某个特定列（例如，用户ID、商品SKU等）的唯一值数量。本教程将指导您如何利用Python的Pandas库高效地完成这项任务，并生成一份清晰的汇总报告。

准备工作：生成示例数据

为了更好地演示，我们首先创建一些模拟的CSV文件。这些文件将具有相同的列结构，并包含随机数据。

import numpy as npimport pandas as pdfrom glob import globimport os# 清理旧的CSV文件，确保每次运行都是新的示例for f in glob('file_??.csv'):    os.remove(f)n = 1000 # 每个文件的行数columns = list('abcde') # 列名np.random.seed(0) # 设置随机种子以保证结果可复现# 生成10个CSV文件for i in range(10):    filename = f'file_{i:02d}.csv'    pd.DataFrame(        np.random.randint(0, 1000, (n, len(columns))), # 生成随机整数数据        columns=columns,    ).to_csv(filename, index=False) # 保存为CSV，不包含索引print("已生成10个示例CSV文件：file_00.csv 到 file_09.csv")

上述代码将创建10个名为 file_00.csv 到 file_09.csv 的文件，每个文件包含5列（’a’到’e’）和1000行随机数据。我们的目标是统计每个文件中列’b’的唯一值数量。

核心任务：统计每个文件的指定列唯一值

现在，我们将实现统计每个CSV文件中列’b’的唯一值数量，并将其汇总到一个Pandas DataFrame中。

立即学习“Python免费学习笔记（深入）”；

1. 文件发现与读取

首先，我们需要找到所有目标CSV文件。glob模块是Python标准库中用于查找符合特定模式的文件路径的强大工具。

# 使用glob查找所有匹配模式的CSV文件filenames = glob('file_??.csv')print(f"发现以下文件：{filenames}")

glob(‘file_??.csv’) 会匹配所有以 file_ 开头，后面跟任意两个字符，并以 .csv 结尾的文件，例如 file_00.csv, file_01.csv 等。

2. 识别与计数唯一值

对于每个文件，我们将执行以下操作：

使用 pd.read_csv() 读取文件内容。利用 duplicated([‘b’]) 方法识别列’b’中的重复值。该方法返回一个布尔Series，其中 True 表示该行在列’b’上是重复的（即，之前已经出现过相同的值），False 表示是首次出现或唯一值。通过对 ~pd.read_csv(filename).duplicated([‘b’]) 进行求和，可以统计 False 的数量，这等同于列’b’的唯一值数量。

3. 构建汇总表格

我们可以使用字典推导式遍历所有文件，将文件名作为键，唯一值数量作为值，然后将这个字典转换为Pandas Series，并进一步转换为DataFrame。

# 遍历每个文件，计算列'b'的唯一值数量distinct_counts = {    filename: (~pd.read_csv(filename).duplicated(['b'])).sum()    for filename in filenames}# 将结果转换为Pandas Series，并进一步处理为DataFramedf_summary = pd.Series(distinct_counts)                .to_frame('count')                .rename_axis(index='filename')print("n每个文件列'b'的唯一值数量汇总：")print(df_summary)

输出示例：

             countfilename          file_01.csv    645file_00.csv    613file_02.csv    617file_03.csv    626file_04.csv    623file_05.csv    644file_06.csv    615file_07.csv    628file_08.csv    645file_09.csv    636

这份 df_summary DataFrame清晰地展示了每个CSV文件中列’b’的唯一值数量。

扩展应用：提取每个文件的首个唯一值行

除了统计唯一值的数量，有时我们可能还需要获取每个文件中列’b’首次出现时的完整行数据。例如，如果列’b’代表产品ID，我们可能想获取每个产品ID在文件中首次出现时的所有相关信息。

我们可以通过 drop_duplicates() 方法来实现这一目标。结合 pd.concat()，我们可以将所有文件的结果合并成一个大型DataFrame，并保留原始文件的标识。

# 提取每个文件列'b'的首个唯一值行df_distinct_rows = pd.concat([    pd.read_csv(filename).drop_duplicates(['b'])    for filename in filenames], keys=filenames) # 使用文件名作为外部索引（MultiIndex）print("n每个文件列'b'的首个唯一值行汇总：")print(df_distinct_rows)

输出示例：

                   a    b    c    d    efile_01.csv 0    689  191  884  615  649            1     24   68  794  820  107            2    566  469  718  157  897            3    206  256  527  417  672            4    765  755  741  197  926...              ...  ...  ...  ...  ...file_09.csv 986  626  622  224  726  274            988  329  900  577   26  221            990   47  800  369  567   11            998  602  198  165  217  682            999  564  982  890  126  450[6292 rows x 5 columns]

这里的 df_distinct_rows 是一个MultiIndex DataFrame，第一层索引是文件名，第二层是原始文件中的行索引。这使得我们可以方便地追溯每条记录的来源文件。

注意事项与性能考量

内存管理： 对于非常大的CSV文件，一次性读取所有文件到内存可能会导致内存溢出。在这种情况下，可以考虑使用 pd.read_csv 的 chunksize 参数分块读取，或者使用 Dask 等专门处理大数据集的库。然而，对于本教程中统计唯一值的场景，duplicated() 或 drop_duplicates() 通常需要访问整个列的数据，因此分块读取可能需要更复杂的逻辑来维护全局的唯一性状态。文件路径与模式匹配： glob 模式应准确反映您要处理的文件命名约定。如果文件分布在不同的子目录中，可能需要调整模式或使用 os.walk 进行更复杂的遍历。列名一致性： 确保所有CSV文件都包含您要分析的目标列（例如’b’），并且列名大小写一致。否则，pd.read_csv 可能会报错或返回不正确的结果。数据类型： duplicated() 和 drop_duplicates() 对不同数据类型（字符串、数字、日期等）都能很好地工作，但要确保列的数据类型在文件中是一致的。

总结

本教程演示了如何利用Python的Pandas库高效地处理多个CSV文件，以统计指定列的唯一值数量。通过 glob 模块进行文件发现，结合 pd.read_csv、duplicated() 和 sum()，我们可以轻松地生成一份汇总报告。此外，drop_duplicates() 和 pd.concat() 的组合也为提取每个文件中首次出现的唯一值行提供了强大的解决方案。掌握这些技术将大大提高您在多文件数据处理和分析中的效率。

以上就是Python Pandas：高效处理多CSV文件并统计指定列唯一值的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1381538.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

# 如何在 Jupyter Notebook 中直接读取单元格输入数据

上一篇 2025年12月14日 23:02:55

将行数据转换为列：Pandas pivot 方法详解

下一篇 2025年12月14日 23:03:02

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
0000
好文分享

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
2000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000
好文分享

html5如何建立站点_HTML5站点建立步骤与网站搭建技巧【指南】

HTML5网站搭建需五步：一、建my-website目录及css/js/images子目录，含index.html；二、写标准HTML5骨架，含DOCTYPE、lang、meta、语义化标签；三、外链CSS与defer/async脚本；四、用http-server启本地服务；五、用email/num…

程序猿
2025年12月23日
0000
好文分享

html5怎么读取文件_html5用FileReader API读取本地文件内容或属性【读取】

HTML5的FileReader API支持读取本地文件内容及获取基本信息：一、通过input type=”file”获取File对象；二、用readAsText读取文本；三、用readAsDataURL生成Data URL预览资源；四、用readAsArrayBuffer读…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
0000
好文分享

html5怎么去除黑点_html5用list-style:none去除ul/ol列表黑点【去除】

可通过 CSS 的 list-style 属性隐藏列表标记：一、list-style: none 最常用；二、list-style-type: none 精准移除符号；三、重置 list-style 全部子属性应对样式干扰；四、display: inline-block 配合 list-style:…

程序猿
2025年12月23日
0000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
0000