如何读取CSV文件并合并内容并计算出现比例？

程序猿 • 2025年12月13日 15:07:32 • 用户投稿 • 阅读 0

如何读取csv文件后合并内容

在读取csv文件后，可以通过以下步骤合并内容：

1. 获取主键列和待合并列
使用pd.read_csv()读取csv文件，并获取主键列（cmd）和待合并列（opt）。

2. 删除重复主键
使用set()和sorted()删除cmd列中的重复元素，得到不重复的主键列表。

3. 计算主键出现次数
使用counter()计算每个主键出现的次数，得到一个词频字典。

4. 初始化合并后的结果
创建一个文件来保存合并后的结果。

5. 遍历主键
对于每个主键，执行以下操作：

获取该主键对应的opt列索引。创建一个新的列表来存储opt列中的值。遍历opt列索引，将值添加到新列表中。将新列表转换为字符串，再转换为列表。

6. 计算并输出每个opt的出现比例
遍历不重复的opt值，计算每个opt在该主键下出现的次数与主键出现次数的比值，并将其写入结果文件中。

示例代码：

import pandas as pdimport osdata = pd.read_csv('test.csv')useRateF = 'test_new.csv'index_list_cmd = sorted(set(list(data.cmd.values)), key=list(data.cmd.values).index)cntLst = []for lst_i in range(len(index_list_cmd)):    cntLst.append(data.cmd.value_counts()[index_list_cmd[lst_i]])if os.path.isfile(useRateF):    os.remove(useRateF)for cmd_i in range(len(index_list_cmd)):    index_list_opt_idx = list(data.opt[data.cmd == index_list_cmd[cmd_i]].index.values)    index_list_opt = []    for opt_i in range(len(index_list_opt_idx)):        try:            index_list_opt.append(data.loc[int(index_list_opt_idx[opt_i]), 'opt'])        except:            print(index_list_cmd[cmd_i])            print(index_list_opt_idx[opt_i])            print(opt_i)    str_idxLstOpt = ' '.join(index_list_opt)    lst_idxLstOpt = str_idxLstOpt.split(' ')    for tag in sorted(set(lst_idxLstOpt), key=lst_idxLstOpt.index):        with open(useRateF, 'a', encoding='utf-8_sig') as uf:            uf.writelines(str(index_list_cmd[cmd_i]) + ',' + tag + ',' + str(lst_idxLstOpt.count(tag)/cntLst[cmd_i]))            uf.writelines('n')

以上就是如何读取CSV文件并合并内容并计算出现比例？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1350488.html

csv文件

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

如何给 Pandas DataFrame 中指定列的值前后添加特定字符串？

上一篇 2025年12月13日 15:07:31

Linux系统中，如何重新编译已安装的 Python 3？

下一篇 2025年12月13日 15:07:40

用户投稿

python中zip函数详解 python多序列压缩zip函数应用场景

zip函数的应用场景包括：1) 同时遍历多个序列，2) 合并多个列表的数据，3) 数据分析和科学计算中的元素运算，4) 处理csv文件，5) 性能优化。zip函数是一个强大的工具，能够简化代码并提高处理多个序列时的效率。在Python中，zip函数是一个非常有用的工具，它能够将多个可迭代对象打包成…

程序猿
2026年5月10日
0000
用户投稿

掌握Pandas read_csv对CSV文件进行解析时，特别是处理包含特殊字符（如引号和逗号）的字段，是数据处理的关键。本文将深入探讨read_csv的默认行为，解释为何在特定情况下会产生非预期的字段分割，并提供通过调整doublequote参数来解决此类问题的专业指导。

Pandas read_csv在处理包含转义引号的CSV字段时，默认的doublequote=True行为可能导致字段分割错误。本文将详细解释默认解析逻辑如何将转义字符和逗号错误地包含在字段内，并提供通过设置doublequote=False参数来确保正确解析的解决方案，从而实现预期的字段划分。理…

程序猿
2026年5月10日
0000
用户投稿

使用GCP BlobWriter正确写入CSV文件

本文旨在解决在使用GCP BlobWriter向Google Cloud Storage (GCS) 写入CSV文件时，数据以JSON格式而非CSV格式存储的问题。通过示例代码演示如何正确地使用csv模块配合BlobWriter，将字典数据列表转换为符合CSV标准的格式，并成功写入GCS bucke…

程序猿
2026年5月10日
0000
用户投稿

Golang模板方法模式与业务逻辑分离

模板方法模式通过固定算法骨架实现业务逻辑分离，Go中用接口定义Read、Validate、Transform、Save步骤，由CSVProcessor和JSONProcessor等具体类型实现差异化处理，统一流程控制在ProcessDataTemplate函数中。 Golang中的模板方法模式提供了…

程序猿
2026年5月10日
0000
用户投稿

Pandas教程：高效向DataFrame添加唯一行并重置连续ID

本教程详细介绍了如何使用pandas高效地向现有dataframe添加新行，同时自动去重并确保id列的连续性。通过结合pd.concat和drop_duplicates方法，并最终重新分配id，我们能够简洁地处理数据合并与清洗任务，避免常见问题。在数据处理和分析中，我们经常需要将新的数据记录合并到…

程序猿
2026年5月10日
0000
怎么使用DVC管理异常检测数据版本？

dvc通过初始化仓库、添加数据跟踪、提交和上传版本等步骤管理异常检测项目的数据。首先运行dvc init初始化仓库，接着用dvc add跟踪数据文件，修改后通过dvc commit提交并用dvc push上传至远程存储，需配置远程存储位置及凭据。切换旧版本使用dvc checkout命令并指定com…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

c#怎么读取csv文件

如何使用 C# 读取 CSV 文件？使用 File.ReadAllLines() 读取所有行。使用 StreamReader 逐行读取。使用第三方库（如 CsvHelper）简化读取过程。如何使用 C# 读取 CSV 文件 CSV（逗号分隔值）是一种流行的数据格式，常用于存储表格数据。在 C# 中…

程序猿
2026年5月10日
0000
用户投稿

HTML文件选择器accept属性为何无法有效过滤CSV文件？

html文件上传控件accept属性无法有效过滤csv文件？网页开发中，我们常使用元素让用户选择文件上传。accept属性用于限制可选择的文件类型，提升用户体验和安全性。然而，该属性并非总是完美运行。本文分析accept属性无法正确过滤CSV文件的问题，并提供解决方案。问题：开发者希望仅允许上…

程序猿
2026年5月10日
0000
用户投稿

WooCommerce教程：获取指定产品分类下所有产品的SKU

本教程详细介绍了如何在WooCommerce中获取特定产品分类下所有产品的SKU（库存单位）。通过结合使用WordPress的get_posts函数获取产品ID，并利用get_post_meta函数遍历这些ID以提取每个产品的SKU，最终生成一个包含所有目标SKU的数组。引言在WooCommer…

程序猿
2026年5月10日
0000
用户投稿

Python爬虫导出CSV时，如何解决商品详情字段溢出问题？

Python爬虫导出CSV文件：巧妙解决商品详情字段溢出难题在用Python爬取数据并导出为CSV文件时，经常会遇到商品详情等字段内容过长导致溢出的问题，破坏数据完整性。本文将分析原因并提供解决方案。问题： Python爬虫抓取商品数据后，导出CSV文件。H列存储商品详情，但部分详情过长，溢出到…

程序猿
2026年5月10日
0000
用户投稿

html5怎样插入csv数据表_html5csv表格嵌入与格式化显示【实操】

可在HTML5页面中用JavaScript实现CSV数据展示：一、File API本地读取；二、fetch加载远程CSV；三、预转JSON再渲染；四、用PapaParse库高兼容解析，均需解析后生成HTML表格。如果您希望在HTML5页面中直接展示CSV格式的数据，但浏览器本身不支持原生解析CSV…

程序猿
2025年12月23日
0000
使用Scrapy高效抓取并整合Div内不定数量P标签文本

本文旨在指导如何使用scrapy框架高效地从网页中抓取特定元素内不定数量的标签内容。我们将探讨如何利用xpath表达式精准定位并提取所有目标标签，并通过python的字符串连接方法，将这些分散的文本内容整合为一个单一字段，以便于数据存储和后续处理，解决仅保存最后一个标签的问题。引言：处理动…

程序猿
2025年12月23日 • 用户投稿
0000
用户投稿

Scrapy教程：高效抓取并整合多个P标签内容至单一字段

本教程详细讲解如何使用scrapy框架高效抓取html页面中不确定数量的` `标签内容，并将其整合为一个单一字符串字段，以便于数据存储和导出。文章通过分析常见错误，提供优化的xpath表达式和python代码实现，确保所有目标文本都能被正确提取并聚合。 1. 理解多P标签抓取的需求与挑战在网页抓取…

程序猿
2025年12月23日
0000
用户投稿

如何使用Scrapy和XPath高效抓取div中可变数量的p标签并合并存储

本文详细介绍了如何利用scrapy框架和xpath表达式，从网页中准确提取特定`div`元素内数量不定的` `标签内容，并将其合并为单个字符串进行存储。通过分析常见问题，提供了一种简洁高效的解决方案，确保所有段落内容都能被正确抓取并导出到csv文件，避免只存储最后一个段落的错误。在进行网页抓取时，…

程序猿
2025年12月23日
0000
用户投稿

JavaScript中处理表格数据：将扁平数组行转换为结构化对象记录

本教程详细介绍了如何在javascript中将从google sheets或excel等表格数据源获取的扁平数组（数组的数组）转换为更具语义化和易于操作的结构化对象数组。我们将利用array.prototype.reduce()方法，通过索引映射和数组切片技术，高效地将每一行数据转换为包含明确属性的…

程序猿
2025年12月23日
0000
用户投稿

JavaScript数据转换：将扁平数组重塑为结构化对象数组

本教程详细介绍了如何使用javascript将常见的扁平二维数组（例如从电子表格获取的数据）转换为结构化的对象数组。通过运用`array.prototype.reduce()`方法，我们将学习如何遍历原始数据，并根据预设的键值对创建新的对象，同时处理嵌套数组的生成，从而提升数据可读性和易用性。数据…

程序猿
2025年12月23日
0000
用户投稿

运行jmeter怎么生成HTML报告_jmeter生成HTML报告步骤【指南】

首先通过监听器保存测试结果为CSV文件，再使用命令行或GUI生成HTML报告；具体步骤包括配置聚合报告监听器并导出数据、通过jmeter -g ./result.csv -o ./report_output命令生成报告，或在GUI中选择“选项”→“生成HTML报告”并指定输入输出路径，最后打开输出目…

程序猿
2025年12月23日
0000
用户投稿

利用R语言通过API和JSON解析高效提取网页链接与数据

本文旨在指导读者如何使用R语言中的`httr2`包，通过访问网页的底层JSON数据源来高效提取链接地址和下载文件，尤其适用于那些点击后直接触发下载的链接。我们将探讨如何识别、请求、解析JSON数据，并从中提取特定信息，最终实现无需浏览器自动化即可获取所需链接和文件的目的。 1. 挑战与解决方案概述 …

程序猿
2025年12月23日
0000
用户投稿

PowerShell管道扫描，HTML里CSS链接全体检！

首先读取HTML文件中的CSS链接，使用PowerShell的Get-Content和正则表达式提取href属性中以.css结尾的URL；接着验证链接可达性，通过Invoke-WebRequest发送HEAD请求，判断状态码是否为200；最后生成扫描报告，将结果导出为CSV文件并在控制台用红色高亮显…

程序猿
2025年12月23日
0000
用户投稿

Linux Mnemosyne间隔重复，HTML+CSS学习曲线飙升！

掌握Mnemosyne结合HTML与CSS的学习方法：一、配置支持富文本的卡片类型，使用内联样式增强视觉记忆；二、通过CSV批量导入含HTML代码的卡片，提升录入效率；三、自定义模板统一设置HTML结构与CSS样式，实现个性化排版；四、排查标签闭合与CSS兼容性问题，确保正确渲染。如果您在使用Li…

程序猿
2025年12月23日
0000

发表回复

登录后才能评论

如何读取CSV文件并合并内容并计算出现比例？

关于作者

相关推荐

发表回复