清理并高效读取含非结构化文本的CSV文件

程序猿 • 2025年12月14日 11:53:01 • 好文分享 • 阅读 0

本教程旨在解决读取包含非结构化文本的CSV文件的问题。面对文件开头和结尾的冗余信息，我们将探讨多种高效策略，包括基于关键词定位头部并跳过指定行，以及逐行扫描文件直至识别到数据起始点。通过结合Pandas库的强大功能，我们将实现精确的数据提取和清洗，确保仅读取所需的结构化数据，适用于处理大量类似格式的文件。

在实际数据处理中，我们经常会遇到csv文件并非纯粹的逗号分隔值数据，而是在文件开头或结尾包含一些非结构化的元数据、报告标题或脚注。对于少量文件，手动清理尚可接受，但当需要处理成千上万个此类文件时，自动化清理和读取就变得至关重要。本文将介绍几种利用python和pandas库来应对这一挑战的有效方法。

1. 准备示例数据

为了演示这些方法，我们首先创建一个模拟包含非结构化文本的CSV文件 students.csv：

# 创建一个示例文件sample_data = """SAMPLE FILE LTDSTUDENT NUMBERSINFO OF ALL STUDENTS No :  from 27-Mar-2023 00:00:00 to 04-Apr-2023 00:00:00 and  from 05-Oct-2023 00:00:00 to 13-Oct-2023 00:00:00Student,id,add,div,rankABC,12,USA,A,1DEF,13,IND,C,2XYZ,14,UK,E,3PQR,15,DE,F,4 This is System generated report, and needs no signature. 14-Oct-2023 18:14:12"""with open('students.csv', 'w') as f:    f.write(sample_data)print("示例文件 students.csv 已创建。")

我们的目标是从这个文件中准确地读取以下数据：

Student,id,add,div,rankABC,12,USA,A,1DEF,13,IND,C,2XYZ,14,UK,E,3PQR,15,DE,F,4

2. 方法一：基于关键词定位并跳过指定行

这种方法的核心思想是，首先找到包含实际数据头部的行（例如，通过匹配列名），然后计算出在该行之前有多少行需要跳过，最后使用 pd.read_csv 的 skiprows 参数进行读取。

2.1 实现步骤

定位头部行： 编写一个函数，逐行读取文件，直到找到包含所有列名（或其中一个关键列名）的行。计算跳过行数： 记录从文件开头到头部行之间的行数。使用 pd.read_csv 读取： 将计算出的行数传递给 skiprows 参数。后处理： 由于文件末尾可能仍有冗余文本或空行，使用 dropna() 清理。

2.2 示例代码

import pandas as pddef get_rows_to_skip(file_name, header_keyword):    """    计算从文件开头到包含指定关键词的行之间的行数。    """    rows = 0    with open(file_name, 'r') as file:        while True:            line = file.readline()            if not line: # 文件结束                return -1 # 表示未找到关键词            if header_keyword in line:                return rows            rows += 1def read_cleaned_csv_by_skiprows(file_name, header_keyword, expected_columns):    """    通过跳过指定行数来读取清理后的CSV文件。    """    skip_rows = get_rows_to_skip(file_name, header_keyword)    if skip_rows == -1:        print(f"错误：未在文件 '{file_name}' 中找到关键词 '{header_keyword}'。")        return pd.DataFrame()    # 读取CSV，跳过前导行    df = pd.read_csv(file_name, skiprows=skip_rows)    # 清理数据：移除全为空的行，这通常发生在文件末尾的冗余文本被读入后    # 确保列名是预期的，并且数据行不包含NaN    # 检查第一行是否是预期的列名，如果不是，则可能需要进一步处理    if not all(col in df.columns for col in expected_columns):        print(f"警告：读取的列名与预期不符。实际列名：{df.columns.tolist()}")        # 尝试将第一行作为列名并重新读取，或者进行更复杂的清洗        # 考虑到我们的header_keyword是'rank'，它在列名中，所以pd.read_csv会正确识别头部。        pass    # 移除所有列都为NaN的行，这有助于清理文件末尾的空行或无关文本    df = df.dropna(how='all')    # 进一步清理：如果某些列被读取为NaN，但它们应该是数据，这通常意味着文件末尾有额外文本    # 我们可以根据关键列（如'rank'）来过滤掉无效数据行    if 'rank' in df.columns:        df = df[df['rank'].notna()]    return df# 预期列名，用于验证和清理expected_columns = ['Student', 'id', 'add', 'div', 'rank']df_skiprows = read_cleaned_csv_by_skiprows('students.csv', 'rank', expected_columns)print("方法一：基于关键词跳过行读取结果:")print(df_skiprows)print("-" * 30)

2.3 注意事项

此方法依赖于 header_keyword 的唯一性和稳定性。如果关键词在非数据行中也出现，或者数据头部行结构不稳定，可能会导致错误。skiprows 参数只能跳过文件开头的行，对于文件末尾的冗余文本，需要额外的 dropna() 等后处理步骤。pd.read_csv 会尝试自动识别列名。如果 header_keyword 是列名的一部分，通常能正确识别。

3. 方法二：逐行读取定位头部并传递文件句柄（推荐）

这种方法更加灵活和健壮，尤其适用于头部行位置不固定，但其内容结构相对稳定的情况。它通过Python的文件操作逐行读取，直到找到真正的CSV头部，然后将文件句柄的剩余部分直接传递给 pd.read_csv。

3.1 实现步骤

打开文件： 使用 with open(…) 打开文件。逐行扫描： 循环读取文件的每一行，直到找到符合头部特征的行（例如，以特定字符串开头，或包含所有预期的列名）。解析头部： 从找到的头部行中提取列名。传递文件句柄： 将当前文件句柄（它已定位在头部行之后）传递给 pd.read_csv。指定列名和清理： 使用解析出的列名作为 names 参数，并使用 dropna() 清理可能存在的空行或文件末尾的冗余数据。

3.2 示例代码

import pandas as pddef read_cleaned_csv_by_line_scan(file_name, header_start_string, expected_columns):    """    通过逐行扫描定位头部，然后读取清理后的CSV文件。    """    with open(file_name, 'r') as file:        header_line = None        # 逐行读取直到找到头部行        for line in file:            if line.strip().startswith(header_start_string):                header_line = line.strip()                break        if header_line is None:            print(f"错误：未在文件 '{file_name}' 中找到以 '{header_start_string}' 开头的头部行。")            return pd.DataFrame()        # 从找到的头部行解析列名        column_names = header_line.split(',')        # 将文件句柄的剩余部分传递给pd.read_csv        # 使用 names 参数指定列名，因为我们已经读取了头部行        df = pd.read_csv(file, names=column_names)        # 清理数据：移除所有列都为NaN的行，这有助于清理文件末尾的空行或无关文本        df = df.dropna(how='all')        # 进一步清理：如果某些列被读取为NaN，但它们应该是数据，这通常意味着文件末尾有额外文本        if 'rank' in df.columns:            df = df[df['rank'].notna()]        return df# 使用 'Student' 作为头部行的起始字符串df_line_scan = read_cleaned_csv_by_line_scan('students.csv', 'Student', expected_columns)print("方法二：逐行扫描定位头部读取结果:")print(df_line_scan)print("-" * 30)

3.3 优点与注意事项

优点： 这种方法对文件头部冗余行的数量不敏感，只要能准确识别头部行即可。对于非常大的文件，它避免了一次性加载整个文件到内存，效率更高。灵活性： header_start_string 可以是更复杂的条件，例如检查是否包含所有 expected_columns 中的列名。names 参数： 由于我们手动读取了头部行，pd.read_csv 应该使用 names 参数来明确指定列名，而不是让它尝试从文件中读取。dropna(how=’all’)： 这是清理文件末尾空行或无关文本的有效方式。如果文件末尾的文本不是完全空行，可能需要更精确的过滤。

4. 方法三：全文件读取与后处理（通用但可能效率低）

这种方法将整个文件内容作为字符串读取，然后进行分割、清洗和转换为DataFrame。它更通用，可以处理更复杂的非标准格式，但对于超大文件可能效率较低，因为它需要将整个文件内容加载到内存中。

4.1 实现步骤

读取整个文件： 将整个文件内容读取为一个字符串。按行分割： 将字符串按换行符分割成行的列表。转换为DataFrame： 将行的列表转换为单列的DataFrame。分割列并清洗： 使用逗号分割列，并删除包含NaN的行。设置列名： 手动将第一行数据设置为列名。

4.2 示例代码

import pandas as pddef read_cleaned_csv_by_full_read(file_name):    """    将整个文件读取为字符串，然后进行分割和清洗。    """    with open(file_name, 'r') as file:        # 将整个文件读取为字符串，然后按换行符分割成行        df_raw = pd.DataFrame(file.read().split('n'))    # 将单列DataFrame的每一行按逗号分割成多列    # dropna() 用于移除文件开头和结尾的非CSV行，以及可能存在的空行    df = df_raw[0].str.split(',', expand=True).dropna()    # 将第一行（此时应该是实际的CSV头部）设置为列名    # 并移除原始的第一行（因为现在它是列名）    df.columns = df.iloc[0].values    df = df[1:].reset_index(drop=True)    # 再次清理，确保数据行中没有NaN    df = df.dropna(how='any')    return dfdf_full_read = read_cleaned_csv_by_full_read('students.csv')print("方法三：全文件读取与后处理读取结果:")print(df_full_read)print("-" * 30)

4.3 优点与注意事项

优点： 这种方法非常灵活，可以处理各种非标准格式，只要能通过字符串操作进行解析。缺点： 对于非常大的文件，一次性将所有内容加载到内存中可能导致性能问题或内存溢出。复杂性： 需要更多手动的数据清洗和列名设置步骤，可能不如 pd.read_csv 直接处理文件句柄那么简洁。

5. 总结与最佳实践

在处理包含非结构化文本的CSV文件时，选择合适的方法取决于文件的具体结构、大小和性能要求：

对于文件头部冗余行数不固定，但头部行内容相对稳定的情况（推荐）：方法二（逐行读取定位头部并传递文件句柄） 是最推荐的方案。它结合了Python文件操作的灵活性和Pandas的强大读取能力，既高效又健壮。对于文件头部冗余行数相对固定，或可以通过一个关键词准确识别头部行的情况：方法一（基于关键词定位并跳过指定行） 是一个简单有效的选择。对于文件结构极其复杂，或者需要对文件内容进行更细粒度的字符串操作的情况：方法三（全文件读取与后处理） 提供了最大的灵活性，但应注意其潜在的性能开销。

通用注意事项：

错误处理： 在实际应用中，务必添加文件不存在、关键词未找到等异常处理逻辑。模式匹配： 如果头部识别逻辑非常复杂，可以考虑使用正则表达式来匹配头部行。数据类型： 在读取后，通常需要检查并转换DataFrame中列的数据类型，因为 pd.read_csv 可能会将数字列识别为字符串。dropna() 的使用： 根据实际情况选择 how=’any’（删除包含任何NaN的行）或 how=’all’（删除所有值为NaN的行）。

通过这些方法，您可以有效地自动化处理大量包含非结构化文本的CSV文件，从而节省时间和精力，确保数据处理流程的准确性和效率。

以上就是清理并高效读取含非结构化文本的CSV文件的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1371929.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

深入解析Confluence页面数据提取：API优先，数据库直连为辅

上一篇 2025年12月14日 11:52:52

PyTorch安装故障排除：解决卡顿与“幽灵”安装问题

下一篇 2025年12月14日 11:53:07

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

CSS的Word中的列表详解

在word中，列表也是使用频率非常高的元素。在css中，列表和列表项都是块级元素。也就是说，一个列表会形成一个块框，其中的每个列表项也会形成一个独立的块框。所以，盒模型中块框的所有属性，都适用于列表和列表项。除此之外，列表还有 3 个特有的属性 list-style-type、list-style…

程序猿
2025年12月24日
0000
好文分享

html5能否禁用搜索框自动填充_html5autocomplete关闭方法【教程】

禁用HTML5搜索框自动填充有五种方法：一、设autocomplete=”off”；二、随机化name/id值；三、用无效autocomplete值如”nope”；四、JS动态设置autocomplete；五、设autocomplete=”…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
0000
好文分享

safari怎么打开html5_Safari浏览器直接输入html5链接自动渲染打开【打开】

Safari中正确渲染HTML5内容需采用file://协议、禁用本地限制、启用HTTP服务器或更新版本并开启实验性功能。具体包括：一、用file:///绝对路径打开本地HTML文件；二、勾选高级设置中的“显示开发菜单”并禁用本地文件限制；三、用Python启动本地HTTP服务，通过http://l…

程序猿
2025年12月23日
0000
好文分享

html如何登录_使用HTML表单制作登录页面【登录】

需构建语义清晰、可访问性强的HTML登录表单：用method=”post”的form包裹username/password输入框与submit按钮，配label绑定、required验证、placeholder提示，action指向处理地址，并用div+style控制垂直布局…

程序猿
2025年12月23日
0000
好文分享

电脑html5怎么使用_电脑用新版浏览器打开HTML5文件直接渲染使用【使用】

需用支持HTML5的现代浏览器，通过file://协议双击打开、浏览器菜单打开、本地HTTP服务器（Python/Node.js）、VS Code Live Server插件或Visual Studio内置功能加载页面。如果您编写完成一个HTML5页面文件，希望在电脑上直接查看其渲染效果，则需确保…

程序猿
2025年12月23日
0000
好文分享

html5怎样插入带样式的docx_html5docx样式保留与展示方案【攻略】

无法直接嵌入.docx，需转换为HTML：一、前端用docxtemplater+html-docx-js生成内联样式HTML；二、后端用python-docx等转为语义化HTML+CSS；三、用Office Online Viewer iframe只读展示；四、用docx-preview库解析Blo…

程序猿
2025年12月23日
0000
好文分享

mac html5 怎么下载_mac浏览器直接打开html5文件无需额外下载【说明】

Mac上HTML5文件被下载而非渲染，需检查文件关联、浏览器安全限制、使用Python服务器托管、验证编码与MIME声明、禁用干扰扩展。如果您在 Mac 上使用浏览器打开 HTML5 文件时发现需要额外下载而非直接渲染，可能是由于文件关联设置、浏览器默认行为或文件路径问题导致。以下是解决此问题的步…

程序猿
2025年12月23日
2000
html如何显示空格_html空格显示方法【详解】

HTML中空格被合并时，可用、标签、white-space属性、letter-spacing/word-spacing或加margin-left五种方法精确控制空格显示。如果您在HTML中直接输入多个空格，浏览器会将其合并为一个空格显示，导致无法呈现预期的空白效果。以下是实现HTML中空格精确显…

程序猿
2025年12月23日 • 好文分享
0000