Pandas DataFrame中NLP文本预处理的正确顺序与类型处理

程序猿 • 2025年12月14日 05:10:38 • 好文分享 • 阅读 0

本文深入探讨在Pandas DataFrame中进行NLP文本预处理时常见的类型不匹配问题及其解决方案。重点阐述了在不同预处理步骤中（如分词、大小写转换、停用词移除、词形还原等）如何正确处理字符串与列表类型数据的转换，并提供了一个结构清晰、类型安全的Python代码示例，以确保预处理流程的顺畅与高效。

引言：NLP文本预处理的挑战

在自然语言处理（nlp）任务中，文本预处理是至关重要的一步，它直接影响后续模型训练的效果和性能。然而，当我们在pandas dataframe中处理文本数据时，常常会遇到一个核心挑战：不同预处理函数对输入数据类型（字符串或字符串列表）的要求不一致，导致 attributeerror 等类型错误。例如，str.split() 方法只能应用于字符串，而不能应用于列表。理解数据在不同处理阶段的类型变化，并采取相应的处理策略，是构建健壮高效预处理管道的关键。

核心问题：类型不匹配与处理顺序

在构建文本预处理流程时，一个常见的错误是将分词（Tokenization）操作过早地应用于DataFrame列，导致列中的每个单元格从单个字符串变为一个单词列表。此后，如果继续使用期望字符串作为输入的函数（例如 contractions.fix()、unidecode() 或 re.sub()），就会引发 AttributeError: ‘list’ object has no attribute ‘split’ 等错误。

正确的处理方式是，一旦数据被分词成列表，后续所有针对单个单词的操作都必须通过遍历列表中的每个单词来完成。这意味着需要将操作封装在列表推导式中，如 [func(word) for word in x]，其中 x 是一个单词列表。

构建类型安全的预处理管道

为了解决上述问题并构建一个类型安全的文本预处理管道，我们需要仔细规划每个步骤，并确保函数能够正确处理当前数据类型。

1. 必要的库和资源导入

首先，导入所需的Python库和NLTK资源。

import pandas as pdimport nltkfrom nltk.corpus import stopwordsfrom nltk.stem import WordNetLemmatizerfrom nltk.corpus import wordnetfrom nltk.tokenize import word_tokenizeimport reimport stringfrom unidecode import unidecodeimport contractionsfrom textblob import TextBlob # 注意：TextBlob可能需要单独安装# nltk.download('punkt')# nltk.download('stopwords')# nltk.download('wordnet')# nltk.download('averaged_perceptron_tagger')

2. 辅助函数：智能词形还原（Lemmatization）

词形还原通常需要词性（Part-of-Speech, POS）信息以获得更准确的结果。由于我们的数据在经过分词后将是单词列表，我们需要一个能够接受单词列表并对每个单词进行POS标记和词形还原的辅助函数。

def lemmatize_words(words_list, lemmatizer, pos_tag_dict):    """    对单词列表进行POS标记并执行词形还原。    Args:        words_list (list): 待处理的单词列表。        lemmatizer (nltk.stem.WordNetLemmatizer): WordNet词形还原器实例。        pos_tag_dict (dict): NLTK POS标签到WordNet POS标签的映射字典。    Returns:        list: 词形还原后的单词列表。    """    lemmatized_words = []    # 对整个单词列表进行POS标记，效率更高    pos_tuples = nltk.pos_tag(words_list)    for word, nltk_word_pos in pos_tuples:        # 获取WordNet对应的词性        wordnet_word_pos = pos_tag_dict.get(nltk_word_pos[0].upper(), None)        if wordnet_word_pos is not None:            new_word = lemmatizer.lemmatize(word, wordnet_word_pos)        else:            new_word = lemmatizer.lemmatize(word) # 默认动词        lemmatized_words.append(new_word)    return lemmatized_words

3. 主处理函数：processing_steps(df)

这个函数将包含所有预处理步骤，并确保每一步都正确处理数据类型。

def processing_steps(df):    """    对DataFrame中的文本列执行一系列NLP预处理步骤。    Args:        df (pd.DataFrame): 包含文本数据的DataFrame。    Returns:        pd.DataFrame: 预处理后的DataFrame。    """    lemmatizer = WordNetLemmatizer()    # 定义NLTK POS标签到WordNet POS标签的映射    pos_tag_dict = {"J": wordnet.ADJ, "N": wordnet.NOUN, "V": wordnet.VERB, "R": wordnet.ADV}    # 初始化停用词列表    local_stopwords = set(stopwords.words('english'))    additional_stopwords = ["http", "u", "get", "like", "let", "nan"]    words_to_keep = ["i'", "i", "me", "my", "we", "our", "us"] # 确保这些词不会被移除    local_stopwords.update(additional_stopwords)    # 从停用词中移除需要保留的词    for word in words_to_keep:      if word in local_stopwords:        local_stopwords.remove(word)    new_data = {} # 用于存储处理后的数据    for column in df.columns:        # 复制原始列数据进行处理，避免直接修改原始DataFrame        results = df[column].copy()        # 1. 分词 (Tokenization)        # 将每个字符串单元格转换为单词列表        results = results.apply(word_tokenize)        # 从这里开始，'results' 中的每个元素都是一个单词列表。        # 因此，所有后续操作都需要通过列表推导式应用于列表中的每个单词。        # 2. 小写化 (Lowercasing each word within the list)        results = results.apply(lambda x: [word.lower() for word in x])        # 3. 移除停用词 (Removing stopwords)        # 移除非字母字符和停用词        results = results.apply(lambda tokens: [word for word in tokens if word.isalpha() and word not in local_stopwords])        # 4. 替换变音符号 (Replace diacritics)        # unidecode函数期望字符串输入，因此需要对列表中的每个单词应用        results = results.apply(lambda x: [unidecode(word, errors="preserve") for word in x])        # 5. 扩展缩写 (Expand contractions)        # contractions.fix期望字符串输入。这里假设每个“单词”可能包含缩写（如"don't"），        # 并且扩展后可能变成多个词（如"do not"）。        # word.split()在这里是为了确保contractions.fix处理的是一个完整的短语，        # 并将可能产生的多个词重新组合。        results = results.apply(lambda x: [" ".join([contractions.fix(expanded_word) for expanded_word in word.split()]) for word in x])        # 6. 移除数字 (Remove numbers)        # re.sub期望字符串输入，对列表中的每个单词应用        results = results.apply(lambda x: [re.sub(r'd+', '', word) for word in x])        # 7. 移除标点符号 (Remove punctuation except period)        # re.sub期望字符串输入，对列表中的每个单词应用        # 保留句号，因为它们可能用于句子的分割或表示缩写        results = results.apply(lambda x: [re.sub('[%s]' % re.escape(string.punctuation.replace('.', '')), '' , word) for word in x])        # 8. 移除多余空格 (Remove double space)        # re.sub期望字符串输入，对列表中的每个单词应用        results = results.apply(lambda x: [re.sub(' +', ' ', word).strip() for word in x]) # .strip()去除首尾空格        # 9. 词形还原 (Lemmatization)        # 使用我们自定义的lemmatize_words函数，它接受一个单词列表        results = results.apply(lambda x: lemmatize_words(x, lemmatizer, pos_tag_dict))        # 10. (可选) 拼写纠错 (Typos correction)        # TextBlob.correct() 通常在完整的句子或段落上表现更好。        # 如果在此阶段应用，它将对每个单词进行纠错，可能效果不佳或效率低下。        # 如果需要，可以考虑在分词前进行，或在所有处理完成后将词列表重新连接成字符串再进行。        # results = results.apply(lambda x: [str(TextBlob(word).correct()) for word in x])        # 将处理后的列存入新字典        new_data[column] = results    # 将处理后的数据转换为新的DataFrame    new_df = pd.DataFrame(new_data)    return new_df

示例用法：

# 创建一个示例DataFramedata = {    'title': ["Don't you love NLP?", "This is an amazing article about ML. I've read it 10 times."],    'body': ["It's really cool. I'm learning a lot. https://example.com", "The author is great! He doesn't skip anything."]}df = pd.DataFrame(data)print("原始DataFrame:")print(df)# 执行预处理processed_df = processing_steps(df.copy()) # 传入副本，避免修改原始dfprint("n预处理后的DataFrame:")print(processed_df)

预处理的最佳实践与注意事项

操作顺序的重要性：缩写扩展：contractions.fix() 最好在分词前或在分词后针对每个词进行。如果在分词后进行，需要确保它能处理单个词，并正确处理扩展后可能产生的多个词。大小写转换：通常在早期进行，以便后续操作（如停用词移除）能够正确匹配。停用词、数字、标点移除：通常在分词和大小写转换后进行，因为它们依赖于识别单个词。词形还原/词干提取：通常在分词、大小写转换和POS标记后进行。拼写纠错：TextBlob 等工具在处理完整的句子或较长的文本时效果最佳。如果在分词

以上就是Pandas DataFrame中NLP文本预处理的正确顺序与类型处理的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1366410.html

python 工具

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Pandas DataFrame中NLP文本预处理的正确流程与数据类型管理

上一篇 2025年12月14日 05:10:30

高效管理Pandas DataFrame中的NLP文本预处理流程与类型一致性

下一篇 2025年12月14日 05:10:42

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
3000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
0000
好文分享

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
2000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000
好文分享

html5如何建立站点_HTML5站点建立步骤与网站搭建技巧【指南】

HTML5网站搭建需五步：一、建my-website目录及css/js/images子目录，含index.html；二、写标准HTML5骨架，含DOCTYPE、lang、meta、语义化标签；三、外链CSS与defer/async脚本；四、用http-server启本地服务；五、用email/num…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
0000
好文分享

html5怎么去除黑点_html5用list-style:none去除ul/ol列表黑点【去除】

可通过 CSS 的 list-style 属性隐藏列表标记：一、list-style: none 最常用；二、list-style-type: none 精准移除符号；三、重置 list-style 全部子属性应对样式干扰；四、display: inline-block 配合 list-style:…

程序猿
2025年12月23日
0000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
0000
好文分享

html如何学好_学好HTML的关键点与练习【关键】

学好HTML需掌握基础语法结构、熟记语义化标签、通过真实项目练习、验证代码规范性并拆解优质网页源码。具体包括：标准HTML5骨架、正确使用header/nav/main等标签、构建个人页与新闻页、W3C校验及阅读mozilla.org源码。如果您希望掌握HTML语言并能熟练构建网页结构，则需要聚焦…

程序猿
2025年12月23日
0000