使用Python提取Word文档表格中带编号列表的文本

程序猿 • 2025年12月14日 20:15:10 • 用户投稿 • 阅读 0

本文详细介绍了如何使用`python-docx`库从Word文档的表格中准确提取包含编号列表的文本内容。通过遍历文档、表格、行、单元格及段落，并结合段落样式和文本前缀判断，可以有效识别并提取如“1. 外观”这类带编号的列表项，同时提供了处理多行列表项的优化方案，确保提取结果的准确性和完整性。

引言

在处理Word文档时，我们经常需要从其结构化内容中提取特定信息。其中，从表格中提取文本是常见需求，但当表格单元格内包含编号列表（如“1. 外观”、“2. 功能”）时，传统的文本提取方法可能无法完整获取编号部分，导致信息丢失。本文将深入探讨如何利用Python的python-docx库，精确地从Word文档的表格中识别并提取带有编号的列表项。

python-docx库基础：表格与单元格遍历

python-docx库提供了一套直观的API来访问Word文档的结构。要从表格中提取内容，我们需要逐层深入：文档 -> 表格 -> 行 -> 单元格 -> 段落。

首先，导入Document类并加载Word文档：

立即学习“Python免费学习笔记（深入）”；

from docx import Documentdef extract_numbered_lists_from_tables(docx_file_path):    """    从Word文档的表格中提取带编号的列表项。    """    doc = Document(docx_file_path)    # 遍历文档中的所有表格    for table in doc.tables:        # 遍历表格中的每一行        for row in table.rows:            # 遍历行中的每一个单元格            for cell in row.cells:                # 单元格内的内容由一个或多个段落组成                for paragraph in cell.paragraphs:                    # 在此处添加识别编号列表的逻辑                    pass

上述代码框架展示了如何遍历文档中的所有表格及其内部的行、单元格和段落。这是我们进行精确内容提取的基础。

识别表格中的编号列表

在遍历到单元格内的每个paragraph对象后，我们需要判断该段落是否为一个编号列表项。python-docx库提供了两种主要方式来辅助判断：

段落样式 (paragraph.style.name)：Word文档中的编号列表通常会应用特定的样式，例如’List Paragraph’。这是一个强有力的指示器。文本前缀 (paragraph.text.startswith(‘1.’))：虽然不总是万无一失，但检查段落文本是否以数字和点号开头（如“1.”）可以作为辅助判断，尤其是在样式信息不明确或不统一时。

结合这两种方法，我们可以更准确地识别编号列表：

from docx import Documentdef extract_numbered_lists_from_tables(docx_file_path):    """    从Word文档的表格中提取带编号的列表项。    """    doc = Document(docx_file_path)    extracted_lists = []    for table in doc.tables:        for row in table.rows:            for cell in row.cells:                for paragraph in cell.paragraphs:                    # 检查段落样式是否为“List Paragraph”                    # 并辅助检查文本是否以数字和点号开头（例如 '1.', '2.', '3.'）                    # 注意：startswith('1.') 仅匹配以 '1.' 开头的列表，                    # 更通用的做法是使用正则表达式匹配多种编号格式。                    if paragraph.style.name == 'List Paragraph' and                        (paragraph.text.startswith(('1.', '2.', '3.', '4.', '5.', '6.', '7.', '8.', '9.')) or                         paragraph.text.startswith(('a.', 'b.', 'c.', 'd.'))): # 示例：支持更多编号格式                        list_item = paragraph.text                        extracted_lists.append(list_item)    return extracted_lists# 示例调用# file_path = "D5.docx" # 替换为你的Word文档路径# numbered_items = extract_numbered_lists_from_tables(file_path)# for item in numbered_items:#     print(item)

在这个示例中，我们扩展了startswith的判断，使其能够识别以不同数字或字母开头的列表。然而，最健壮的方法是使用正则表达式来匹配更复杂的编号模式。

提取与优化：处理多行列表项

有时，一个编号列表项可能包含多行文本。例如：

1. 这是第一行列表项，   它还有第二行内容。

如果我们需要只提取列表项的第一行（即“1. 这是第一行列表项，”），则需要对提取到的paragraph.text进行处理。paragraph.text会包含所有行，用换行符分隔。我们可以通过split(‘n’)[0]来获取第一行。

from docx import Documentdef extract_numbered_lists_from_tables_optimized(docx_file_path, extract_first_line_only=False):    """    从Word文档的表格中提取带编号的列表项，可选择只提取第一行。    """    doc = Document(docx_file_path)    extracted_lists = []    for table in doc.tables:        for row in table.rows:            for cell in row.cells:                for paragraph in cell.paragraphs:                    # 使用更通用的正则表达式来匹配编号模式                    import re                    # 匹配数字或字母开头的编号，后跟点号或括号，再跟一个空格                    # 例如：1. A, (a) B, I. C                    numbered_pattern = re.compile(r'^s*(d+.|([a-zA-Z]+)|[a-zA-Z]+.|d+))s*.*')                    if paragraph.style.name == 'List Paragraph' and numbered_pattern.match(paragraph.text.strip()):                        list_item = paragraph.text.strip()                        if extract_first_line_only:                            # 如果只需要第一行，则按换行符分割并取第一个元素                            list_item = list_item.split('n')[0]                        extracted_lists.append(list_item)    return extracted_lists# 示例调用file_path = "D5.docx" # 替换为你的Word文档路径print("--- 提取完整的编号列表项 ---")full_numbered_items = extract_numbered_lists_from_tables_optimized(file_path, extract_first_line_only=False)for item in full_numbered_items:    print(item)print("--- 仅提取编号列表项的第一行 ---")first_line_numbered_items = extract_numbered_lists_from_tables_optimized(file_path, extract_first_line_only=True)for item in first_line_numbered_items:    print(item)

在这个优化后的版本中，我们引入了re模块进行正则表达式匹配，以更灵活地识别各种编号格式。同时，通过extract_first_line_only参数控制是否只提取列表项的第一行。

注意事项与扩展

样式名称的通用性：’List Paragraph’是Word默认的列表样式名称，但在某些自定义模板中，列表样式名称可能不同。如果发现无法识别列表，可以尝试打印paragraph.style.name来查看实际使用的样式名。正则表达式的精确性：示例中的正则表达式是一个起点，实际应用中可能需要根据Word文档中编号列表的具体格式进行调整，以确保既能捕获所有目标列表，又能避免误识别。多级列表：本文主要关注一级编号列表。对于多级列表（如1.1, 1.1.1），需要更复杂的逻辑来解析其层级关系，可能需要结合paragraph.level属性（如果可用）或更精细的正则表达式。性能考量：对于包含大量表格和内容的超大型Word文档，遍历所有段落可能会有性能开销。可以考虑在发现所需信息后提前终止循环，或对文档结构进行预处理以优化遍历路径。错误处理：在实际应用中，应加入适当的错误处理机制，例如处理文件不存在、文档损坏等情况。

总结

通过python-docx库，我们可以有效地解决从Word文档表格中提取带编号列表项的挑战。关键在于理解Word文档的结构层级，并结合段落样式和文本内容特征进行精确识别。通过灵活运用paragraph.style.name和正则表达式，并根据需求选择是否只提取列表项的第一行，可以构建出强大而健壮的文本提取工具。

以上就是使用Python提取Word文档表格中带编号列表的文本的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1378954.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

413.8K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Matplotlib动画中的全局变量管理与性能优化实践

上一篇 2025年12月14日 20:15:02

Python类循环引用：深入理解与解耦优化策略

下一篇 2025年12月14日 20:15:12

用户投稿

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
用户投稿

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
用户投稿

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
4000
用户投稿

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
用户投稿

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
用户投稿

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
用户投稿

CSS的Word中的列表详解

在word中，列表也是使用频率非常高的元素。在css中，列表和列表项都是块级元素。也就是说，一个列表会形成一个块框，其中的每个列表项也会形成一个独立的块框。所以，盒模型中块框的所有属性，都适用于列表和列表项。除此之外，列表还有 3 个特有的属性 list-style-type、list-style…

程序猿
2025年12月24日
0000
用户投稿

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
1000
用户投稿

html5能否禁用搜索框自动填充_html5autocomplete关闭方法【教程】

禁用HTML5搜索框自动填充有五种方法：一、设autocomplete=”off”；二、随机化name/id值；三、用无效autocomplete值如”nope”；四、JS动态设置autocomplete；五、设autocomplete=”…

程序猿
2025年12月23日
1000
用户投稿

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
用户投稿

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
用户投稿

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
用户投稿

html5怎么设置单选_html5用input type=”radio”加name设单选按钮组【设置】

HTML5 使用 type=”radio” 实现单选功能，需统一 name 值构成互斥组；通过 checked 设默认项；可用 CSS 隐藏原生控件并自定义样式；推荐用 fieldset/legend 增强语义；required 可实现必填验证。如果您希望在网页中创建一组互…

程序猿
2025年12月23日
3000
用户投稿

html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

在HTML5中执行JavaScript需通过script标签：一、内联编写于head或body中；二、外链引入.js文件并建议放body末尾或加defer；三、defer按序执行，async独立执行；四、可动态创建script元素插入执行。如果您希望在HTML5页面中执行JavaScript代码，…

程序猿
2025年12月23日
0000
用户投稿

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
4000
用户投稿

html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

HTML5中无法直接嵌入外部带表单的HTML文档并原生提交；可行方案有四：一、用iframe嵌入，需同源或CORS支持，并用postMessage通信；二、用fetch+DOMParser动态加载表单片段并手动绑定事件；三、在当前页面直接编写表单，最规范且兼容性好；四、用JavaScript+fet…

程序猿
2025年12月23日
1000
用户投稿

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
1000
用户投稿

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
4000
用户投稿

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
3000
用户投稿

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
1000