使用 PyMuPDF 按页码范围分割 PDF 并保留目录

 使用 PyMuPDF 按页码范围分割 PDF 并保留目录

本文档旨在提供一个使用 PyMuPDF 库分割 PDF 文件并保留对应目录的教程。我们将介绍如何提取原始 PDF 的目录,针对分割后的每个部分,调整目录结构以符合 PyMuPDF 的规范,并将调整后的目录添加到分割后的 PDF 文件中,确保分割后的文档仍然具有完整的导航功能。### 前提条件确保已经安装了 PyMuPDF 库。如果没有安装,可以使用 pip 进行安装:“`bashpip install pymupdf

提取目录

首先,我们需要从原始 pdf 文件中提取目录。pymupdf 提供了 document.get_toc() 方法来获取目录信息。目录信息以嵌套列表的形式返回,每个子列表代表一个目录项,包含层级、标题和页码。

import fitzdef extract_toc(input_pdf_path):    """    从 PDF 文件中提取目录。    Args:        input_pdf_path (str): 输入 PDF 文件的路径。    Returns:        list: 目录列表,每个元素是一个包含层级、标题和页码的列表。    """    pdf_document = fitz.open(input_pdf_path)    toc = pdf_document.get_toc()    pdf_document.close()    return toc

分割 PDF 并调整目录

接下来,我们需要根据指定的页码范围分割 PDF 文件,并为每个分割后的文件调整目录。关键在于,分割后的每个 PDF 的目录必须符合 PyMuPDF 的目录规则:

第一个目录项的层级必须为 1。后续目录项的层级只能与前一个目录项相同、高一级或低于前一个目录项。

def split_pdf_with_toc(input_pdf_path, output_folder, page_ranges):    """    分割 PDF 文件并保留目录。    Args:        input_pdf_path (str): 输入 PDF 文件的路径。        output_folder (str): 输出文件夹的路径。        page_ranges (list): 页码范围列表,每个元素是一个包含起始页和结束页的元组。    """    pdf_document = fitz.open(input_pdf_path)    original_toc = pdf_document.get_toc()    for i, (start_page, end_page) in enumerate(page_ranges, start=1):        # 创建新的 PDF 文件        chapter_pdf = fitz.open()        chapter_pdf.insert_pdf(pdf_document, from_page=start_page - 1, to_page=end_page - 1)        # 提取对应页码范围的目录        chapter_toc = []        for level, title, page in original_toc:            if start_page <= page <= end_page:                chapter_toc.append([level, title, page - start_page + 1]) # 页码需要重新计算        # 调整目录结构        if chapter_toc:            first_level = chapter_toc[0][0]            if first_level != 1:                for j in range(1, first_level):                    chapter_toc.insert(0, [j, "dummy", 1])        # 设置目录        chapter_pdf.set_toc(chapter_toc)        # 保存新的 PDF 文件        output_pdf_path = f"{output_folder}/Chapter_{i}.pdf"        chapter_pdf.save(output_pdf_path)        chapter_pdf.close()    pdf_document.close()

示例

以下是一个使用示例:

# 示例用法input_pdf_path = "input.pdf"  # 替换为你的输入 PDF 文件路径output_folder = "output"  # 替换为你的输出文件夹路径page_ranges = [(1, 10), (11, 20), (21, 30)]  # 定义页码范围split_pdf_with_toc(input_pdf_path, output_folder, page_ranges)

在这个例子中,我们将 input.pdf 文件分割成三个部分,分别包含第 1-10 页、第 11-20 页和第 21-30 页。分割后的文件将保存在 output 文件夹中,文件名分别为 Chapter_1.pdf、Chapter_2.pdf 和 Chapter_3.pdf。每个分割后的 PDF 文件都将包含与其内容对应的目录。

注意事项

页码计算: 在调整目录时,需要重新计算分割后 PDF 文件的页码。目录规则: 确保调整后的目录符合 PyMuPDF 的规则,否则可能导致目录显示不正确。错误处理: 在实际应用中,应该添加适当的错误处理机制,例如处理文件不存在、页码范围无效等情况。目录提取的准确性: 某些PDF可能存在目录结构复杂或不规范的情况,提取的目录可能不完全准确,需要根据实际情况进行调整。

总结

通过使用 PyMuPDF 库,我们可以方便地分割 PDF 文件并保留目录。关键在于理解 PyMuPDF 的目录规则,并根据这些规则调整分割后 PDF 文件的目录结构。希望本教程能够帮助你更好地处理 PDF 文件。


以上就是使用 PyMuPDF 按页码范围分割 PDF 并保留目录的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1369397.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 09:37:54
下一篇 2025年12月14日 09:38:01

相关推荐

  • 高效拆分PDF并精确保留目录结构(PyMuPDF教程)

    本教程详细介绍了如何使用PyMuPDF库(fitz)高效地将大型PDF文档按指定页面范围拆分为多个独立文件,并确保每个拆分后的PDF都能正确地包含其对应的、且符合PyMuPDF规范的目录(Table of Contents, TOC)。文章深入探讨了PyMuPDF的TOC结构规则,提供了修正不规范T…

    好文分享 2025年12月14日
    000
  • 分割PDF并动态生成目录(TOC)的PyMuPDF专业指南

    本教程详细介绍了如何使用PyMuPDF库高效地按页码范围分割PDF文件,并为每个分割后的文件动态生成并维护对应的目录(TOC)。文章重点阐述了PyMuPDF中TOC结构的严格规则,包括层级(level)的合法性检查与调整策略,特别是通过添加“虚拟”条目来确保TOC的正确性,从而实现分割PDF后TOC…

    2025年12月14日
    000
  • Ren’Py中对话打字音效与停顿同步的实现教程

    本教程旨在解决Ren’Py游戏中角色对话时打字音效与文本停顿不同步的问题。通过详细阐述type_sound函数的实现原理,并重点介绍如何利用Ren’Py内置的{w}标签来创建与音效完美匹配的定时停顿,确保打字音效在对话暂停时也能同步停止,从而提升游戏体验的沉浸感。 在ren&…

    2025年12月14日
    000
  • Ren’Py对话打字音效同步:解决停顿播放问题

    本教程详细介绍了如何在Ren’Py游戏中实现与角色对话同步的打字音效,并重点解决在对话停顿时音效持续播放的问题。通过利用Ren’Py的{w=X}标签,开发者可以确保打字音效在文本显示时播放,并在对话暂停时自动停止,从而提供更自然、沉浸式的用户体验。 实现Ren’P…

    2025年12月14日
    000
  • 使用Ren’Py制作打字音效教程

    本文将介绍如何在Ren’Py游戏中实现打字音效,使音效与对话文本的显示速度同步。我们将探讨如何使用Ren’Py提供的功能,结合代码示例,解决音效持续播放的问题,并提供一种有效的暂停对话方法,确保音效与文本的节奏保持一致,从而提升游戏的沉浸感。 实现打字音效 在Ren&#821…

    2025年12月14日
    000
  • Ren’Py 中实现打字音效的精确控制

    本文旨在解决 Ren’Py 游戏中实现打字音效时,音效播放与文本显示速度不匹配的问题。通过使用正确的暂停标签,可以确保音效在对话停顿时也能同步暂停,从而实现更自然、更具沉浸感的打字音效效果。 在 Ren’Py 游戏中,为对话添加打字音效可以显著提升游戏的沉浸感和真实感。然而,…

    2025年12月14日
    000
  • 基于PyMuPDF实现PDF按页码范围分割并保留目录

    本文档旨在提供一个使用PyMuPDF库,根据指定的页码范围分割PDF文件,并保留或重建分割后PDF文件的目录(Table of Contents, TOC)的详细教程。我们将深入探讨PyMuPDF库提供的get_toc()和set_toc()方法,并提供相应的代码示例,帮助读者理解如何正确处理和更新…

    2025年12月14日
    000
  • Python多进程在Windows下动态类型创建与传递的解决方案

    本文探讨了在Windows环境下使用Python多进程时,动态创建的类无法被子进程正确序列化和反序列化的问题。通过分析错误原因,本文提供了一种解决方案,确保动态创建的类可以在父进程中定义,并在子进程中安全地使用,同时避免重复创建带来的性能损耗。 在Windows下使用Python的multiproc…

    2025年12月14日
    000
  • Ren’Py 实现打字音效同步教程

    本文旨在提供一种在 Ren’Py 游戏中实现与文本同步的打字音效的解决方案。通过巧妙地利用 Ren’Py 的文本标签和自定义 Python 函数,可以精确控制音效的播放,使其与屏幕上文本的显示速度保持一致,从而增强游戏的沉浸感。文章将详细介绍实现步骤,并提供示例代码,帮助开发…

    2025年12月14日
    000
  • 提取 HTML 文本的 BeautifulSoup 教程

    本文旨在指导读者如何使用 Python 的 BeautifulSoup 库从 HTML 文档中提取纯文本数据。通过结合 requests 库获取网页内容,并利用 BeautifulSoup 的 get_text() 方法,可以有效地去除 HTML 标签,获取干净、可用的文本信息,从而方便进行数据分析…

    2025年12月14日
    000
  • 使用 BeautifulSoup 从 HTML 中提取文本

    本文介绍了如何使用 Python 的 BeautifulSoup 库从 HTML 文档中提取文本内容。通过 get_text() 方法,可以轻松地从 HTML 标签中剥离标签信息,仅保留文本数据,从而方便后续的数据处理和分析。本文提供了示例代码,展示了如何针对特定 HTML 结构提取所需文本,并将其…

    2025年12月14日
    000
  • Pandas DataFrame差异行识别与来源追踪教程

    本教程详细介绍了如何使用Pandas识别两个DataFrame之间的差异行,并有效追踪这些差异行来源于哪个原始DataFrame。通过利用pd.merge函数的outer连接和indicator=True参数,我们可以生成一个_merge列,明确指示每行的来源(仅左侧、仅右侧或两侧共有)。教程还进一…

    2025年12月14日
    000
  • 使用 Pydantic 精确描述 Python 复杂字典结构

    在Python中,对复杂嵌套的字典结构进行精确的类型描述和验证是一个常见挑战。传统的Dict[str, Any]无法提供细粒度的类型检查。本教程将介绍如何利用Pydantic库,通过定义BaseModel类来精确地映射和验证复杂字典的结构,实现类似Go语言中结构体的强类型特性,从而提升代码的健壮性和…

    2025年12月14日
    000
  • 图像处理中不连续粒子边界的修复策略:从二值化困境到灰度形态学的解决方案

    本文探讨了在图像处理中修复不连续粒子边界的挑战,旨在实现粒子轮廓的完整性以便后续填充。文章分析了在二值图像上直接应用findContours和简单膨胀操作的局限性,指出这些方法常导致形状失真或粒子粘连。核心策略是建议在图像二值化之前,利用灰度形态学操作,特别是闭运算,来有效连接断裂的轮廓,同时尽量保…

    2025年12月14日
    000
  • Python中跨类动态变量传递的最佳实践

    针对Python中类之间动态变量传递的常见挑战,本文探讨了一种Pythonic解决方案。当变量值频繁变化且不适合通过构造函数或方法参数每次传递时,通过在构造函数中传递一个类实例的引用,接收类可以直接访问并获取最新数据,从而实现高效、简洁的类间数据共享。 引言:Python中类间动态数据共享的挑战 在…

    2025年12月14日
    000
  • 优化粒子轮廓重建:解决二值图像中不连续边界的挑战

    本文探讨了在二值图像中重建不连续粒子轮廓以实现完整填充的挑战。通过分析常见的OpenCV轮廓检测和ImageJ膨胀方法的局限性,我们强调了在二值化之前进行图像处理的重要性。核心策略包括利用灰度形态学操作(如闭运算)来有效连接断裂的边界,同时强调了图像分辨率和处理目标冲突对结果的影响,旨在提供更鲁棒的…

    2025年12月14日
    000
  • VSCode Python 配置项变迁与查找策略

    本教程旨在解决VSCode中Python及相关扩展配置项难以查找的问题,特别是面对配置变更时。文章将详细介绍通过查阅扩展文档、Marketplace配置部分以及利用VSCode内置设置UI的“在settings.json中打开”功能,快速准确地定位所需配置键值的方法,帮助开发者有效管理和更新其开发环…

    2025年12月14日
    000
  • Pythonic类间变量传递:动态数据共享的最佳实践

    本文探讨了在Python中,当一个类的实例需要动态访问另一个类实例中频繁变化的变量时,如何实现高效且符合Pythonic++风格的数据共享。针对传统方法(如通过方法参数传递)的局限性,文章提出了一种通过在构造函数中传递实例引用(即依赖注入)的解决方案,并辅以详细代码示例和最佳实践分析,以确保数据实时…

    2025年12月14日
    000
  • VS Code Python 配置迷失?掌握查找最新设置键的两种方法

    本文针对VS Code Python开发环境中,用户在查找和配置最新设置键时遇到的常见困惑,特别是由于扩展API变更导致的配置项迁移问题,提供了两种高效的解决方案。我们将详细介绍如何利用VS Code的设置UI直接获取配置键名,以及如何通过查阅扩展的官方文档和Marketplace页面来定位所需设置…

    2025年12月14日
    000
  • 如何在Python中优雅地在类之间传递动态变量

    在Python面向对象编程中,当一个类需要动态获取并使用另一个类中不断变化的数据时,直接通过构造函数传递值或在每次调用时传递参数可能不够灵活。本文将深入探讨一种Pythonic的解决方案:通过在构造函数中传递目标类的实例引用,实现类之间数据的高效、实时共享,从而避免紧耦合并保持代码的清晰性。 跨类变…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信