Python如何压缩文件?Zipfile模块教程

python压缩文件的核心是zipfile模块,它提供了创建、读取、写入和提取zip文件的功能。1. 创建zip文件:使用zipfile类配合’w’模式,将指定文件列表写入新压缩包。2. 添加文件到现有zip:通过’a’模式追加文件而不覆盖原文件。3. 提取zip文件:用’r’模式结合extractall()方法将内容解压到指定目录。4. 读取zip内容:调用namelist()方法获取压缩包内所有文件列表。5. 指定压缩级别:通过compresslevel参数设置压缩比,范围0-9,9为最高但较慢。6. 处理大型文件:使用分块读取配合writestr()方法避免内存过载。7. 排除特定文件:遍历目录时检查文件路径是否匹配排除模式。8. 解决中文乱码:创建zipfile时指定encoding参数如utf-8或gbk。9. 加密zip文件:使用setpassword()设置密码,但zipcrypto加密较弱,敏感数据建议使用第三方库如pyzipper实现aes加密。

Python如何压缩文件?Zipfile模块教程

Python压缩文件,核心在于使用zipfile模块。它能让你轻松创建、读取、写入和提取ZIP文件,就像操作普通文件一样。

Python如何压缩文件?Zipfile模块教程

解决方案

zipfile模块是Python处理ZIP文件的瑞士军刀。以下是一些关键用法:

立即学习“Python免费学习笔记(深入)”;

Python如何压缩文件?Zipfile模块教程

创建ZIP文件:

import zipfiledef create_zip(filename, file_list):    with zipfile.ZipFile(filename, 'w') as zip_file:        for file in file_list:            zip_file.write(file)# 例子files_to_compress = ['file1.txt', 'file2.txt', 'image.png']create_zip('my_archive.zip', files_to_compress)

这段代码创建了一个名为my_archive.zip的压缩包,并将file1.txtfile2.txtimage.png添加到其中。注意,’w’模式表示写入,如果文件已存在会被覆盖。

Python如何压缩文件?Zipfile模块教程

添加文件到现有ZIP:

import zipfiledef add_to_zip(zip_filename, file_to_add):    with zipfile.ZipFile(zip_filename, 'a') as zip_file:        zip_file.write(file_to_add)# 例子add_to_zip('my_archive.zip', 'new_file.txt')

这里,’a’模式表示追加,将new_file.txt添加到已存在的my_archive.zip中。

提取ZIP文件:

import zipfiledef extract_zip(zip_filename, extract_path):    with zipfile.ZipFile(zip_filename, 'r') as zip_file:        zip_file.extractall(extract_path)# 例子extract_zip('my_archive.zip', 'extracted_files')

这段代码会将my_archive.zip中的所有文件提取到extracted_files目录。确保目录存在,否则会报错。

读取ZIP文件内容:

import zipfiledef list_zip_contents(zip_filename):    with zipfile.ZipFile(zip_filename, 'r') as zip_file:        print(zip_file.namelist())# 例子list_zip_contents('my_archive.zip')

namelist()方法返回ZIP文件中所有文件的列表。

指定压缩级别:

import zipfiledef create_zip_with_compression(filename, file_list, compress_level=zipfile.ZIP_DEFLATED):    with zipfile.ZipFile(filename, 'w', compresslevel=compress_level) as zip_file:        for file in file_list:            zip_file.write(file)# 例子files_to_compress = ['large_file.txt']create_zip_with_compression('compressed.zip', files_to_compress, compress_level=9) # 9是最高压缩级别

compresslevel参数允许你控制压缩级别。zipfile.ZIP_DEFLATED是常用的压缩方法,级别范围是0-9,9是最高压缩比,但速度较慢。

如何处理大型文件压缩?

处理大型文件时,一次性加载到内存可能导致问题。可以使用ZipFile.write()arcname参数和分块读取的方式。

import zipfileimport osdef compress_large_file(zip_filename, filename, chunk_size=4096):    with zipfile.ZipFile(zip_filename, 'w', zipfile.ZIP_DEFLATED) as zf:        with open(filename, 'rb') as f:            # 使用 arcname 指定压缩包内的文件名            zf.writestr(filename, f.read())

这种方法避免了将整个文件加载到内存中,而是分块读取并写入ZIP文件。

压缩时如何排除特定文件或目录?

有时你可能需要排除某些文件或目录。可以通过在添加文件之前进行检查来实现。

import zipfileimport osdef create_zip_with_exclusion(zip_filename, source_dir, exclude_patterns):    with zipfile.ZipFile(zip_filename, 'w', zipfile.ZIP_DEFLATED) as zip_file:        for root, _, files in os.walk(source_dir):            for file in files:                filepath = os.path.join(root, file)                # 检查是否匹配任何排除模式                if any(pattern in filepath for pattern in exclude_patterns):                    continue  # 跳过该文件                zip_file.write(filepath, os.path.relpath(filepath, source_dir))# 例子source_directory = 'my_project'exclude_list = ['.git', '__pycache__', '*.log'] # 排除.git目录、__pycache__目录和所有.log文件create_zip_with_exclusion('project_archive.zip', source_directory, exclude_list)

这个例子展示了如何排除.git目录、__pycache__目录和所有.log文件。os.walk()遍历目录树,然后检查每个文件是否匹配排除模式。

压缩文件时出现中文乱码怎么办?

在处理包含中文的文件名时,可能会遇到乱码问题。这通常与编码有关。可以尝试在创建ZipFile对象时指定encoding参数。

import zipfiledef create_zip_with_encoding(filename, file_list, encoding='utf-8'):    with zipfile.ZipFile(filename, 'w', encoding=encoding) as zip_file:        for file in file_list:            zip_file.write(file)# 例子files_to_compress = ['中文文件.txt']create_zip_with_encoding('chinese_archive.zip', files_to_compress)

通过指定encoding='utf-8',可以确保中文文件名正确编码。如果utf-8仍然有问题,可以尝试其他编码,如gbk

如何加密ZIP文件?

zipfile模块本身并不直接支持强加密(如AES)。但可以使用密码保护(ZipCrypto),虽然这种加密方式相对较弱。

import zipfiledef create_encrypted_zip(filename, file_list, password):    with zipfile.ZipFile(filename, 'w', zipfile.ZIP_DEFLATED) as zip_file:        for file in file_list:            zip_file.setpassword(password.encode('utf-8'))            zip_file.write(file)# 例子files_to_compress = ['sensitive_data.txt']password = 'my_secret_password'create_encrypted_zip('encrypted_archive.zip', files_to_compress, password)

注意,setpassword()方法需要一个字节串,所以需要将密码编码为utf-8

要提取加密的ZIP文件,也需要在ZipFile对象上调用setpassword()

import zipfiledef extract_encrypted_zip(zip_filename, extract_path, password):    with zipfile.ZipFile(zip_filename, 'r') as zip_file:        zip_file.setpassword(password.encode('utf-8'))        zip_file.extractall(extract_path)# 例子password = 'my_secret_password'extract_encrypted_zip('encrypted_archive.zip', 'extracted', password)

再次强调,ZipCrypto加密相对较弱,对于高度敏感的数据,应考虑使用更强的加密方法,例如使用第三方库pyzipper,它支持更安全的AES加密。

以上就是Python如何压缩文件?Zipfile模块教程的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1366281.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 05:04:49
下一篇 2025年12月14日 05:05:02

相关推荐

  • 如何用Python实现工业气体浓度的异常报警?

    要实现工业气体浓度异常报警,核心思路是通过传感器获取数据并用python实时分析,一旦数据偏离正常范围即触发报警。1. 数据采集:通过串口通信、modbus、mqtt等方式获取传感器数据,示例代码通过模拟函数生成数据。2. 数据预处理:对原始数据进行平滑处理、缺失值处理和归一化,以提高数据质量。3.…

    2025年12月14日 好文分享
    000
  • 解决TensorFlow模型预测中的输入形状不匹配问题

    本文旨在解决TensorFlow模型预测时常见的ValueError: Input 0 of layer “sequential” is incompatible with the layer: expected shape=(None, H, W, C), found sh…

    2025年12月14日
    000
  • TensorFlow Keras模型预测时输入维度不匹配问题解析与解决方案

    本文旨在解决TensorFlow Keras模型在进行单张图像预测时常见的ValueError: Input 0 of layer … is incompatible with the layer: expected shape=(None, H, W, C), found shape=…

    2025年12月14日
    000
  • 生成具有指定行和列总和的随机矩阵

    本文详细阐述了如何生成一个指定尺寸(x, y)的随机矩阵,并确保其每行和每列的元素之和都等于一个预设值Z。针对直接随机生成后难以同时满足行和列总和约束的问题,本文提出并实现了基于迭代缩放的解决方案,通过交替对行和列进行归一化和缩放,直至达到收敛。文章提供了完整的Python代码示例,并深入探讨了算法…

    2025年12月14日
    000
  • 解决macOS Retina显示器下Tkinter应用性能迟滞问题

    本文探讨并提供了解决Tkinter应用在macOS Retina高分辨率显示器上出现性能迟滞(卡顿)的有效方法。当应用在内置Retina屏幕上运行时表现迟缓,而在外接普通显示器上流畅时,这通常与macOS的高分辨率模式(HiDPI)配置有关。解决方案是通过修改Python框架的Info.plist文…

    2025年12月14日
    000
  • 解决macOS Retina显示器上Tkinter应用性能滞后问题

    在macOS Retina显示器上运行Tkinter应用时,可能会遇到明显的性能滞后问题,尤其是在高分辨率模式下。这通常是由于Python框架的Info.plist文件中NSHighResolutionCapable键设置为true导致的。通过将该键值修改为false,可以有效禁用高分辨率支持,从而…

    2025年12月14日
    000
  • Python如何计算数据的指数移动平均?

    计算数据的指数移动平均(ema)主要通过赋予近期数据更高的权重来实现,公式为 emat = α·datat + (1 – α)·emat-1,其中 α 是平滑因子,取值范围在 0 到 1 之间。1)使用循环手动计算:适用于理解计算逻辑,但效率较低;2)使用 pandas 库:通过 ewm…

    2025年12月14日 好文分享
    000
  • Python源码构建剧集更新通知服务 利用Python源码监听剧集发布API

    1.构建基于python的剧集更新通知服务需包含api请求器、数据解析器、状态管理器和通知发送器四大模块;2.通过周期性地请求剧集api获取更新数据,并与本地状态文件对比识别新内容;3.使用json或sqlite实现状态持久化以避免重复通知;4.通过邮件、推送服务等方式发送通知,并结合cron或任务…

    2025年12月14日 好文分享
    000
  • Pandas中如何实现数据的层次化索引?多维分析技巧

    pandas中的层次化索引(multiindex)是一种在dataframe或series轴上拥有多个层级标签的索引结构,它通过构建multiindex对象并将其应用到数据索引上,实现多维数据的高效组织和分析。实现层次化索引主要有两种方式:1. 利用set_index()方法将现有列转换为多级索引;…

    2025年12月14日 好文分享
    000
  • Pandas中怎样实现多条件数据筛选?高级查询方法

    <p&amp;amp;gt;在pandas中实现多条件数据筛选的核心方法是使用布尔索引结合位运算符。1. 使用括号包裹每个独立条件表达式,以避免运算符优先级问题;2. 使用&amp;amp;amp;amp;amp;表示“与”、|表示“或”、~表示“非”,进行逐元素逻辑运算;3.…

    好文分享 2025年12月14日
    000
  • 怎样用Python构建信用卡欺诈检测系统?交易特征工程

    构建信用卡欺诈检测系统的核心在于交易特征工程,其关键作用是将原始交易数据转化为揭示异常行为的信号,通过特征工程提取“历史行为”和“实时异常”信息,主要包括基础交易特征、时间窗聚合特征、用户维度、商户维度、卡片维度、频率与速度、比率与差异特征及历史统计特征。实现方法包括使用pandas的groupby…

    2025年12月14日 好文分享
    000
  • 如何通过Python源码理解字典结构 Python源码中dict实现方式详解

    python字典高效源于哈希表设计。1.字典本质是哈希表,键通过哈希函数转为唯一数字决定存储位置,平均时间复杂度o(1)。2.解决哈希冲突采用开放寻址法,冲突时按伪随机探测序列找空槽位。3.扩容机制在元素超容量2/3时触发,重新分配内存并计算哈希值保证性能。4.键必须不可变,因哈希值依赖键值,变化则…

    2025年12月14日 好文分享
    000
  • 怎样用Python识别重复的代码片段?

    1.识别重复代码最直接的方法是文本比对与哈希计算,适用于完全一致的代码片段;2.更高级的方法使用抽象语法树(ast)分析,通过解析代码结构并忽略变量名、空白等表层差异,精准识别逻辑重复;3.实际应用中需结合代码重构、设计模式、共享组件等方式管理与预防重复;4.将静态分析工具集成到ci/cd流程中可自…

    2025年12月14日 好文分享
    000
  • Python源码实现视频帧转图片功能 基于Python源码的图像序列提取

    用python将视频拆解为图片的核心方法是使用opencv库逐帧读取并保存。1. 使用opencv的videocapture打开视频并逐帧读取,通过imwrite保存为图片;2. 可通过跳帧或调用ffmpeg提升大视频处理效率;3. 图像质量可通过jpeg或png参数控制,命名建议采用零填充格式确保…

    2025年12月14日 好文分享
    000
  • Python如何操作Excel?自动化处理表格

    python处理excel适合的库是openpyxl和pandas。1. openpyxl适合精细化操作excel文件,如读写单元格、设置样式、合并单元格等,适用于生成固定格式报告或修改模板;2. pandas适合数据处理和分析,通过dataframe结构实现高效的数据清洗、筛选、排序、聚合等操作,…

    2025年12月14日 好文分享
    000
  • Python如何实现基于集成学习的异常检测?多算法融合

    单一算法在异常检测中表现受限,因其依赖特定假设,难以捕捉复杂多样的异常模式,而集成学习通过融合多模型可提升鲁棒性。1. 异常定义多样,单一算法难以覆盖点异常、上下文异常和集体异常;2. 数据复杂性高,如噪声、缺失值影响模型稳定性;3. 不同算法有各自偏见,集成可引入多视角,降低依赖单一模式;4. 基…

    2025年12月14日 好文分享
    000
  • Python如何实现制造业中的设备退化趋势异常检测?

    制造业设备退化趋势异常检测可通过python实现,其核心在于建立智能系统理解设备正常状态并预测未来趋势;具体步骤包括:1.数据清洗与预处理,使用pandas处理缺失值和异常值,决定模型上限;2.特征工程,从原始数据如振动、温度信号中提取关键特征,如均方根、峰值因子、峭度等,以捕捉退化本质;3.构建退…

    2025年12月14日 好文分享
    000
  • 怎么使用Seldon Core部署异常检测模型?

    使用seldon core部署异常检测模型的核心步骤包括模型序列化、创建模型服务器、构建docker镜像、定义seldon deployment并部署到kubernetes。1. 首先使用joblib或pickle将训练好的模型(如isolation forest或oneclasssvm)序列化保存…

    2025年12月14日 好文分享
    000
  • Python中如何识别可能引发递归过深的函数?

    递归过深问题可通过以下方法识别和解决:1. 代码审查时重点检查递归终止条件是否明确、每次递归问题规模是否减小、递归调用次数是否过多;2. 使用静态分析工具如pylint辅助检测;3. 通过动态分析运行代码并监控递归深度;4. 优先使用迭代代替递归以避免深度限制;5. 调试时使用断点、打印信息、调试器…

    2025年12月14日 好文分享
    000
  • 怎么使用DVC管理异常检测数据版本?

    dvc通过初始化仓库、添加数据跟踪、提交和上传版本等步骤管理异常检测项目的数据。首先运行dvc init初始化仓库,接着用dvc add跟踪数据文件,修改后通过dvc commit提交并用dvc push上传至远程存储,需配置远程存储位置及凭据。切换旧版本使用dvc checkout命令并指定com…

    2025年12月14日 好文分享
    000

发表回复

登录后才能评论
关注微信