优化 humanize.naturalsize() 输出：去除冗余小数位

程序猿 • 2025年12月14日 13:36:18 • 用户投稿 • 阅读 0

本文探讨了如何在使用 humanize.naturalsize() 函数时，去除由固定格式（如 %.2f）导致的冗余小数位零，实现更简洁的输出。通过结合正则表达式对 humanize 的输出进行后处理，我们可以有效地将 1.00M 转换为 1M，同时保留 1.01M 等非零小数位，从而提升数据可读性。

理解 humanize.naturalsize() 的基本用法

humanize 库提供了一个方便的 naturalsize() 函数，用于将字节数转换为人类可读的大小格式（如 k、m、g 等）。在数据展示中，这种格式化能力极大地提升了用户体验。

例如，我们通常会指定一个浮点数格式来控制小数位数：

import humanizeformat_str = "%.2f"raw1 = 1_048_576  # 1MBraw2 = 1_058_576  # 1.01MBprint(humanize.naturalsize(raw1, format=format_str, gnu=True))print(humanize.naturalsize(raw2, format=format_str, gnu=True))

上述代码的输出将是：

1.00M1.01M

存在的问题：冗余小数位零

从上面的输出可以看出，当实际值是整数兆字节（或千字节、吉字节等）时，format=”%.2f” 会强制保留两位小数，导致出现 1.00M 这样的结果。这虽然精确，但在视觉上显得有些冗余，通常我们更倾向于看到 1M。然而，对于 1.01M 这样的情况，我们又希望保留小数位。humanize.naturalsize() 本身没有内置选项来智能地处理这种“去除尾随零但不影响非零小数”的需求。

解决方案：基于正则表达式的后处理

由于 humanize.naturalsize() 无法直接满足此需求，一个有效的策略是对其生成的字符串进行后处理。我们可以定义一个辅助函数，该函数首先调用 humanize.naturalsize()，然后使用正则表达式去除小数点后全是零的部分。

实现 my_format 函数

import reimport humanizedef my_format(num, fmt="%.2f"):    """    格式化数字为人类可读的大小，并去除小数点后冗余的零。    参数:        num (int/float): 要格式化的数字（字节数）。        fmt (str): 传递给 humanize.naturalsize 的浮点数格式字符串。    返回:        str: 格式化后的字符串，例如 "1M", "1.01M"。    """    # 1. 使用 humanize.naturalsize() 进行初步格式化    n = humanize.naturalsize(num, format=fmt, gnu=True)    # 2. 使用正则表达式进行后处理，去除冗余的 ".00" 或 ".0"    # r".0+(?=D)" 的解释：    #   .    : 匹配一个字面量的小数点    #   0+    : 匹配一个或多个零    #   (?=D) : 正向先行断言，确保匹配到的零后面是非数字字符（即大小单位，如 M, K, G, B）。    #           这可以防止意外地删除数字本身中的零。    return re.sub(r".0+(?=D)", "", n)# 示例使用raw1 = 1_048_576raw2 = 1_058_576raw3 = 1_000 # 1KBraw4 = 1_234_567_890 # 1.23GBprint(f"原始值: {raw1}, 格式化后: {my_format(raw1)}")print(f"原始值: {raw2}, 格式化后: {my_format(raw2)}")print(f"原始值: {raw3}, 格式化后: {my_format(raw3, fmt='%.0f')}") # 即使是0f，如果humanize能输出.0，也能处理print(f"原始值: {raw4}, 格式化后: {my_format(raw4)}")

输出结果

运行上述代码，将得到以下优化后的输出：

原始值: 1048576, 格式化后: 1M原始值: 1058576, 格式化后: 1.01M原始值: 1000, 格式化后: 1KB原始值: 1234567890, 格式化后: 1.23GB

注意事项与最佳实践

正则表达式的精确性: r”.0+(?=D)” 这个正则表达式是关键。(?=D) (正向先行断言，表示后面跟着一个非数字字符) 确保了我们只删除小数点后紧跟着单位（如 M, K, G）的零，而不会错误地删除数字内部的零。例如，如果 humanize 输出 10.00M，它会变为 10M；如果输出 100.00M，它会变为 100M。gnu=True 参数: 在 humanize.naturalsize() 中使用 gnu=True 参数通常是为了遵循 GNU 标准的单位表示（例如，1024 字节为 1K，而不是 1000 字节）。在处理文件大小等场景时，这通常是推荐的做法。灵活性: 即使 fmt 参数设置为 %.1f 或 %.3f，只要 humanize 输出的小数部分是 .0 或 .00 等形式，该正则表达式都能正确处理。封装性: 将逻辑封装在一个独立的 my_format 函数中，提高了代码的复用性和可维护性。

总结

通过对 humanize.naturalsize() 的输出进行简单的正则表达式后处理，我们能够有效地解决冗余小数位零的问题，使数据大小的显示更加简洁和直观。这种方法在不修改 humanize 库内部逻辑的前提下，提供了一个灵活且强大的定制化方案，适用于需要精细控制输出格式的专业场景。

以上就是优化 humanize.naturalsize() 输出：去除冗余小数位的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1373819.html

字节封装性正则表达式

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

使用 Pandas 高效比较与更新 CSV 文件数据：基于共同列实现数据同步

上一篇 2025年12月14日 13:36:12

Python Beautiful Soup4：高效解析HTML下拉菜单数据

下一篇 2025年12月14日 13:36:20

用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000
用户投稿

Python正则表达式：处理数字不同情况的替换

本文旨在帮助读者理解和解决在使用Python正则表达式进行数字替换时遇到的问题。通过具体示例，详细解释了如何正确匹配和替换不同格式的数字，避免常见的匹配陷阱，并提供可直接使用的代码示例。掌握这些技巧，能有效提高处理文本数据的效率和准确性。在使用Python的re模块进行字符串替换时，正则表达式的编…

程序猿
2026年5月10日
0000
用户投稿

php超过字数怎么解密_用PHP分段处理超字数加密数据并解密教程【技巧】

分段解密超长加密数据需先确定算法限制，再通过OpenSSL扩展支持，编写函数逐段解密并拼接结果。1、明确加密算法与密钥对应的分段大小；2、启用php.ini中openssl扩展并重启服务；3、自定义函数读取私钥、base64解码密文、循环截取块解密；4、确保去除密文换行符并按原加密块大小切分；5、解…

程序猿
2026年5月10日
0000
用户投稿

c++中sizeof运算符的用法和常见陷阱 _c++ sizeof使用技巧及陷阱解析

sizeof运算符在编译时计算类型或对象的字节大小，返回size_t类型，常用于获取数据大小、数组元素个数及内存操作；但存在数组传参退化为指针导致失效、对指针无法获知动态内存大小、表达式不求值、结构体因对齐产生填充等常见陷阱；需结合模板、显式传参、对齐控制等方式规避问题，提升代码可移植性和安全性。 …

程序猿
2026年5月10日
0000
用户投稿

如何测试html5编码_测试HTML5页面编码兼容性方法【编码测试】

HTML5页面编码兼容性测试需五步：一查meta charset是否正确且前置；二验HTTP响应头Content-Type charset是否为utf-8；三用file或chardet工具探测实际编码；四跨浏览器测试URL参数中中文、Emoji解析；五通过W3C验证服务检查编码声明与字节一致性。如…

程序猿
2026年5月10日
1000
用户投稿

Angular mat-tab 高度自适应与布局优化指南

本教程旨在解决Angular Material mat-tab组件在Flexbox布局中无法自动填充父容器高度的问题。文章将深入分析问题根源，并提供使用CSS深度选择器（::ng-deep）精确控制mat-tab-body-wrapper和mat-tab-body高度的解决方案，确保组件在指定布局下…

程序猿
2026年5月10日
0000
用户投稿

使用JavaScript正则表达式验证DFA字符串

本文旨在探讨如何高效地使用javascript的内置正则表达式功能来验证符合特定确定性有限自动机（dfa）规则的字符串。我们将对比手动构建状态转换表的复杂性与利用正则表达式的简洁与强大，并通过具体代码示例展示如何将dfa的正则表达式直接应用于字符串验证，从而实现更可靠、易维护的解决方案。确定性有限…

程序猿
2026年5月10日
0000
用户投稿

高效处理Selenium抓取中的特殊HTML字符：JavaScript注入法

本教程旨在解决使用Selenium的.text方法抓取网页内容时，因保留不可见特殊HTML字符（如连字符、非断行空格等）导致的数据清洗难题。文章核心内容是介绍如何通过driver.execute_script方法注入JavaScript代码，在提取文本之前直接从DOM中移除这些包含特殊字符的HTML…

程序猿
2026年5月10日
0000
用户投稿

Golang 文件IO操作与性能优化实践

合理使用Go标准库并优化IO策略可显著提升文件处理性能。1. 使用bufio减少系统调用，适合小块读写；2. 大文件用流式读取避免OOM，小文件可一次性加载；3. 并发分片读取大文件并配合预读提升吞吐；4. 结合系统调优如O_DIRECT、关闭atime等防止IO瓶颈。 Go语言在文件IO操作上提供…

程序猿
2026年5月10日
0000
用户投稿

PHP中验证Base64编码字符串有效性的实用指南

本教程将详细介绍在PHP中如何有效验证Base64编码字符串的有效性，特别是针对常见的数据URI格式（如data:image/jpeg;base64,…）。我们将探讨利用base64_decode和base64_encode函数进行往返验证的核心技术，并提供实用的代码示例及重要注意事项，…

程序猿
2026年5月10日
0000
用户投稿

Python多线程中GIL的影响 Python多线程绕过GIL限制的方法

Python多线程因GIL无法并行执行CPU密集型任务，GIL使同一时刻仅一个线程运行字节码，限制多核利用；但I/O密集型任务中GIL会被释放，多线程仍有效。解决方法包括：1. 使用multiprocessing模块通过多进程绕过GIL，实现真正并行；2. 调用C扩展或Cython在计算时释放GIL…

程序猿
2026年5月10日
0000
用户投稿

C#怎么进行UDP通信 C# UdpClient实现UDP协议编程

使用UdpClient类可简化C#中的UDP通信。1. 发送数据：创建UdpClient实例，调用Send()方法指定目标IP和端口，如向127.0.0.1:8888发送”Hello UDP!”；2. 接收数据：绑定端口（如8888），使用Receive()阻塞等待数据，通过…

程序猿
2026年5月10日
1000
用户投稿

C++ 如何替换字符串中的部分内容_C++ 替换字符串内容的常用技巧

答案：C++中常用字符串替换方法包括使用find与replace循环替换所有匹配项，示例代码展示如何通过while循环查找并更新位置实现全局替换；单次替换只需查找第一个匹配并执行一次replace操作；若需忽略大小写，须自定义查找函数如findIgnoreCase进行字符转小写比较；对于模式匹配类替…

程序猿
2026年5月10日
1000
用户投稿

JavaScript解释器_javascript代码执行

JavaScript通过引擎解析执行，先语法分析生成AST，再编译为字节码或机器码，最后执行；执行时创建上下文并入栈，同步代码直接运行，异步任务由API处理后回调入队，事件循环在调用栈空时将回调推入执行；此机制解释了变量提升、暂时性死区及宏任务与微任务执行顺序差异。 JavaScript代码的执行依…

程序猿
2026年5月10日
0000
用户投稿

Nginx 子目录应用URI重写与参数传递教程

本教程详细阐述了如何在Nginx中为PHP应用实现子目录URI重写，特别是如何从请求URI中剥离子目录路径并将其余部分作为参数传递给主入口文件。通过try_files和rewrite指令的组合，本教程提供了一种高效且准确的解决方案，以替代Apache .htaccess的RewriteRule功能，…

程序猿
2026年5月10日
0000
用户投稿

c++如何获取数组的长度或大小_c++获取数组长度的方法

根据数组类型选择合适的方法：普通数组可用sizeof或C++17的std::size；std::array和std::vector分别使用size()成员函数；数组传参时需传长度或引用以避免退化为指针。在C++中获取数组的长度或大小，方法取决于数组的类型（普通数组、std::array 或 std…

程序猿
2026年5月10日
1000
用户投稿

python如何将列表转换为字符串_python列表与字符串相互转换技巧

将列表转换为字符串需用join()方法，确保元素均为字符串类型；含非字符串元素时应先用列表推导式结合str()转换。在Python中，将列表转换为字符串最常见且高效的方式是使用字符串的 join() 方法；而将字符串转换为列表，则主要依赖于字符串的 split() 方法，或者针对特定需求使用 li…

程序猿
2026年5月10日
2000
用户投稿

Go语言中随机数生成器的正确播种方法与性能优化

本文深入探讨Go语言中随机数生成器的正确播种方法，强调仅需在程序启动时播种一次的重要性。通过分析常见错误（如在循环中重复播种），我们展示了如何避免性能瓶颈并确保生成高质量的随机序列。文章提供了优化的代码示例，涵盖了高效的字符串构建技巧，旨在帮助开发者编写健壮且高效的随机数生成逻辑。理解伪随机数生成…

程序猿
2026年5月10日
0000
用户投稿

JavaScript闭包原理详解_JavaScript核心概念解析

闭包是函数与其词法作用域的组合，当内部函数访问外部函数变量时形成，即使外部函数执行完毕，变量仍保留在内存中。例如，function outer() { let name = “Alice”; return function inner() { console.log(name…

程序猿
2026年5月10日
0000
用户投稿

Golang strings库常用字符串操作方法

Go语言中strings库提供字符串处理函数，如Contains、ReplaceAll、Split、Trim等，用于判断、替换、分割和清理字符串；其与bytes库主要区别在于string不可变而[]byte可变，strings适用于文本操作，bytes适用于二进制或高频拼接；处理Unicode时需注…

程序猿
2026年5月10日
0000