Python数据处理:将带有单位的字符串数值转换为浮点数

python数据处理:将带有单位的字符串数值转换为浮点数

本教程详细介绍了如何使用Python将包含单位(如’M’和’B’)的字符串数值列表转换为浮点数,并妥善处理缺失数据。文章涵盖了函数封装、字符串分割与类型转换、条件判断等核心技术,并纠正了常见的编程错误,旨在帮助读者高效、准确地清洗和转换数据。

在数据处理中,我们经常会遇到需要将非标准格式的字符串数值转换为可计算的数值类型(如浮点数)的场景。例如,一个包含财务损失数据的列表可能混合了带有“M”(百万)或“B”(十亿)单位的字符串,以及表示缺失值的特定文本。本教程将指导您如何高效、准确地完成此类数据转换任务。

原始数据示例

假设我们有以下一个存储损失数据的列表:

damages = ['Damages not recorded', '100M', 'Damages not recorded', '40M', '27.9M', '5M', 'Damages not recorded', '306M', '2M', '65.8M', '326M', '60.3M', '208M', '1.42B', '25.4M', 'Damages not recorded', '1.54B', '1.24B', '7.1B', '10B', '26.5B', '6.2B', '5.37B', '23.3B', '1.01B', '125B', '12B', '29.4B', '1.76B', '720M', '15.1B', '64.8B', '91.6B', '25.1B']

我们的目标是将所有带有’M’或’B’的字符串转换为相应的浮点数值,并将“Damages not recorded”保持不变。

立即学习“Python免费学习笔记(深入)”;

常见问题与编程陷阱分析

在尝试解决此类问题时,初学者可能会遇到一些常见的编程陷阱,导致代码无法按预期工作或报错。以下是一些典型的错误点:

不正确的循环结构: 使用 while len(damage) > len(damage_update) 配合 for damage in damages 这样的嵌套循环是冗余且容易出错的。对于遍历列表并基于每个元素生成新列表的任务,一个简单的 for 循环通常是最佳选择。误用字符串或列表方法: 字符串和列表都没有名为 update() 的方法来直接修改其内容或元素。字符串是不可变的,而列表元素的修改通常通过索引赋值或构建新列表来完成。尝试 damages.update() 会导致 AttributeError。条件语句不完整: elif 语句必须紧跟一个条件表达式。例如,elif : damages.find(B): 是一个语法错误,缺少 elif 后面的条件。字符串查找方法: find() 方法在字符串中查找子字符串,如果找到返回其起始索引,否则返回 -1。更Pythonic和简洁的方式是使用 in 运算符来检查子字符串是否存在。

解决方案:构建高效的数据转换函数

为了解决上述问题并实现数据转换,我们将创建一个函数,它接收原始数据列表作为输入,并返回一个包含转换后数值的新列表。

1. 函数封装与初始化

首先,将所有逻辑封装在一个函数中,这有助于代码的模块化、可读性和重用性。在函数内部,初始化一个空列表来存储转换后的数据。

def update_damages(damages_list):    """    将包含单位('M'/'B')的字符串损失数据转换为浮点数,    并保留缺失数据标识。    参数:    damages_list (list): 包含字符串形式损失数据的列表。    返回:    list: 包含转换后浮点数和缺失数据标识的新列表。    """    damage_update = [] # 用于存储转换后数据的新列表    # ... 转换逻辑将在此处添加    return damage_update

2. 遍历数据并应用转换逻辑

使用 for 循环遍历 damages_list 中的每一个元素,并根据其内容应用不同的转换规则。

def update_damages(damages_list):    damage_update = []    for damage_item in damages_list: # 遍历原始列表中的每个元素        if damage_item == 'Damages not recorded':            # 如果是缺失数据,直接添加到新列表            damage_update.append(damage_item)        elif 'M' in damage_item:            # 如果包含 'M' (百万)            # 1. 使用 split('M')[0] 获取数值部分            # 2. 转换为浮点数            # 3. 乘以 1,000,000            value = float(damage_item.split('M')[0]) * 1_000_000            damage_update.append(value)        elif 'B' in damage_item:            # 如果包含 'B' (十亿)            # 1. 使用 split('B')[0] 获取数值部分            # 2. 转换为浮点数            # 3. 乘以 1,000,000,000            value = float(damage_item.split('B')[0]) * 1_000_000_000            damage_update.append(value)        else:            # 处理其他未知或非标准格式的情况,这里假设所有其他都是数值            # 如果有其他复杂情况,需要进一步的条件判断            try:                damage_update.append(float(damage_item))            except ValueError:                # 如果无法转换为浮点数,可以根据需求处理,例如保留原样或标记为NaN                damage_update.append(f"Unrecognized format: {damage_item}")    return damage_update

代码解析:

for damage_item in damages_list::这是一个标准的Python循环,用于依次取出列表中的每个元素。if damage_item == ‘Damages not recorded’::直接判断元素是否为缺失值标识。elif ‘M’ in damage_item::使用 in 运算符检查字符串中是否包含 ‘M’。damage_item.split(‘M’)[0]:split(‘M’) 会将字符串在 ‘M’ 处分割成一个列表。例如,”100M” 会变成 [‘100’, ”]。我们取第一个元素 [0],即 “100”。float(…):将提取出的字符串数值转换为浮点数。* 1_000_000:将数值乘以一百万,完成单位转换。Python 3.6+ 支持使用下划线 _ 作为数字分隔符,提高可读性。damage_update.append(value):将转换后的数值添加到 damage_update 列表中。

3. 完整代码示例与测试

将所有部分组合起来,并用原始数据进行测试:

damages = ['Damages not recorded', '100M', 'Damages not recorded', '40M', '27.9M', '5M', 'Damages not recorded', '306M', '2M', '65.8M', '326M', '60.3M', '208M', '1.42B', '25.4M', 'Damages not recorded', '1.54B', '1.24B', '7.1B', '10B', '26.5B', '6.2B', '5.37B', '23.3B', '1.01B', '125B', '12B', '29.4B', '1.76B', '720M', '15.1B', '64.8B', '91.6B', '25.1B']def update_damages(damages_list):    """    将包含单位('M'/'B')的字符串损失数据转换为浮点数,    并保留缺失数据标识。    参数:    damages_list (list): 包含字符串形式损失数据的列表。    返回:    list: 包含转换后浮点数和缺失数据标识的新列表。    """    damage_update = []    for damage_item in damages_list:        if damage_item == 'Damages not recorded':            damage_update.append(damage_item)        elif 'M' in damage_item:            value = float(damage_item.split('M')[0]) * 1_000_000            damage_update.append(value)        elif 'B' in damage_item:            value = float(damage_item.split('B')[0]) * 1_000_000_000            damage_update.append(value)        else:            # 如果有其他纯数字字符串,也可以尝试转换为浮点数            try:                damage_update.append(float(damage_item))            except ValueError:                # 对于无法识别的格式,可以选择保留原样或抛出错误                damage_update.append(f"Unrecognized format: {damage_item}")    return damage_update# 调用函数并打印结果updated_damages = update_damages(damages)for item in updated_damages:    print(item)

运行上述代码,您将看到一个包含浮点数和字符串“Damages not recorded”的混合列表,所有带单位的数值都已正确转换为其浮点形式。

总结与注意事项

函数封装: 始终建议将逻辑封装在函数中,以提高代码的可维护性和可重用性。选择正确的循环: 对于遍历列表并基于每个元素生成新列表的任务,for 循环是首选。理解数据类型与方法: 明确字符串和列表各自支持的方法。不要混淆使用,例如 list.update() 或 str.update() 在此场景下是不存在的。字符串操作: in 运算符是检查子字符串是否存在的高效方式,split() 方法是分割字符串的强大工具类型转换: 使用 float() 函数将字符串转换为浮点数。在进行类型转换时,考虑使用 try-except 块来处理潜在的 ValueError,以增加代码的健壮性。构建新列表: 在数据转换过程中,通常推荐构建一个新列表来存储结果,而不是尝试原地修改原始列表,这有助于保持原始数据的完整性并避免意外的副作用。

通过遵循这些原则和方法,您可以有效地处理各种复杂的数据清洗和转换任务。

以上就是Python数据处理:将带有单位的字符串数值转换为浮点数的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1378360.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 19:42:36
下一篇 2025年12月14日 19:43:00

相关推荐

  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • 使用 Mask 导入本地图片时,如何解决跨域问题?

    跨域疑难:如何解决 mask 引入本地图片产生的跨域问题? 在使用 mask 导入本地图片时,你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢?让我们深入了解一下: mask 框架假设你以 http(s) 协议加载你的 html 文件,而当使用 file:// 协议打开本地文件时,就会产生跨域…

    2025年12月24日
    200
  • 正则表达式在文本验证中的常见问题有哪些?

    正则表达式助力文本输入验证 在文本输入框的验证中,经常遇到需要限定输入内容的情况。例如,输入框只能输入整数,第一位可以为负号。对于不会使用正则表达式的人来说,这可能是个难题。下面我们将提供三种正则表达式,分别满足不同的验证要求。 1. 可选负号,任意数量数字 如果输入框中允许第一位为负号,后面可输入…

    2025年12月24日
    000
  • 为什么多年的经验让我选择全栈而不是平均栈

    在全栈和平均栈开发方面工作了 6 年多,我可以告诉您,虽然这两种方法都是流行且有效的方法,但它们满足不同的需求,并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序,但它们的实现方式却截然不同。如果您在两者之间难以选择,我希望我在两者之间的经验能给您一些有用的见解。 在这篇文章中,我…

    2025年12月24日
    000
  • 姜戈顺风

    本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置 创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

    2025年12月24日
    000
  • 花 $o 学习这些编程语言或免费

    → Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

    2025年12月24日
    000
  • 揭示绝对定位的缺点并提出解决方案:常见问题的规避策略

    绝对定位的弊端揭秘:如何避免常见问题? 绝对定位是网页设计中常用的一种布局方式,它可以让元素精确地定位在页面上的指定位置。然而,尽管绝对定位在某些情况下非常有用,但它也存在一些弊端。本文将揭示绝对定位的弊端,并提供一些方法来避免常见问题。 首先,绝对定位的一个弊端是元素定位可能受到浏览器窗口大小的影…

    2025年12月24日
    000
  • 常见问题和解决方法:绝对定位运动指令的疑问与解答

    绝对定位运动指令的常见问题及解决方法 摘要:随着技术的不断进步,绝对定位运动在现代机械设备中得到了广泛应用。然而,在使用绝对定位运动指令的过程中,常常会遇到各种问题。本文将重点讨论常见的绝对定位运动指令问题,并提供相应的解决方法和具体的代码示例。 一、绝对定位运动指令简介绝对定位运动指令是指根据目标…

    2025年12月24日
    000
  • 揭秘绝对定位故障:常见问题和解决方法曝光

    绝对定位故障大揭秘:常见问题及解决方案 引言: 绝对定位(Absolute positioning)是CSS中常用的一种定位方式,它允许开发者将元素精确地放置在一个给定的位置上。然而,由于其特殊的性质和较为复杂的用法,绝对定位经常会出现各种问题。本文将揭示绝对定位的常见故障,并提供相应的解决方案,同…

    2025年12月24日
    000
  • 详解Css Flex 弹性布局中的常见问题及解决方案

    详解CSS Flex弹性布局中的常见问题及解决方案 引言:CSS Flex弹性布局是一种现代的布局方式,其具有优雅简洁的语法和强大的灵活性,广泛应用于构建响应式的web页面。然而,在实际应用中,经常会遇到一些常见的问题,如元素排列不如预期、尺寸不一致等。本文将详细介绍这些问题,并提供相应的解决方案,…

    2025年12月24日
    200
  • CSS的选择器有哪些常见问题

    这次给大家带来css的选择器有哪些常见问题,处理css的选择器常见问题的注意事项有哪些,下面就是实战案例,一起来看一下。 选择器常见的有哪几种?1.标签选择器p{ }/选择标签名为p的元素/2.类选择器.box{ }/选择class名为box的元素/3.ID选择器#header{ }/选择id名为h…

    好文分享 2025年12月24日
    000
  • HTML里的常见问题一

    这次给大家带来在html里有哪些经常出现的问题?有序列表、无序列表、自定义列表如何使用?写个简单的例子。三者在语义上有什么区别?使用场景是什么? 能否嵌套? 有序列表是以数字进行标记的列表项目: CoffeeMilk 效果如下: CoffeeMilk 无序列表是以原点标记的列表项目: CoffeeM…

    好文分享 2025年12月24日
    000
  • HTML里的常见问题二

    如何去查css熟悉的兼容性?比如inline-block哪些浏览器支持?a 标签的href, title, target 是什么? title 和 alt有什么区别?如何新窗口打开链接?display: none和visibility: hidden有什么作用?有什么区别? line-height有…

    好文分享 2025年12月24日
    000
  • 响应式HTML5按钮适配不同屏幕方法【方法】

    实现响应式HTML5按钮需五种方法:一、CSS媒体查询按max-width断点调整样式;二、用rem/vw等相对单位替代px;三、Flexbox控制容器与按钮伸缩;四、CSS变量配合requestAnimationFrame优化的JS动态适配;五、Tailwind等框架的响应式工具类。 如果您希望H…

    2025年12月23日
    000
  • html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

    HTML5无法直接导出video标签内容,需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制;FFmpeg.wasm支持MP4等格式及精细编码控制;服务端方案适合高负载场景。 如果您希望在网页…

    2025年12月23日
    300
  • 如何查看编写的html_查看自己编写的HTML文件效果【效果】

    要查看HTML文件的浏览器渲染效果,需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。 如果您编写了HTML代码,但无法直观看到其在浏览器中的实际渲染效果,则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

    2025年12月23日
    400
  • html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

    HTML5不能直接运行PHP,需通过Ajax与PHP通信:前端用fetch发送请求,PHP接收处理并返回JSON,前端解析响应更新DOM;注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言,不能直接运行 PHP 代码,但可以通过 Ajax(异步 JavaScript)与 PHP…

    2025年12月23日
    300
  • html5 js怎么加_html5用script标签内嵌或外链引入JS代码【添加】

    在HTML5中执行JavaScript需通过script标签:一、内联编写于head或body中;二、外链引入.js文件并建议放body末尾或加defer;三、defer按序执行,async独立执行;四、可动态创建script元素插入执行。 如果您希望在HTML5页面中执行JavaScript代码,…

    2025年12月23日
    000
  • node.js怎么运行html_node.js运行html步骤【指南】

    答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应;其次用Express初始化项目并配置静态文件服务;最后利用serve工具全局安装后一键启动服务器,三种方式均在浏览器访…

    2025年12月23日
    300
  • html5能否插入带表单的文档_html5表单文档嵌入与数据提交【步骤】

    HTML5中无法直接嵌入外部带表单的HTML文档并原生提交;可行方案有四:一、用iframe嵌入,需同源或CORS支持,并用postMessage通信;二、用fetch+DOMParser动态加载表单片段并手动绑定事件;三、在当前页面直接编写表单,最规范且兼容性好;四、用JavaScript+fet…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信