Python数据可视化:组合多聚合结果的条形图

python数据可视化:组合多聚合结果的条形图

本教程旨在解决如何将Pandas groupby()操作产生的不同聚合结果(如均值和总和)在同一张条形图中进行可视化的问题。通过详细讲解数据准备(使用reset_index()和pd.merge()合并数据框)和两种Matplotlib条形图绘制方法(垂直plt.bar和水平plt.barh),帮助读者高效地展示复杂的数据洞察。

在数据分析实践中,我们经常需要对数据进行分组聚合,并对比不同聚合指标(例如,某项指标的平均值与总和)在同一维度上的表现。直接使用Pandas groupby().plot.barh() 方法虽然方便,但它通常只能绘制单一聚合结果的图表。当需要将多个聚合结果(如均值和总和)组合到同一张图中时,我们需要更灵活的Matplotlib绘图技巧。

数据准备:聚合与合并

要将不同聚合结果组合到一张图表中,核心思路是先将这些聚合结果分别计算出来,然后将它们合并到一个统一的数据框中。这样,我们就可以基于这个合并后的数据框进行灵活的绘图。

执行分组聚合首先,对原始数据框 day_df 进行分组聚合。我们需要计算 cnt 列的均值 (mean) 和总和 (sum)。

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 模拟数据,实际项目中请替换为您的day_dfdata = {    'yr': np.random.choice([0, 1], 100),    'season': np.random.choice([1, 2, 3, 4], 100),    'weathersit': np.random.choice([1, 2, 3], 100),    'cnt': np.random.randint(100, 1000, 100)}day_df = pd.DataFrame(data)# 计算均值day_mean_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "mean"})# 计算总和day_sum_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "sum"})

重置索引 (reset_index())groupby()操作通常会生成一个多级索引(MultiIndex)。为了方便后续的合并操作,我们需要将这些索引转换为普通列。reset_index()方法可以实现这一点。

day_mean_dataframe = day_mean_dataframe.reset_index()day_sum_dataframe = day_sum_dataframe.reset_index()

合并数据框 (pd.merge())现在我们有了两个数据框,一个包含均值,一个包含总和。使用 pd.merge() 函数将它们合并。关键是指定用于合并的共同列(on 参数)以及为区分相同列名(例如 cnt)而添加的后缀(suffixes 参数)。

merged_df = pd.merge(day_mean_dataframe, day_sum_dataframe,                      on=["yr", "season", "weathersit"],                      suffixes=('_mean', '_sum'))

合并后的 merged_df 将包含 yr, season, weathersit 作为共同的标识列,以及 cnt_mean 和 cnt_sum 两列,分别代表聚合的均值和总和。

立即学习“Python免费学习笔记(深入)”;

可视化实现:组合条形图

数据准备就绪后,我们可以使用Matplotlib的 plt.bar() 或 plt.barh() 函数来绘制组合条形图。

A. 垂直条形图 (plt.bar)

垂直条形图适用于类别标签较少的情况。我们将均值和总和的条形图并排绘制。

# 创建图和轴对象fig, ax = plt.subplots(figsize=(14, 7))# 为每个分组创建一个位置数组r = np.arange(len(merged_df))width = 0.4 # 条形图的宽度# 绘制均值条形图ax.bar(r - width/2, merged_df["cnt_mean"], width=width, label='平均值', color='skyblue')# 绘制总和条形图,稍微偏移以便并排显示ax.bar(r + width/2, merged_df["cnt_sum"], width=width, label='总和', color='lightcoral')# 设置X轴刻度标签# 将yr, season, weathersit组合成一个字符串作为标签ax.set_xticks(r)ax.set_xticklabels([f'{row.yr}, S{row.season}, W{row.weathersit}'                     for _, row in merged_df.iterrows()],                    rotation=90, ha='center') # 旋转标签以防重叠# 添加图例和轴标签ax.legend()ax.set_xlabel('年份, 季节, 天气状况')ax.set_ylabel('计数')ax.set_title('不同天气状况下共享单车计数(平均值与总和)')plt.tight_layout() # 自动调整布局,防止标签重叠plt.show()

B. 水平条形图 (plt.barh)

当类别标签较多或标签内容较长时,水平条形图 (plt.barh) 通常是更好的选择,因为它可以提供更多的空间来显示标签。

# 创建图和轴对象fig, ax = plt.subplots(figsize=(14, 8))# 为每个分组创建一个位置数组r = np.arange(len(merged_df))height = 0.4 # 条形图的高度# 绘制均值水平条形图ax.barh(r - height/2, merged_df["cnt_mean"], height=height, label='平均值', color='skyblue')# 绘制总和水平条形图,稍微偏移以便并排显示ax.barh(r + height/2, merged_df["cnt_sum"], height=height, label='总和', color='lightcoral')# 设置Y轴刻度标签# 将yr, season, weathersit组合成一个字符串作为标签ax.set_yticks(r)ax.set_yticklabels([f'{row.yr}, S{row.season}, W{row.weathersit}'                     for _, row in merged_df.iterrows()])# 添加图例和轴标签ax.legend()ax.set_xlabel('计数')ax.set_ylabel('年份, 季节, 天气状况')ax.set_title('不同天气状况下共享单车计数(平均值与总和)')plt.tight_layout() # 自动调整布局,防止标签重叠plt.show()

注意事项与最佳实践

索引处理:reset_index() 是将多级索引转换为列的关键一步,它使得 pd.merge() 能够正确地识别合并键,并简化后续的绘图操作。标签可读性:当分组维度较多时(如本例中的 yr, season, weathersit),将它们组合成一个有意义的字符串作为刻度标签非常重要。对于垂直条形图,可能需要 rotation=90 来防止标签重叠;对于水平条形图,标签通常有足够的空间。图表美化:始终添加清晰的图例 (ax.legend())、轴标签 (ax.set_xlabel(), ax.set_ylabel()) 和图表标题 (ax.set_title()),以提高图表的可读性和信息传达能力。条形图间距:通过调整 width (垂直条形图) 或 height (水平条形图) 以及条形图的起始位置 (r – width/2, r + width/2),可以控制条形图之间的间距和排列方式。选择合适的图表类型:根据数据特征和可视化目标,选择垂直或水平条形图。当分类数量多或标签长时,水平条形图通常更优。

总结

通过以上步骤,我们学习了如何将Pandas groupby()产生的不同聚合结果有效地合并并可视化在同一张条形图中。关键在于:

分别计算所需的聚合指标。使用 reset_index() 将多级索引转换为列。利用 pd.merge() 将不同的聚合结果合并到一个统一的数据框中。使用Matplotlib的 plt.bar() 或 plt.barh() 函数,结合 np.arange() 和适当的偏移量,绘制并排的条形图。优化刻度标签、图例和轴标签,确保图表清晰易懂。

掌握这些技巧,将使您能够更灵活、更专业地展示复杂的数据分析结果。

以上就是Python数据可视化:组合多聚合结果的条形图的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1375656.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 15:12:55
下一篇 2025年12月14日 15:13:07

相关推荐

  • pythonfor循环怎样实现对元组求和_pythonfor循环对元组内元素求和的详细步骤

    答案:通过for循环遍历元组元素并累加求和。首先定义元组tup = (10, 20, 30, 40),初始化total = 0,然后用for循环依次将每个元素加到total上,最后输出结果为100。 在 Python 中,可以使用 for 循环遍历元组中的每个元素,并通过累加的方式实现求和。下面详细…

    2025年12月14日
    000
  • Python多线程如何实现条件变量 Python多线程复杂同步机制详解

    条件变量用于协调多线程执行,解决互斥锁无法处理的等待与通知问题。它结合锁和等待队列,支持线程在条件不满足时挂起并由其他线程唤醒,适用于生产者-消费者等场景。通过 threading.Condition 实现,推荐使用 with 语句管理锁,调用 wait() 前需持有锁,且应使用 while 循环检…

    2025年12月14日
    000
  • Python代码如何连接MySQL数据库 Python代码使用PyMySQL驱动的连接方法

    答案:PyMySQL是纯Python实现的MySQL驱动,安装简单、跨平台兼容性好,支持参数化查询和DictCursor返回字典结果,避免SQL注入并提升代码可读性;实际项目中应通过环境变量或配置文件管理数据库凭证以确保安全,并使用DBUtils等工具构建连接池提升高并发场景下的性能;处理大数据量时…

    2025年12月14日
    000
  • Python3包怎么创建_Python3包的创建与导入使用详细指南

    答案:创建Python包需在目录中添加__init__.py文件,通过setup.py安装后可导入使用。具体步骤包括:建立包结构,配置__init__.py控制导入行为,使用相对导入模块,通过setuptools安装包,最后验证导入功能。 如果您尝试在Python3中组织代码,但模块无法被正确识别或…

    2025年12月14日
    000
  • pyO3中从Rust检查Python自定义类实例类型的方法

    本文旨在解决在rust中使用pyo3库时,如何准确判断一个`pyany`对象是否为python中定义的自定义类实例的问题。针对用户在尝试使用`pytypeinfo`时遇到的困惑,文章将介绍一种更简洁、安全且推荐的方法:通过动态获取python类类型对象,并结合`pyany::is_instance(…

    2025年12月14日
    000
  • Openpyxl与Pytest:正确判断Excel空单元格的策略

    在使用openpyxl和pytest测试excel单元格是否为空时,直接断言`is none`可能因单元格实际为`””`(空字符串)而失败。本文将详细阐述这一常见问题,并提供一个健壮的解决方案,通过同时检查`none`和`””`来确保准确判断空单元格,…

    2025年12月14日
    000
  • RichHandler与Rich Progress集成:解决显示冲突的教程

    在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

    2025年12月14日
    000
  • python模块的搜索路径和顺序

    Python导入模块时按顺序搜索路径:先当前脚本目录,再PYTHONPATH环境变量指定的目录,最后是安装默认路径如标准库和site-packages。可通过sys.path查看当前搜索路径列表,其顺序决定模块查找优先级。使用sys.path.insert(0, ‘path’…

    2025年12月14日
    000
  • Python3官网官方网址是什么样的_Python3官方网址样式与功能介绍

    Python3官网官方网址是https://www.python.org/,采用极简风格设计,顶部导航栏包含Downloads、Documentation、About、Community等核心栏目,首页突出显示最新稳定版本及下载按钮,底部提供PEP索引、第三方模块仓库、开发进度报告和多语言社区资源链…

    2025年12月14日
    000
  • Python多个版本环境变量怎么配置_多版本Python环境变量设置与管理方法

    合理配置环境变量可在Windows中管理多个Python版本:1. 为不同版本设置独立安装路径并手动添加至Path;2. 路径顺序决定默认版本优先级;3. 推荐使用py -X.Y命令通过Python启动器切换版本;4. 为项目创建虚拟环境以隔离依赖,避免冲突。手动管理PATH、结合py启动器与虚拟环…

    2025年12月14日
    000
  • Python有哪些命令行参数解析模块?

    推荐使用argparse解析命令行参数,它功能完整且用户友好,支持位置与可选参数、子命令、类型检查及自动生成帮助;getopt适用于简单场景或旧代码兼容;optparse已弃用;第三方库click采用装饰器风格,适合复杂CLI应用;fire由Google开发,可快速将函数或类转为命令行接口,适合原型…

    2025年12月14日
    000
  • Python入门如何操作文件读写_Python入门文件处理的标准操作

    掌握Python文件读写需使用open()函数并合理选择模式,推荐with语句自动管理文件生命周期,逐行读取大文件以节省内存,写入时注意模式与编码,统一使用UTF-8处理中文字符。 如果您需要在Python中处理文件,例如读取配置、保存数据或生成报告,掌握文件的读写操作是必不可少的基础技能。以下是P…

    2025年12月14日
    000
  • python多进程与多线程的简单区分

    多进程适合CPU密集型任务,利用多核并行计算,如数值处理;多线程适合I/O密集型任务,轻量高效,如网络请求。 Python中多进程和多线程都是实现并发的方式,但它们的使用场景和底层机制有明显区别。理解这些差异有助于在实际开发中做出合适选择。 多进程(multiprocessing) 每个进程拥有独立…

    2025年12月14日
    000
  • python中geth如何使用?

    答案:Python通过web3.py库连接启用RPC的Geth节点实现交互。首先启动Geth并开启HTTP-RPC服务,配置允许的API模块;接着安装web3.py库,使用Web3.HTTPProvider连接本地8545端口;成功后可获取账户、查询余额、发送交易、调用合约等;注意安全设置与网络选择…

    2025年12月14日
    000
  • Python官网Debug技巧的全面掌握_Python官网调试工具使用教程

    首先使用pdb模块设置断点进行本地调试,再通过IDE集成工具实现图形化调试,结合logging记录执行信息,并利用debugpy实现远程调试。 如果您在使用Python官网提供的工具进行代码调试时遇到问题,可能是因为未正确配置调试环境或未掌握核心调试技巧。以下是帮助您全面掌握Python官方调试工具…

    2025年12月14日
    000
  • Python异步中loop抛出异常的解决

    事件循环异常主因是生命周期管理不当和未捕获错误。1. 避免在子线程直接调用get_event_loop(),应使用asyncio.run()自动管理;2. 协程内需用try/except处理异常,gather设return_exceptions=True防中断;3. 禁止重复运行或过早关闭循环,确保…

    2025年12月14日
    000
  • Python入门如何连接数据库_Python入门数据库操作的基本流程

    首先安装对应数据库的驱动模块,然后使用正确参数建立连接并获取游标,通过游标执行SQL语句实现增删改查,操作完成后提交事务并关闭游标与连接以释放资源。 如果您希望在Python程序中对数据库进行增删改查操作,但不知道如何建立连接并执行基本指令,这通常是因为尚未配置好数据库驱动或连接参数。以下是实现Py…

    2025年12月14日
    000
  • python进程池的使用注意

    答案:使用Python进程池需在if name == ‘__main__’:中创建,合理设置进程数,及时关闭并回收资源,避免传递不可序列化的对象。 使用Python进程池时,关键在于合理管理资源和避免常见陷阱。进程池适合处理CPU密集型任务,但若使用不当,可能导致性能下降甚至…

    2025年12月14日
    000
  • python在函数中传递实参

    Python函数传参方式包括位置实参、关键字实参、默认参数值及args和kwargs。位置实参按顺序传递,关键字实参通过“形参名=实参”指定,提高可读性;默认参数在定义时赋初值,简化调用;args收集多余位置参数为元组,kwargs收集关键字参数为字典,使函数支持可变数量输入,提升灵活性与通用性。 …

    2025年12月14日
    000
  • Python中优雅处理函数调用中的冗余关键字参数:以模拟场景为例

    在python中,当函数调用方使用关键字参数,而函数定义方(尤其是模拟对象)不需要这些参数时,会遇到函数签名不匹配的问题。本文将介绍如何利用python的`**kwargs`语法,以一种简洁且符合pythonic的方式,捕获并忽略这些冗余的关键字参数,从而避免linter警告并保持代码的灵活性,尤其…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信