将Google API响应转换为Pandas DataFrame:实战指南

将Google API响应转换为Pandas DataFrame:实战指南

本教程详细介绍了如何将Google Analytics Admin API返回的ListCustomDimensionsPager类对象转换为Pandas DataFrame。由于API响应的特殊对象类型不直接支持JSON序列化或Pandas的json_normalize方法,文章提供了一种通过迭代响应、访问内部字典表示并进行字符串替换以构建有效JSON字符串,最终转换为DataFrame的实用解决方案。

从Google API响应对象创建Pandas DataFrame

在与google api(例如google analytics admin api)交互时,我们经常会遇到其客户端库返回的自定义对象类型,而非直接可用的json或python原生数据结构。这些对象通常是分页器(pager)或特定于服务的类实例,它们封装了api响应数据,但并不总是能直接被pandas识别或处理。本教程将以google analytics admin api的listcustomdimensionspager为例,演示如何有效地将这类响应转换为结构化的pandas dataframe。

遇到的挑战

当我们尝试直接将ListCustomDimensionsPager对象转换为Pandas DataFrame时,通常会遇到以下问题:

直接JSON序列化失败: 尝试使用json.dumps()或访问对象的__dict__、vars()属性进行序列化时,会抛出TypeError: Object of type _GapicCallable is not JSON serializable。这是因为这些对象内部包含不可序列化的方法或属性。Pandas json_normalize无效: pd.json_normalize()通常用于处理嵌套的JSON数据,但对于非JSON格式的自定义对象,它可能只会生成一个空DataFrame或包含不相关信息的DataFrame。直接索引或切片失败: 尝试像字典一样通过键(例如ga4_custom_dimensions[‘custom_dimensions’])访问数据时,会收到TypeError: ‘ListCustomDimensionsPager’ object is not subscriptable,表明该对象不支持字典风格的访问。

这些问题表明,我们需要一种更精细的方法来解析这些自定义对象。

解决方案:迭代、字符串处理与JSON转换

解决此问题的核心思路是:迭代分页器对象,对于每个响应项,提取其内部的字典表示,然后通过字符串操作将其转换为符合JSON规范的字符串,最后使用json.loads()将其解析为Python字典,并收集这些字典以构建Pandas DataFrame。

以下是实现此过程的详细步骤和代码示例:

获取API响应:首先,使用Google Analytics Admin API客户端库获取自定义维度列表。

from google.analytics.admin import AdminServiceClientfrom google.analytics.admin_v1beta.services.analytics_admin_service import pagersimport pandas as pdimport jsondef get_custom_dimensions_raw(property_filter: str) -> pagers.ListCustomDimensionsPager:    """    获取Google Analytics Admin API的原始自定义维度响应。    """    client = AdminServiceClient()    request = pagers.ListCustomDimensionsRequest(parent=property_filter)    return client.list_custom_dimensions(request=request)# 示例调用# ga4_custom_dimensions_pager = get_custom_dimensions_raw("properties/YOUR_PROPERTY_ID")# print(type(ga4_custom_dimensions_pager))# 

迭代并处理每个响应项:ListCustomDimensionsPager对象是可迭代的。我们可以遍历它,获取每个自定义维度的详细信息。每个迭代项本身也是一个对象,其内部字典表示(通过__dict__访问)包含了所需的数据。然而,这个字典的字符串表示并不完全符合JSON规范,需要进一步处理。

def get_custom_dimensions_dataframe(property_filter: str) -> pd.DataFrame:    """    从Google Analytics Admin API响应中提取自定义维度并转换为Pandas DataFrame。    """    client = AdminServiceClient()    request = pagers.ListCustomDimensionsRequest(parent=property_filter)    full_response_pager = client.list_custom_dimensions(request=request)    df_list = []    for response_item in full_response_pager:        # 步骤1: 访问对象的内部字典表示        step1 = response_item.__dict__        # 步骤2: 将字典转换为字符串,以便进行字符串替换        step2 = str(step1)        # 步骤3-11: 执行一系列字符串替换,将非标准格式转换为有效JSON格式        # 主要是为键添加双引号,为枚举值和布尔值添加双引号        step3 = step2.replace(': name:', ': "name" :')        step4 = step3.replace('parameter_name:', ', "parameter_name" :')        step5 = step4.replace('display_name:', ', "display_name" :')        step6 = step5.replace('description:', ', "description" :')        step7 = step6.replace('scope:', ', "scope" :')        # 针对布尔值,需要确保其是字符串形式的"true"或"false"        step8 = step7.replace('disallow_ads_personalization: true', ', "disallow_ads_personalization" : "true"')        # 移除内部的Protobuf对象引用,它们通常以'_pb': 开头        step9 = step8.replace("'_pb': ", "")        # 针对枚举值,如EVENT, USER,需要确保它们是字符串形式的"EVENT", "USER"        step10 = step9.replace(' : EVENT', ' : "EVENT"')        step11 = step10.replace(' : USER', ' : "USER"')        # 步骤12: 处理Unicode转义字符。        # 先编码为UTF-8,再解码为unicode_escape,这有助于正确处理一些特殊字符。        step12 = step11.encode('utf-8').decode('unicode_escape')        # 步骤13: 将处理后的字符串解析为Python字典        step13 = json.loads(step12)        df_list.append(step13)    # 步骤14: 从字典列表创建Pandas DataFrame    return pd.DataFrame(df_list)

示例使用

调用更新后的函数即可获得一个包含自定义维度数据的Pandas DataFrame:

# 替换为你的实际GA4媒体资源ID# 例如:"properties/123456789"property_id = "properties/YOUR_PROPERTY_ID" custom_dimension_df = get_custom_dimensions_dataframe(property_id)print(custom_dimension_df.head())

这将输出一个DataFrame,其中包含name、parameter_name、display_name、description和scope等列,每行代表一个自定义维度。

注意事项与最佳实践

字符串替换的局限性: 这种基于字符串替换的方法虽然有效,但它依赖于API响应字符串表示的特定模式。如果Google API的底层Protobuf对象或其__dict__的字符串表示发生显著变化,可能需要调整str.replace()步骤。优雅性与鲁棒性: 尽管这种方法不是最“优雅”的,但在直接的Protobuf到JSON转换工具不适用或难以集成时,它是一个实用的解决方案。对于更复杂的Protobuf消息,可以考虑使用google.protobuf.json_format库,它提供了更健壮的Protobuf消息到JSON的转换功能。然而,对于本例中__dict__的字符串表示,直接的json_format可能不适用,因为__dict__已经是对Protobuf消息的一种Python包装。错误处理: 在生产环境中,建议添加try-except块来处理API调用失败或数据解析过程中可能出现的异常。数据清洗与验证: 在将数据加载到DataFrame后,仍可能需要进行额外的数据清洗、类型转换或验证,以确保数据的准确性和一致性。

总结

将Google API返回的自定义对象(如ListCustomDimensionsPager)转换为Pandas DataFrame,需要对原始API响应进行迭代和精细处理。通过访问对象的内部字典表示,并利用一系列字符串替换操作将其转换为有效的JSON格式,我们最终能够成功地将结构化数据加载到Pandas DataFrame中。这种方法提供了一个实用的解决方案,尤其适用于当API响应不直接支持标准JSON序列化工具的场景。

以上就是将Google API响应转换为Pandas DataFrame:实战指南的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1376915.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 16:19:25
下一篇 2025年12月14日 16:19:49

相关推荐

  • 从 Azure ItemPaged 迭代器中提取数据到字典或列表

    本文旨在帮助初学者理解如何从 Azure SDK 返回的 ItemPaged 迭代器中提取数据,并将其转换为更易于使用的数据结构,如字典或列表。我们将重点介绍如何访问迭代器中对象的属性,以及如何将这些属性提取到自定义的数据结构中。通过本文,你将能够有效地处理 Azure API 返回的数据,并将其用…

    好文分享 2025年12月14日
    000
  • 从API正确解析Apache Parquet数据的实践指南

    本文旨在解决从API获取Parquet格式数据时常见的解码问题。核心在于避免将二进制数据误处理为文本,而是通过requests.Response.content直接获取原始字节流,并结合io.BytesIO与pandas.read_parquet或pyarrow.parquet.read_table…

    2025年12月14日
    000
  • python运算符的优先级规则

    Python运算符优先级从高到低为:*(幂运算,右结合)、~, +, -(按位取反、正负号)、, /, //, %、+, -、、&、^、|、比较运算符(in, not in, is, is not, =, !=, ==)、not、and、or。例如3 + 4 2 > 5 and Tru…

    2025年12月14日
    000
  • 在Pandas DataFrame中高效比较列与列表元素

    本教程旨在解决Pandas DataFrame中复杂条件判断问题,即如何高效地比较一个列的值与另一列的值,或判断其是否存在于一个可能包含列表的列中。我们将探讨使用df.apply时可能遇到的ValueError,并提供两种更高效、更符合Pandas惯用法的解决方案:列表推导式和优化的df.apply…

    2025年12月14日
    000
  • Pydantic 字段别名进阶:处理复杂数据结构与现有键冲突

    本文探讨Pydantic中处理复杂字段别名和数据结构转换的策略。针对API响应中别名与现有键冲突或需要扁平化嵌套对象的情况,文章介绍了Pydantic v1中利用computed_field和Field(exclude=True)实现数据转换的方法。同时,重点阐述了Pydantic v2中通过ser…

    2025年12月14日
    000
  • Pandas DataFrame中基于键匹配与计数的智能值分配教程

    本教程详细阐述了如何在Pandas中处理两个DataFrame,一个包含重复键,另一个包含唯一键及其关联数据。核心任务是将第二个DataFrame中的值根据第一个DataFrame中键的出现次数进行拆分并分配,最终生成一个合并后的新DataFrame。文章通过结合merge、value_counts…

    2025年12月14日
    000
  • Python游戏开发:动态调整下落精灵速度的教程

    本教程将指导您如何在Python游戏中使用livewires库,根据玩家得分动态调整下落精灵(如雪球)的速度。通过修改精灵的类变量并引入一个分数阈值检查机制,您可以实现在游戏进程中逐步提升难度,增强游戏的可玩性。教程将涵盖代码实现细节,并提供优化建议以确保速度调整的准确性和鲁棒性。 1. 游戏场景与…

    2025年12月14日
    000
  • Flask应用启动后保持后台数据库更新

    本文介绍了如何在Flask应用启动后,利用后台任务持续更新数据库。通过使用APScheduler库,我们可以创建一个后台调度器,定时执行数据库更新函数。文章详细讲解了如何配置和启动调度器,并提供了代码示例,帮助开发者解决Flask应用在启动后无法持续运行后台任务的问题,确保数据库始终保持最新状态。 …

    2025年12月14日
    000
  • 解决WSL2中NumPy导入错误:libgcc_s.so.1缺失的实战教程

    本文旨在解决在WSL2环境中导入NumPy时遇到的libgcc_s.so.1: cannot open shared object file: No such file or directory错误。此问题通常源于动态链接器无法找到NumPy C扩展所需的GCC运行时库。通过精确设置LD_LIBRA…

    2025年12月14日
    000
  • Selenium自动化:利用显式等待解决动态按钮点击难题

    在使用Selenium进行网页自动化时,有时会遇到元素已被找到但无法点击的问题,尤其对于动态加载的按钮如“Load More”。本文将深入探讨这一常见挑战,并提供一种可靠的解决方案:利用Selenium的显式等待(Explicit Waits)机制,确保元素在可交互状态时才执行点击操作,从而有效提升…

    2025年12月14日
    000
  • Pandas DataFrame高效数据对比与差异定位教程

    本教程详细介绍了如何高效比较两个Pandas DataFrame,以识别并定位其中的数据差异。文章通过直接的布尔比较、自定义函数以及apply方法,展示了如何准确找出发生数据不匹配的行和列,并以清晰的格式输出差异报告,适用于数据验证和质量控制场景。 1. 引言 在数据分析和处理过程中,经常需要对比两…

    2025年12月14日
    000
  • 如何计算独立事件聚合结果的概率分布

    本文旨在解决如何从一组独立的商业项目中,每个项目具有不同的成功概率和潜在工时,推导出获得特定总工时的概率分布。通过详细阐述场景枚举方法,并提供Python代码示例,展示如何计算所有可能结果的概率和对应工时,进而构建出总工时与概率之间的关系曲线,为商业预测提供数据支持。 在商业预测中,我们经常面临这样…

    2025年12月14日
    000
  • PyTorch DataLoader 目标张量批处理行为详解与修正

    在使用 PyTorch DataLoader 进行模型训练时,如果 Dataset 的 __getitem__ 方法返回的标签(target)是一个 Python 列表而非 torch.Tensor,DataLoader 默认的批处理机制可能导致标签张量形状异常,表现为维度被转置。本文将深入解析这一…

    2025年12月14日
    000
  • Pandas DataFrame中列与列表元素的高效比较:避免常见陷阱

    本文探讨了在Pandas DataFrame中,如何高效地对列进行条件比较,包括值相等性检查和列表成员资格判断。针对常见的apply方法可能导致的ValueError,文章提供了两种解决方案:一种是推荐使用更高效的列表推导式,另一种是演示如何正确地在apply函数内部处理行数据以避免错误,确保逻辑清…

    2025年12月14日
    000
  • Pydantic进阶:优雅处理现有键的字段别名与嵌套数据

    本教程深入探讨Pydantic在处理复杂API响应时的字段别名和数据转换技巧。我们将学习如何优雅地将遗留API中嵌套或冲突的字段映射到Pydantic模型中,避免手动数据清理。通过computed_field实现数据结构转换,以及利用Pydantic v2的validation_alias、seri…

    2025年12月14日
    000
  • Python mysqlclient安装疑难解答:解决mysql.h缺失错误

    本文旨在解决Python mysqlclient库在安装时常见的mysql.h文件缺失错误。我们将深入探讨此问题的原因,并提供针对Windows、Linux (Ubuntu/Debian) 和 CentOS/RHEL 等不同操作系统的详细解决方案,包括安装必要的开发库和配置环境,确保mysqlcli…

    2025年12月14日
    000
  • 解决Python高版本中pickle5安装失败的问题及正确使用pickle模块

    在Python 3.8及更高版本中尝试安装pickle5库通常会导致编译错误,因为pickle5是一个为Python 3.5-3.7提供pickle模块新特性的向后移植库。对于现代Python环境,应直接使用内置的pickle模块,它已包含pickle5所提供的所有功能,无需额外安装。 pickle…

    2025年12月14日
    000
  • 使用Selenium处理动态网页元素:策略与实践

    本文旨在提供一套使用Python Selenium处理动态网页元素的策略与实践指南。面对类名或ID在运行时及页面刷新时不断变化的挑战,我们将探讨如何利用基于文本的定位器、健壮的CSS选择器和灵活的XPath表达式,有效且稳定地与这些动态元素进行交互,确保自动化脚本的可靠性。 在现代web应用中,为了…

    2025年12月14日
    000
  • Python高效查找指定子文件夹:优化大规模目录扫描性能

    本文旨在解决Python在大规模文件系统中高效查找特定子文件夹的性能瓶颈。通过对比传统os.listdir与os.path.isdir组合的低效性,重点介绍了os.scandir的优势及其工作原理。文章提供了基于os.scandir的优化代码示例,并阐述了其在减少系统调用、提升扫描速度方面的显著效果…

    2025年12月14日
    000
  • Pandas数据框中基于复杂条件更新列值:高效提取、分类与赋值实践

    本文详细介绍了在Pandas数据框中,如何根据某一列的复杂字符串模式(如从’Ethernet’后提取数字)来创建或更新新列。通过结合正则表达式提取数值、使用pd.cut进行数值范围分箱,或利用np.log10计算数字位数并进行映射,实现高效、灵活的条件赋值,避免了低效的循环操…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信