Kedro与Streamlit集成：构建动态数据管道的实践指南

程序猿 • 2025年11月29日 03:05:32 • 后端开发 • 阅读 0

本教程详细阐述了如何在Streamlit应用中有效集成Kedro数据管道，实现动态数据加载与处理。核心在于通过KedroSession.run()方法的data_catalog参数传递自定义的DataCatalog，以管理Streamlit中加载的DataFrame数据。文章还深入分析了常见的集成误区，如直接修改KedroContext属性，并提供了正确的代码示例和最佳实践，确保数据流的顺畅与高效。

引言：Kedro与Streamlit的强大结合

在现代数据应用开发中，数据管道的自动化与交互式界面的结合变得日益重要。Kedro作为一个生产级的数据管道框架，能够帮助我们构建可维护、可测试和可重用的数据处理逻辑。而Streamlit则以其简洁的API，使得Python开发者能够快速构建美观的数据应用。将Kedro管道集成到Streamlit应用中，可以实现用户通过Web界面上传数据，并实时触发复杂的Kedro数据处理流程，从而构建功能强大且用户友好的数据产品。

本教程的目标是指导您如何在Streamlit应用中运行特定的Kedro管道，并向该管道传递在Streamlit中动态加载的数据，通过自定义的DataCatalog进行管理。

理解Kedro的数据流管理核心：DataCatalog与KedroSession

在深入集成之前，理解Kedro的两个核心概念至关重要：

DataCatalog (数据目录): Kedro的DataCatalog是管理所有数据源的中心枢纽。它定义了数据集的名称、类型以及加载/保存数据的方式。在动态数据场景中，MemoryDataSet特别有用，它允许我们将Python对象（如Pandas DataFrame）作为数据集在内存中传递，而无需写入磁盘。KedroSession (会话): KedroSession是Kedro项目的入口点，负责加载项目上下文、配置以及运行管道。它是执行Kedro操作的主要接口。KedroSession.run()方法是启动管道执行的关键。

正确姿势：通过KedroSession.run()传递自定义DataCatalog

在Streamlit中运行Kedro管道并传递动态数据，最核心且正确的方法是利用KedroSession.run()方法的data_catalog参数。这个参数允许您在运行时提供一个临时的、自定义的DataCatalog，它将覆盖或扩展Kedro项目默认的catalog.yml中定义的同名数据集。

实现步骤：

在Streamlit中加载数据： 使用Streamlit的文件上传器或其他输入组件获取用户数据，并将其转换为Pandas DataFrame。创建MemoryDataSet： 将这些DataFrame封装成MemoryDataSet实例。MemoryDataSet允许Kedro管道在内存中处理这些数据。构建自定义DataCatalog： 创建一个新的DataCatalog实例，并将您的MemoryDataSets添加到其中，使用它们在Kedro管道中对应的输入数据集名称作为键。创建KedroSession并运行管道： 使用KedroSession.create()初始化一个会话，然后调用session.run()，并将自定义的DataCatalog通过data_catalog参数传递进去，同时指定要运行的pipeline_name。

示例代码：

以下是一个在Streamlit中集成Kedro管道的完整示例，展示了如何动态加载数据并传递给Kedro：

import streamlit as stimport pandas as pdfrom kedro.framework.session import KedroSessionfrom kedro.io import DataCatalog, MemoryDataSetimport os# 假设您的Kedro项目位于当前工作目录下的 'my_kedro_project'# 请根据实际情况调整 project_pathproject_path = os.path.join(os.getcwd(), 'my_kedro_project')st.title("Kedro与Streamlit数据处理应用")st.header("上传您的数据")# 模拟Streamlit文件上传和DataFrame创建# 在实际应用中，这里会是 st.file_uploader 和 pd.read_csv/excel 等uploaded_file1 = st.file_uploader("上传 reagentes_raw.csv", type=['csv'])uploaded_file2 = st.file_uploader("上传 balanco_de_massas_raw.csv", type=['csv'])# ... 更多文件上传器df1, df2, df3, df4, df5, df6 = None, None, None, None, None, Noneif uploaded_file1:    df1 = pd.read_csv(uploaded_file1)    st.write("reagentes_raw 数据预览:")    st.dataframe(df1.head())if uploaded_file2:    df2 = pd.read_csv(uploaded_file2)    st.write("balanco_de_massas_raw 数据预览:")    st.dataframe(df2.head())# ... 处理其他上传文件# 确保所有必需的DataFrame都已加载 (这里仅为演示，实际应根据管道输入进行检查)if st.button('处理输入数据') and df1 is not None and df2 is not None: # 简化检查    st.info('正在执行Kedro管道...')    # 模拟其他DataFrame，实际应通过上传获取    if df3 is None: df3 = pd.DataFrame({'colA': [1,2], 'colB': ['x','y']})    if df4 is None: df4 = pd.DataFrame({'colC': [3,4], 'colD': ['a','b']})    if df5 is None: df5 = pd.DataFrame({'colE': [5,6], 'colF': ['m','n']})    if df6 is None: df6 = pd.DataFrame({'colG': [7,8], 'colH': ['p','q']})    try:        # 创建自定义DataCatalog，包含MemoryDataSet        custom_catalog = DataCatalog({            "reagentes_raw": MemoryDataSet(df1),            "balanco_de_massas_raw": MemoryDataSet(df2),            "laboratorio_raw": MemoryDataSet(df3), # 示例数据            "laboratorio_raiox_raw": MemoryDataSet(df4), # 示例数据            "carta_controle_pims_raw": MemoryDataSet(df5), # 示例数据            "blend_raw": MemoryDataSet(df6) # 示例数据        })        # 创建KedroSession并运行管道        with KedroSession.create(project_path=project_path) as session:            # 关键：通过 data_catalog 参数传递自定义目录            session.run(data_catalog=custom_catalog, pipeline_name="tag_web_app")        st.success('数据处理成功！')        # 从自定义的catalog中加载管道的输出数据        # 假设管道的输出数据集名为 "merged_raw_data_process"        merged_data = custom_catalog.load("merged_raw_data_process")        st.header('处理结果预览')        st.dataframe(merged_data.head())        # 示例：显示最后更新时间，假设输出数据包含 'timestamp' 列        if 'timestamp' in merged_data.columns:            last_update = pd.to_datetime(merged_data['timestamp']).max()            st.write(f"数据集中最新信息的时间: {last_update.strftime('%Y/%m/%d %H:%M:%S')}")        else:            st.write("输出数据中未找到 'timestamp' 列。")    except Exception as e:        st.error(f"Kedro管道执行失败: {e}")        st.exception(e)

注意：

请将project_path替换为您的Kedro项目的实际路径。my_kedro_project目录下需要有一个名为tag_web_app的Kedro管道，并且该管道的输入数据集名称（例如reagentes_raw）需要与custom_catalog中定义的键名一致。管道的输出数据集（例如merged_raw_data_process）也需要在custom_catalog中定义或由管道生成，以便后续加载。

结果的获取与处理

当Kedro管道通过session.run(data_catalog=custom_catalog, …)执行完毕后，管道的输出数据集（如果它们被定义为写入catalog）将存储在您传入的custom_catalog对象中。这意味着，您可以直接从该custom_catalog实例中加载管道处理后的结果，并在Streamlit应用中进行展示或进一步处理。

如上例所示：

merged_data = custom_catalog.load("merged_raw_data_process")st.dataframe(merged_data.head())

这行代码从之前传入的custom_catalog中加载了名为merged_raw_data_process的数据集，该数据集是Kedro管道的最终输出。

常见错误与解决方案

在集成Kedro与Streamlit时，开发者可能会遇到一些常见的AttributeError。这些错误通常源于尝试以不正确的方式修改Kedro的内部状态。

西语写作助手

西语助手旗下的AI智能写作平台，支持西语语法纠错润色、论文批改写作

19 查看详情

错误1: AttributeError: can’t set attribute ‘catalog’

问题描述: 尝试直接对KedroSession或KedroContext的catalog属性进行赋值操作，例如 context.catalog = custom_catalog。

错误原因: KedroSession.catalog和KedroContext.catalog属性在Kedro的设计中是只读的。它们在会话或上下文创建时被初始化，并且不应该在运行时被直接外部修改。Kedro通过配置（catalog.yml）和session.run()方法的参数来管理数据目录的生命周期和内容。

解决方案: 绝对不要尝试直接设置context.catalog。正确的做法是，在调用session.run()时，通过data_catalog参数传递您自定义的DataCatalog。如前文示例所示：

with KedroSession.create(project_path=project_path) as session:    session.run(data_catalog=custom_catalog, pipeline_name="tag_web_app")

这种方式是Kedro官方推荐且唯一支持的在运行时注入自定义数据目录的方法。

错误2: AttributeError: ‘KedroContext’ object has no attribute ‘pipeline_registry’

问题描述: 尝试从KedroContext对象中访问一个名为pipeline_registry的属性，例如 context.pipeline_registry.get(“tag_web_app”)。

错误原因: KedroContext对象本身不直接暴露pipeline_registry属性。管道的注册和管理是Kedro内部框架的一部分，通常通过KedroSession的run()方法或context.pipelines属性来间接访问和执行。尝试直接访问pipeline_registry是错误的API使用方式。

解决方案: 避免直接操作pipeline_registry。如果您需要运行特定的管道，只需在session.run()方法中通过pipeline_name参数指定即可：

with KedroSession.create(project_path=project_path) as session:    session.run(pipeline_name="tag_web_app", data_catalog=custom_catalog)

如果您确实需要获取管道对象（例如用于更高级的调试或自定义运行），可以通过context.pipelines字典来访问，例如 context.pipelines[“tag_web_app”]，但通常情况下，直接使用session.run()更为简洁和推荐。

最佳实践与注意事项

Kedro项目结构清晰： 确保您的Kedro项目结构良好，管道定义清晰，输入输出数据集命名规范，这有助于Streamlit应用与Kedro管道的顺利对接。数据隔离： 使用MemoryDataSet确保每次Streamlit触发的Kedro管道运行时，数据都是独立的，不会相互干扰。错误处理： 在Streamlit应用中加入健壮的try-except块，捕获Kedro管道执行过程中可能出现的错误，并向用户提供友好的反馈。异步处理（高级）： 对于长时间运行的Kedro管道，考虑在Streamlit中使用异步任务队列（如Celery）来避免UI阻塞，提升用户体验。环境管理： 确保Streamlit应用运行的环境与Kedro项目所需的依赖一致，避免版本冲突。安全性： 如果涉及到敏感数据，请确保数据上传、处理和存储过程符合安全规范。

总结

将Kedro的强大数据管道能力与Streamlit的便捷交互界面相结合，能够为数据科学家和工程师提供一个高效且灵活的开发环境。本教程强调了在Streamlit应用中通过KedroSession.run()方法的data_catalog参数传递自定义DataCatalog的正确方法，这是处理动态数据的核心。同时，通过深入解析常见的AttributeError，我们明确了Kedro的API设计原则，即避免直接修改只读属性或访问不存在的内部组件。遵循这些指导原则和最佳实践，您将能够构建稳定、高效且易于维护的Kedro-Streamlit集成应用。

以上就是Kedro与Streamlit集成：构建动态数据管道的实践指南的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/912439.html

ai app csv excel python session stream 大数据应用开发开发环境异步任务敏感

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

291.8K 文章

0 评论

1 粉丝

这个人很懒，什么都没有留下～

在Xcelium与Specman集成中有效设置环境变量的指南

上一篇 2025年11月29日 03:05:21

如何将Celery任务的标准输出和错误日志保存到独立文件

下一篇 2025年11月29日 03:05:43

好文分享

Unity发送POST数据到PHP：解决$_POST为空的URL配置陷阱

本教程旨在解决Unity使用UnityWebRequest向PHP服务器发送POST数据时，PHP端$_POST变量为空的常见问题。核心原因往往在于URL地址配置不准确，特别是www.前缀的缺失。文章将通过代码示例详细阐述问题、分析原因，并提供精确的解决方案，确保Unity与PHP之间的数据顺利传输…

程序猿
2025年12月10日
0000
从React前端通过WordPress REST API获取当前用户ID的教程

本教程详细阐述了如何通过React前端，利用WordPress REST API安全有效地获取当前登录用户的ID。我们将重点介绍/wp/v2/users/me端点，并提供实际的React代码示例，帮助开发者在同域环境下无缝集成前后端，实现用户身份识别，同时强调WordPress基于Cookie的认证…

程序猿
2025年12月10日 • 好文分享
0000
好文分享

从React前端获取WordPress当前用户ID的REST API教程

本教程详细介绍了如何通过WordPress REST API从React前端安全地获取当前登录用户的ID。文章重点阐述了wp-json/wp/v2/users/me端点的使用、同域下基于Cookie的认证机制，并提供了React中实现AJAX请求的示例代码，同时强调了错误处理和安全注意事项。理解W…

程序猿
2025年12月10日
0000
好文分享

Symfony/Twig中展示ManyToOne关联实体属性的正确姿势

本教程旨在解决在Symfony框架的Twig模板中，正确显示ManyToOne关联实体属性的常见问题。通过详细解析实体关系、错误的模板访问尝试及其原因，以及提供正确的Twig代码示例，帮助开发者理解如何有效且准确地从一个实体访问其单向关联的另一个实体属性，从而避免常见的属性访问错误。在symfon…

程序猿
2025年12月10日
0000
好文分享

在 Symfony Twig 模板中显示关联实体属性

本文档旨在帮助开发者在 Symfony 的 Twig 模板中展示关联实体的信息。通过一个 Cat 和 Appointment 实体关联的例子，详细说明如何在 appointment_show.html.twig 模板中访问并显示 Cat 实体的属性，避免常见的 “Property doe…

程序猿
2025年12月10日
0000
好文分享

Laravel HTTP Basic 认证偶发性失效问题排查与解决

HTTP Basic 认证在 Laravel 中是一种简单有效的用户认证方式，但有时可能会遇到认证失效的问题，表现为浏览器显示 “Invalid credentials.” 错误，且不再弹出认证窗口。这通常不是 Laravel 代码的问题，而是浏览器缓存了错误的认证信息导致的…

程序猿
2025年12月10日
0000
好文分享

WordPress 文章保存后自动同步WooCommerce产品：正确使用钩子

本文旨在解决WordPress开发中，当自定义文章类型（如”award_category”）被添加或更新时，其高级自定义字段（ACF）数据未能及时同步到相关WooCommerce产品的问题。核心在于选择正确的WordPress动作钩子，确保在文章及其所有元数据（包括ACF字段…

程序猿
2025年12月10日
0000
好文分享

阻止JavaScript表单验证未通过时的数据插入

本文旨在解决JavaScript表单验证未通过时，数据被错误插入数据库的问题。通过修改JavaScript验证函数，在验证失败时阻止表单提交，并在验证成功后才允许提交，确保数据的有效性和完整性。文章提供详细的代码示例和步骤，帮助开发者构建更健壮的表单验证机制。在Web开发中，表单验证是至关重要的一…

程序猿
2025年12月10日
0000
好文分享

本地PHP应用通过端口转发实现公网访问及Telegram Bot开发调试策略

本文旨在指导PHP开发者如何在本地环境调试Telegram Bot，解决因Webhook回调无法访问本地服务的问题。文章详细介绍了端口转发技术，使本地PHP应用能够被公网访问，并提供了针对Telegram API getUpdates（长轮询）方法的问题诊断与优化建议，确保高效稳定的开发流程。在开…

程序猿
2025年12月10日
0000
好文分享

使用Apache Alias在DocumentRoot外部安全访问与展示图片

本教程详细介绍了如何在Apache服务器（特别是Windows环境）中，通过配置Alias指令将存储在DocumentRoot外部的图片安全地暴露给Web访问。文章涵盖了Apache配置、PHP文件系统遍历以及URL路径映射，并提供了示例代码和注意事项，确保图片能够被正确地读取和显示，同时维护文件结…

程序猿
2025年12月10日
0000
好文分享

JavaScript表单验证：确保数据有效性与安全入库的实践指南

本文旨在解决JavaScript表单验证中常见的无效提交问题。我们将深入探讨如何通过阻止默认表单提交行为、整合客户端验证逻辑并利用布尔标志管理验证状态，从而确保所有输入在正确无误后方可提交至服务器进行数据库操作，同时强调服务器端验证与安全实践的重要性。在web开发中，表单是用户与应用程序交互的关键…

程序猿
2025年12月10日
0000
好文分享

Apache Alias配置与PHP图片访问：突破documentRoot限制

本教程详细讲解如何在Apache服务器中，通过配置Alias指令，安全有效地访问存储在documentRoot之外的图片资源。文章将阐述文件系统路径与Web访问路径的区别，并提供PHP代码示例，演示如何结合FilesystemIterator和正则表达式，正确地遍历并显示这些外部图片，同时强调相关的…

程序猿
2025年12月10日
0000
好文分享

WordPress文章保存后高级数据同步：正确使用钩子处理ACF字段

本教程旨在解决WordPress中在文章保存后，因钩子执行时机不当导致ACF字段数据无法正确获取的问题。我们将深入探讨save_post_{post_type}钩子的局限性，并推荐使用WordPress 5.6+引入的wp_after_insert_post钩子，以确保在所有文章数据（包括ACF）完…

程序猿
2025年12月10日
0000
好文分享

JavaScript 表单验证：防止未验证数据插入数据库

本文档旨在提供一个详细的教程，指导开发者如何使用 JavaScript 实现表单验证，并防止未经验证的错误数据被插入到数据库中。我们将深入探讨如何拦截表单提交事件，执行客户端验证，并在所有输入都有效后才允许表单提交，从而确保数据的完整性和准确性。前端表单验证的必要性在Web开发中，前端表单验证是…

程序猿
2025年12月10日
0000
好文分享

Apache与PHP：安全高效访问DocumentRoot外部图片资源的教程

本教程详细阐述了如何在Apache服务器上配置别名（Alias）以安全地访问存储在DocumentRoot外部的图片资源，并结合PHP脚本实现图片的遍历与展示。文章涵盖了Apache别名配置的关键指令、PHP文件系统操作的正确路径使用，以及在Windows环境下实现此功能的具体步骤和注意事项，旨在提…

程序猿
2025年12月10日
0000
好文分享

WooCommerce：将钩子函数转换为短代码以优化页面构建器中的内容布局

本教程旨在解决WooCommerce中自定义功能通过钩子添加时，在Divi等页面构建器中位置错乱的问题。我们将详细指导如何将现有的PHP钩子函数重构为可控的短代码，从而实现对内容块的精确布局，提升页面构建的灵活性和兼容性。背景与问题分析在wordpress和woocommerce开发中，我们经常…

程序猿
2025年12月10日
0000
好文分享

将WooCommerce钩子函数转换为短代码：解决页面构建器布局冲突的专业指南

将WordPress/WooCommerce中通过钩子（add_action）添加的自定义功能转换为短代码，能有效解决在使用Divi等页面构建器时，自定义内容位置不正确的问题，提供了一种灵活且可控的内容嵌入方案，确保布局兼容性与专业性。解决页面构建器与自定义钩子内容的冲突在wordpress和w…

程序猿
2025年12月10日
0000
好文分享

PHP集成Abstract API手机号验证：响应处理与逻辑判断最佳实践

本教程详细介绍了如何在PHP中集成Abstract API进行手机号验证。我们将探讨使用cURL发送请求、解析API响应的JSON数据，并着重纠正常见的逻辑判断错误。通过深入理解strpos函数的返回值特性，本教程将指导开发者采用严格比较!== false来准确判断手机号的有效性，避免因类型混淆导致…

程序猿
2025年12月10日
0000
好文分享

如何在 Blade 模板中正确使用 PHP 代码

本文旨在指导 Laravel 开发者如何在 Blade 模板中安全且高效地嵌入 PHP 代码。我们将探讨避免在 Blade 模板中直接进行数据库查询的最佳实践，并介绍如何使用 value() 方法从数据库中获取单个字段的值，从而提升代码的可维护性和性能。在 Laravel 的 Blade 模板中嵌…

程序猿
2025年12月10日
0000
好文分享

如何在 Blade 模板中使用 PHP 代码

第一段引用上面的摘要：本文旨在讲解如何在 Laravel 的 Blade 模板中安全且高效地嵌入 PHP 代码，并避免常见的错误用法。重点强调不要在 Blade 模板中直接进行数据库查询，并提供使用 value() 方法获取单个值的正确示例，以及优化 Blade 模板中数据处理的建议。 Blade…

程序猿
2025年12月10日
0000