使用 GitHub Actions 运行 Jupyter Notebook 脚本

使用 github actions 运行 jupyter notebook 脚本

本文旨在指导您如何使用 GitHub Actions 运行 Jupyter Notebook 脚本,并安全地管理脚本中的凭据。我们将探讨如何配置 GitHub Actions 的定时任务,如何从 GitHub 仓库运行 Jupyter Notebook 脚本,以及如何利用 GitHub Secrets 安全地存储和访问敏感信息,避免硬编码凭据带来的安全风险。通过本文,您将掌握一种可靠且安全的自动化 Jupyter Notebook 脚本执行方案。

GitHub Actions 是一种强大的自动化工具,可以用于构建、测试和部署代码。它也可以用来运行 Jupyter Notebook 脚本,这对于需要定期执行数据分析、报告生成等任务的场景非常有用。本文将详细介绍如何配置 GitHub Actions 来实现 Jupyter Notebook 脚本的定时运行,并重点讲解如何安全地管理脚本中涉及的敏感信息,例如 API 密钥、数据库密码等。

1. 设置 GitHub Actions 工作流

首先,需要在你的 GitHub 仓库中创建一个 .github/workflows 目录,并在该目录下创建一个 YAML 文件,例如 jupyter_notebook.yml。这个 YAML 文件定义了 GitHub Actions 的工作流。

以下是一个示例 jupyter_notebook.yml 文件:

name: Run Jupyter Notebookon:  schedule:    - cron: '0 0 * * *'  # 每天凌晨 00:00 运行jobs:  run_notebook:    runs-on: ubuntu-latest    steps:      - name: Checkout repository        uses: actions/checkout@v3      - name: Set up Python        uses: actions/setup-python@v4        with:          python-version: '3.9'  # 根据你的需求选择 Python 版本      - name: Install dependencies        run: |          pip install papermill          pip install -r requirements.txt # 如果有 requirements.txt 文件      - name: Execute Jupyter Notebook        run: |          papermill your_notebook.ipynb output_notebook.ipynb

解释:

name: 工作流的名称,这里设置为 “Run Jupyter Notebook”。on: 定义触发工作流的条件。这里使用 schedule 来设置定时任务,cron: ‘0 0 * * *’ 表示每天凌晨 00:00 运行。jobs: 定义工作流中包含的任务。这里只有一个任务 run_notebook。runs-on: 指定运行任务的操作系统,这里使用 ubuntu-latest。steps: 定义任务中包含的步骤。actions/checkout@v3: 检出你的代码仓库。actions/setup-python@v4: 设置 Python 环境。pip install papermill: 安装 papermill,它是一个用于参数化和执行 Jupyter Notebook 的工具。pip install -r requirements.txt: 安装项目依赖,如果你的项目有 requirements.txt 文件。papermill your_notebook.ipynb output_notebook.ipynb: 使用 papermill 执行 Jupyter Notebook。your_notebook.ipynb 是你的 Jupyter Notebook 文件名,output_notebook.ipynb 是输出文件名。

注意事项:

cron 表达式的格式请参考 GitHub Actions 的官方文档。根据你的项目需求修改 Python 版本和依赖安装命令。确保你的 Jupyter Notebook 文件名正确。如果你的 Jupyter Notebook 中使用了特定的 kernel,需要在安装依赖的步骤中安装相应的 kernel。

2. 安全地管理凭据:使用 GitHub Secrets

为了安全地管理 Jupyter Notebook 脚本中使用的凭据,强烈建议使用 GitHub Secrets。 GitHub Secrets 允许你存储敏感信息,例如 API 密钥、数据库密码等,而无需将它们硬编码到你的代码中。

步骤:

在你的 GitHub 仓库中,进入 “Settings” -> “Security” -> “Secrets and variables” -> “Actions”。点击 “New repository secret”。输入 Secret 的名称(例如 API_KEY)和值(你的 API 密钥)。点击 “Add secret”。

在 Jupyter Notebook 中访问 Secrets:

在你的 Jupyter Notebook 脚本中,可以使用 os.environ 来访问 GitHub Secrets。

import osapi_key = os.environ.get("API_KEY")if api_key:    print("API Key:", api_key)else:    print("API Key not found in environment variables.")

在 GitHub Actions 工作流中使用 Secrets:

在你的 jupyter_notebook.yml 文件中,可以使用 ${{ secrets.SECRET_NAME }} 的形式来访问 Secrets。

例如,如果你想将 API 密钥传递给 papermill 命令,可以这样做:

      - name: Execute Jupyter Notebook        run: |          papermill your_notebook.ipynb output_notebook.ipynb -p API_KEY "${{ secrets.API_KEY }}"

然后在 Jupyter Notebook 脚本中,可以通过 papermill 传递的参数来访问 API 密钥。

import papermill as pmapi_key = pm.parameters.get("API_KEY")if api_key:    print("API Key:", api_key)else:    print("API Key not found in papermill parameters.")

注意事项:

永远不要将 Secrets 硬编码到你的代码中。确保你的 Secrets 名称清晰明了,以便于理解和维护。定期审查你的 Secrets,确保它们仍然有效且安全。

3. 完整示例

下面是一个完整的示例,展示了如何使用 GitHub Actions 运行 Jupyter Notebook 脚本,并安全地管理 API 密钥。

jupyter_notebook.yml 文件:

name: Run Jupyter Notebookon:  schedule:    - cron: '0 0 * * *'  # 每天凌晨 00:00 运行jobs:  run_notebook:    runs-on: ubuntu-latest    steps:      - name: Checkout repository        uses: actions/checkout@v3      - name: Set up Python        uses: actions/setup-python@v4        with:          python-version: '3.9'      - name: Install dependencies        run: |          pip install papermill          pip install -r requirements.txt      - name: Execute Jupyter Notebook        run: |          papermill your_notebook.ipynb output_notebook.ipynb -p API_KEY "${{ secrets.API_KEY }}"

your_notebook.ipynb 文件:

import papermill as pmimport os# 从 papermill 参数中获取 API 密钥api_key = pm.parameters.get("API_KEY")# 如果 papermill 参数中没有 API 密钥,则尝试从环境变量中获取if not api_key:    api_key = os.environ.get("API_KEY")if api_key:    print("API Key:", api_key)else:    print("API Key not found in papermill parameters or environment variables.")# 在这里使用你的 API 密钥进行操作# 例如,调用 API 接口# ...

总结

通过本文,你学习了如何使用 GitHub Actions 运行 Jupyter Notebook 脚本,并安全地管理脚本中使用的凭据。 这种方法可以帮助你自动化数据分析、报告生成等任务,并确保你的敏感信息得到保护。记住,安全性至关重要,永远不要将 Secrets 硬编码到你的代码中。使用 GitHub Secrets 是一种安全且可靠的管理凭据的方式。

以上就是使用 GitHub Actions 运行 Jupyter Notebook 脚本的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1372412.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 12:18:23
下一篇 2025年12月14日 12:18:32

相关推荐

  • 解决Python csv.writer 生成CSV文件中的空白行问题

    本文探讨了Python csv.writer 在生成CSV文件时出现额外空白行的常见问题及其解决方案。默认情况下,csv.writer 使用 \r\n 作为行终止符,这在某些操作系统或文本编辑器中可能被误解为两个换行符,从而导致每行之间出现空白。通过在 csv.writer 中明确指定 linete…

    好文分享 2025年12月14日
    000
  • python如何将字典写入json文件_python字典数据保存为JSON文件教程

    使用json模块的dump()方法可将字典写入JSON文件,配合ensure_ascii=False和encoding=’utf-8’解决中文编码问题;datetime等非序列化对象需通过default函数或自定义JSONEncoder转换;处理大文件时可用ijson库实现流…

    2025年12月14日
    000
  • Python 实战:招聘网站数据分析案例

    Python通过爬虫、清洗与分析招聘数据,助力求职者定位薪资、优化技能并洞察行业趋势,同时帮助企业精准制定招聘策略与薪酬体系。 Python在招聘网站数据分析中,扮演着一个至关重要的角色,它能帮助我们从看似杂乱无章的海量招聘信息中,提炼出有价值的洞察,无论是了解行业趋势、薪资水平,还是分析岗位需求,…

    2025年12月14日
    000
  • python如何将list转换为set_python列表list与集合set的相互转换

    列表转集合可去重并提升查找效率,但会丢失顺序;集合适合唯一性、成员检测和集合运算,列表则适用于需顺序、索引或重复元素的场景。 Python中将列表(list)转换为集合(set)是一个非常常见的操作,主要目的是为了去重和利用集合的高效查找特性。反过来,当你需要对去重后的数据进行索引访问或保持特定顺序…

    2025年12月14日
    000
  • 基于Bearer Token的REST API认证教程

    本文档旨在指导开发者如何在基于AWS API Gateway和Lambda的REST API中实现基于Bearer Token的身份验证。我们将介绍三种不同的实现方式:使用代理集成、自定义集成以及Lambda Authorizer。通过详细的步骤和代码示例,帮助你选择最适合你的应用场景的方案,并确保…

    2025年12月14日
    000
  • 将OpenAI API驱动的ChatGPT集成到HTML网页的完整教程

    本教程详细阐述了如何将基于Python的OpenAI ChatGPT后端与前端HTML网页进行集成。通过构建一个轻量级的Python Web API(如使用Flask框架),前端JavaScript能够向后端发送用户输入,后端处理后调用OpenAI API获取响应,并将结果以JSON格式返回给前端,…

    2025年12月14日
    000
  • 将OpenAI ChatGPT集成到HTML网页的完整指南

    本文旨在指导开发者如何将基于OpenAI API的ChatGPT模型集成到HTML网页中。通过结合Python后端和JavaScript前端,实现用户在网页上与ChatGPT进行实时对话的功能。教程将详细介绍如何搭建后端API、处理前后端通信,以及在HTML页面上展示聊天内容。 1. 架构概述 将C…

    2025年12月14日
    000
  • python lambda函数怎么用_python匿名函数lambda使用教程

    lambda函数是一种简化版的匿名函数,用于实现简单单行功能,语法为lambda arguments: expression,常用于map()、filter()、sorted()等函数中。示例包括定义加法函数add = lambda x, y: x + y,输出8;使用map()将列表元素平方,得到…

    2025年12月14日
    000
  • 获取 GitHub 仓库最后更新时间:使用 PyGithub 的正确方法

    本文旨在帮助开发者使用 PyGithub 库获取 GitHub 仓库的最后更新时间。我们将探讨 repo._updated_at.value 和 repo.pushed_at 的区别,并提供正确的代码示例,以便准确获取仓库的最后一次推送时间,从而实现项目数据的有效更新。 在使用 PyGithub 库…

    2025年12月14日
    000
  • Python怎么将字典写入JSON文件_Python字典转JSON文件存储方法

    Python字典转JSON文件广泛用于数据持久化、跨语言交换和配置管理,通过json.dump()直接写入文件或json.dumps()生成字符串再存储,结合ensure_ascii=False、indent格式化及default参数处理中文、美观输出与非标准类型,兼顾效率与可读性。 Python要…

    2025年12月14日
    000
  • python中怎么用Flask创建一个简单的网页?

    答案:用Flask搭建网页只需安装Flask、创建app.py定义路由和视图函数,运行后即可在浏览器访问;通过@app.route可设置不同URL路径和请求方法,支持动态变量和POST/GET处理;使用Jinja2模板引擎将HTML分离,通过render_template传递数据,提升页面复杂度和可…

    2025年12月14日 好文分享
    000
  • Python解释器开发:解析器中无限循环的诊断与修复

    本文深入探讨了Python解释器开发中常见的解析器(parser)无限循环问题。通过分析一个具体的代码案例,揭示了循环变量i未在所有执行路径中正确递增是导致KeyboardInterrupt错误的原因。文章提供了详细的修复方案,并进一步优化了parse函数,使其能够健壮地处理各类令牌,包括打印语句和…

    2025年12月14日
    000
  • PEFT LoRA适配器与基础模型的高效合并策略

    本教程详细介绍了如何将PEFT LoRA适配器与基础模型高效合并,生成一个完全独立的模型。文章指出直接使用transformers.AutoModel加载适配器并手动合并权重是错误的,并提供了使用peft库中merge_and_unload方法的正确流程。此外,教程还强调了处理分词器的重要性,并讨论…

    2025年12月14日
    000
  • 高效处理大型DataFrame:Pandas分批操作与外部API请求管理

    针对大型Pandas DataFrame在执行merge、apply操作及调用外部API时遇到的性能和稳定性问题,本文提供了一种分批处理策略。通过将DataFrame分割成小块,逐批处理数据并管理API请求速率,有效避免内存溢出和API限流,确保数据处理流程的顺畅与高效,并支持结果的增量写入。 在处…

    2025年12月14日
    000
  • Pandas大数据框分批处理与外部API调用优化实践

    本教程旨在解决Pandas处理大型DataFrame时,因内存限制或外部API请求频率过高导致的程序崩溃及性能瓶颈问题。核心策略是通过将大数据集逻辑地划分为小批次进行独立处理,并演示如何高效地执行数据合并、应用自定义函数以及管理外部API调用,最终将分批处理结果统一写入目标文件,从而提升数据处理的稳…

    2025年12月14日
    000
  • PEFT LoRA适配器与基础模型高效合并指南

    本文详细介绍了如何使用Hugging Face的peft库将PEFT LoRA适配器模型与基础模型进行高效且正确地合并,生成一个完全新的、独立的预训练模型。教程涵盖了从加载适配器、执行合并到保存最终模型及处理分词器的完整流程,并提供了避免常见错误和解决版本兼容性问题的专业指导。 PEFT LoRA适…

    2025年12月14日
    000
  • Python解释器开发中的解析器死循环问题及解决方案

    本文深入探讨了Python语言解释器开发中常见的解析器死循环问题,该问题通常源于解析逻辑中索引未正确递增。文章通过分析一个具体的Python解释器代码案例,详细阐述了词法分析器和解析器的交互,并揭示了当解析器未能处理所有令牌类型时,如何导致程序陷入无限循环。最终,提供了修正后的解析器代码,并强调了在…

    2025年12月14日
    000
  • Python Web Scraping技巧:处理同名类标签并精确筛选数据

    本文详细介绍了如何利用Python的requests和BeautifulSoup库进行网页数据抓取,特别是当网页中存在多个具有相同HTML类名的元素时,如何精确筛选出所需信息。文章着重演示了如何通过高级CSS选择器,例如:-soup-contains(),来排除不符合条件的数据(如“在线视频咨询”)…

    2025年12月14日
    000
  • 如何将PEFT LoRA适配器与基础模型合并以创建独立模型

    本文详细介绍了如何使用Hugging Face peft库的merge_and_unload功能,将PEFT LoRA适配器高效且正确地与基础模型合并,生成一个全新的、独立的预训练模型。文章纠正了直接加载适配器或手动合并权重的常见误区,并提供了完整的代码示例、模型保存指南以及处理分词器和peft版本…

    2025年12月14日
    000
  • Python 实战:猜数字小游戏

    猜数字游戏是Python入门的绝佳实践,它融合了随机数生成、用户交互、条件判断和循环控制等核心编程概念。通过构建这个游戏,初学者能直观理解代码如何与用户互动,并在解决输入验证、类型转换等问题的过程中加深对编程逻辑和数据类型的掌握。加入次数限制、自定义范围和再玩一次等功能可提升趣味性和挑战性,而良好的…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信