使用 Gemini Flash 构建视频洞察生成器

程序猿 • 2025年12月13日 18:14:26 • 用户投稿 • 阅读 0

视频理解或视频洞察由于其多方面的优势而在各个行业和应用中至关重要。它们通过自动生成元数据、对内容进行分类并使视频更易于搜索来增强内容分析和管理。此外，视频洞察提供了推动决策、增强用户体验并提高不同行业运营效率的关键数据。

google 的 gemini 1.5 模型为该领域带来了重大进步。除了在语言处理方面令人印象深刻的改进之外，该模型还可以处理多达 100 万个标记的巨大输入上下文。为了进一步增强其功能，gemini 1.5 被训练为多模式模型，可以本地处理文本、图像、音频和视频。各种输入类型和广泛的上下文大小的强大组合为有效处理长视频开辟了新的可能性。

在本文中，我们将深入探讨如何利用 gemini 1.5 生成有价值的视频见解，改变我们跨不同领域理解和利用视频内容的方式。

入门

什么是双子座1.5

google 的 gemini 1.5 代表了人工智能性能和效率的重大飞跃。该模型建立在广泛的研究和工程创新的基础上，采用新的专家混合 (moe) 架构，提高了培训和服务效率。 gemini 1.5 pro 和 1.5 flash 现已推出公共预览版，通过 google ai studio 和 vertex ai 提供了令人印象深刻的 100 万个代币上下文窗口。

google gemini 更新：flash 1.5、gemma 2 和 project astra (blog.google)
1.5 flash 型号是 gemini 系列的最新成员，对于大容量、高频任务来说速度最快且最优化。它专为实现成本效益而设计，在摘要、聊天、图像和视频字幕以及从大量文档和表格中提取数据等应用中表现出色。凭借这些进步，gemini 1.5 为 ai 模型的性能和多功能性树立了新标准。

先决条件

python 3.9+ (https://www.python.org/downloads)谷歌生成ai流线型

安装依赖项

通过执行以下命令创建并激活虚拟环境。

python -m venv venvsource venv/bin/activate #for ubuntuvenv/scripts/activate #for windows

使用 pip 安装 google-generativeai、streamlit、python-dotenv 库。请注意，generativeai 需要 python 3.9+ 版本才能工作。

pip install google-generativeai streamlit python-dotenv

设置 gemini api 密钥

要访问 gemini api 并开始使用其功能，您可以通过注册 google ai studio 来获取免费的 google api 密钥。 google ai studio 由 google 提供，提供了一个用户友好的、基于视觉的界面，用于与 gemini api 进行交互。在 google ai studio 中，您可以通过其直观的 ui 无缝地与生成模型交互，如果需要，还可以生成 api 令牌以增强控制和自定义。

按照以下步骤生成 gemini api 密钥：

要启动此过程，您可以单击链接 (https://aistudio.google.com/app) 以重定向到 google ai studio，或者在 google 上执行快速搜索以找到它。接受服务条款并单击继续。点击侧边栏的获取 api 密钥链接和在新项目中创建 api 密钥按钮来生成密钥。复制生成的 api 密钥。

设置环境变量

首先为您的项目创建一个新文件夹。选择一个能够反映您项目目的的名称。
在新项目文件夹中，创建一个名为 .env 的文件。该文件将存储您的环境变量，包括您的 gemini api 密钥。
打开 .env 文件并添加以下代码来指定您的 gemini api 密钥：

google_api_key=aizasy......

导入库

要开始您的项目并确保您拥有所有必要的工具，您需要导入几个关键库，如下所示。

import osimport timeimport google.generativeai as genaiimport streamlit as stfrom dotenv import load_dotenv

google.generativeai as genai：导入 google generative ai 库以与 gemini api 交互。streamlit as st：导入 streamlit 用于创建 web 应用程序。from dotenv import load_dotenv：从 .env 文件加载环境变量。

初始化项目

要设置您的项目，您需要配置 api 密钥并为上传的文件创建临时文件存储目录。

通过初始化必要的设置来定义媒体文件夹并配置 gemini api 密钥。将以下代码添加到您的脚本中：

media_folder = 'medias'def __init__():    # create the media directory if it doesn't exist    if not os.path.exists(media_folder):        os.makedirs(media_folder)    # load environment variables from the .env file    load_dotenv()    # retrieve the api key from the environment variables    api_key = os.getenv("gemini_api_key")    # configure the gemini api with your api key    genai.configure(api_key=api_key)

保存上传的文件

要将上传的文件存储在媒体文件夹中并返回其路径，请定义一个名为 save_uploaded_file 的方法并向其中添加以下代码。

def save_uploaded_file(uploaded_file):    """save the uploaded file to the media folder and return the file path."""    file_path = os.path.join(media_folder, uploaded_file.name)    with open(file_path, 'wb') as f:        f.write(uploaded_file.read())    return file_path

从视频中生成见解

从视频中生成见解涉及几个关键阶段，包括上传、处理和生成响应。

1. 将视频上传到files api

gemini api 直接接受视频文件格式。文件 api 支持最大 2gb 的文件，并允许每个项目最大存储 20gb。上传的文件保留 2 天，并且无法从 api 下载。

video_file = genai.upload_file(path=video_path)

2. 获取文件

上传文件后，您可以使用files.get方法验证api是否已成功接收文件。此方法允许您查看上传到文件 api 的文件，这些文件与链接到您的 api 密钥的云项目关联。只有文件名和 uri 是唯一标识符。

import timewhile video_file.state.name == "processing":    print('waiting for video to be processed.')    time.sleep(10)    video_file = genai.get_file(video_file.name)if video_file.state.name == "failed":  raise valueerror(video_file.state.name)

3. 响应生成

视频上传后，您可以发出引用文件 api uri 的generatecontent 请求。

# create the prompt.prompt = "describe the video. provides the insights from the video."# set the model to gemini 1.5 flash.model = genai.generativemodel(model_name="models/gemini-1.5-flash")# make the llm request.print("making llm inference request...")response = model.generate_content([prompt, video_file],                                  request_options={"timeout": 600})print(response.text)

4. 删除文件

文件会在 2 天后自动删除，或者您可以使用 files.delete() 手动删除它们。

genai.delete_file(video_file.name)

5. 结合各个阶段

创建一个名为 get_insights 的方法并向其中添加以下代码。使用 streamlit write() 方法代替 print() 来查看网站上的消息。

def get_insights(video_path):    """extract insights from the video using gemini flash."""    st.write(f"processing video: {video_path}")    st.write(f"uploading file...")    video_file = genai.upload_file(path=video_path)    st.write(f"completed upload: {video_file.uri}")    while video_file.state.name == "processing":        st.write('waiting for video to be processed.')        time.sleep(10)        video_file = genai.get_file(video_file.name)    if video_file.state.name == "failed":        raise valueerror(video_file.state.name)    prompt = "describe the video. provides the insights from the video."    model = genai.generativemodel(model_name="models/gemini-1.5-flash")    st.write("making llm inference request...")    response = model.generate_content([prompt, video_file],                                    request_options={"timeout": 600})    st.write(f'video processing complete')    st.subheader("insights")    st.write(response.text)    genai.delete_file(video_file.name)

创建界面

要简化在 streamlit 应用程序中上传视频和生成见解的过程，您可以创建一个名为 app 的方法。此方法将提供一个上传按钮，显示上传的视频，并从中生成见解。

def app():    st.title("video insights generator")    uploaded_file = st.file_uploader("upload a video file", type=["mp4", "avi", "mov", "mkv"])    if uploaded_file is not none:        file_path = save_uploaded_file(uploaded_file)        st.video(file_path)        get_insights(file_path)        if os.path.exists(file_path):  ## optional: removing uploaded files from the temporary location            os.remove(file_path)

创建 streamlit 应用程序

要创建一个完整且功能齐全的 streamlit 应用程序，允许用户使用 gemini 1.5 flash 模型上传视频并生成见解，请将所有组件合并到一个名为 app.py 的文件中。

这是最终代码：

import osimport timeimport google.generativeai as genaiimport streamlit as stfrom dotenv import load_dotenvmedia_folder = 'medias'def __init__():    if not os.path.exists(media_folder):        os.makedirs(media_folder)    load_dotenv()  ## load all the environment variables    api_key = os.getenv("gemini_api_key")    genai.configure(api_key=api_key)def save_uploaded_file(uploaded_file):    """save the uploaded file to the media folder and return the file path."""    file_path = os.path.join(media_folder, uploaded_file.name)    with open(file_path, 'wb') as f:        f.write(uploaded_file.read())    return file_pathdef get_insights(video_path):    """extract insights from the video using gemini flash."""    st.write(f"processing video: {video_path}")    st.write(f"uploading file...")    video_file = genai.upload_file(path=video_path)    st.write(f"completed upload: {video_file.uri}")    while video_file.state.name == "processing":        st.write('waiting for video to be processed.')        time.sleep(10)        video_file = genai.get_file(video_file.name)    if video_file.state.name == "failed":        raise valueerror(video_file.state.name)    prompt = "describe the video. provides the insights from the video."    model = genai.generativemodel(model_name="models/gemini-1.5-flash")    st.write("making llm inference request...")    response = model.generate_content([prompt, video_file],                                    request_options={"timeout": 600})    st.write(f'video processing complete')    st.subheader("insights")    st.write(response.text)    genai.delete_file(video_file.name)def app():    st.title("video insights generator")    uploaded_file = st.file_uploader("upload a video file", type=["mp4", "avi", "mov", "mkv"])    if uploaded_file is not none:        file_path = save_uploaded_file(uploaded_file)        st.video(file_path)        get_insights(file_path)        if os.path.exists(file_path):  ## optional: removing uploaded files from the temporary location            os.remove(file_path)__init__()app()

运行应用程序

执行以下代码来运行应用程序。

streamlit run app.py

您可以打开控制台中提供的链接来查看输出。

感谢您阅读这篇文章！！

如果您喜欢这篇文章，请点击心形按钮♥并分享以帮助其他人找到它！

本教程的完整源代码可以在这里找到，

github – codemaker2015/video-insights-generator

以上就是使用 Gemini Flash 构建视频洞察生成器的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1354070.html

ai gemini git python windows 谷歌

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Tkinter界面实时绘制函数图像：如何实现按钮控制电路的断开与闭合并从点击时刻开始绘制？

上一篇 2025年12月13日 18:14:16

Pydantic Logfire 能私有化部署吗？

下一篇 2025年12月13日 18:14:31

用户投稿

开源免费PHP工具 PHP开发效率提升利器

推荐开源免费PHP开发工具以提升效率：VS Code、Sublime Text轻量高效，PhpStorm专业强大；调试用Xdebug、Kint、Ray；依赖管理选Composer；代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer；数据库管理可用%ignore_a_1%MyA…

程序猿
2026年5月10日
0000
Matplotlib 地图中多类型图例的创建与优化

本教程旨在解决matplotlib地图可视化中，如何在一个图例中同时展示颜色块（如区域分类）和自定义标记（如特定兴趣点）的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时，如何利用`matplotlib.lines.line2d`创建标记图例句柄，并将其与颜色块图例句柄合并，从而生成一…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
用户投稿

利用海象运算符简化条件赋值：Python教程与最佳实践

本文旨在探讨Python中海象运算符（:=）在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符，以及条件表达式，分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例，展示如何在列表推导式等场景下合理使用海象运算符，同时强调其潜在的复杂性及替代方案，帮助开发者更好地掌…

程序猿
2026年5月10日
0000
用户投稿

怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

首先创建含enctype的HTML表单，再用PHP接收文件，检查目录、移动临时文件，验证类型与大小，生成唯一文件名，并调整php.ini限制以确保上传成功。如果您尝试在PHP项目中添加图片上传功能，但服务器无法正确接收或保存文件，则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

程序猿
2026年5月10日
1000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

Go语言mgo查询构建：深入理解bson.M与日期范围查询的正确实践

本文旨在解决go语言mgo库中构建复杂查询时，特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性，解释为何直接索引`interface{}`会导致“invalid operation”错误，并提供一种推荐的、结构清晰的代码重构方案，以确保查询条件能够正确…

程序猿
2026年5月10日
1000
用户投稿

RichHandler与Rich Progress集成：解决显示冲突的教程

在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时，可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

程序猿
2026年5月10日
0000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
0000
用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000
用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
用户投稿

使用 WebCodecs VideoDecoder 实现精确逐帧回退

本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时，实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳，可以避免渲染中间帧，从而提高用户体验。本文将提供详细的解决方案和示例代码，帮助开发者实现精确的视频帧控制。在使用 WebCodecs VideoDecod…

程序猿
2026年5月10日
0000
如何插入查询结果数据_SQL插入Select查询结果方法

使用INSERT INTO…SELECT语句可高效插入数据，通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复；表结构不一致时可通过别名、类型转换、默认值或计算字段处理；结合存储过程可提升可维护性，支持参数化与动态SQL。将查询结果数据插入到另一个表中，可以…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

Debian Copilot的社区活跃度如何

debian copilot是codeberg社区维护的ai助手，旨在为debian用户提供服务。尽管搜索结果中没有直接提供关于debian copilot社区支持活跃度的具体数据，但我们可以通过debian社区的整体活跃度和特点来推断其活跃性。 Debian社区的一般情况： Debian拥有详尽的…

程序猿
2026年5月10日
0000
用户投稿

Discord.py 交互按钮超时与持久化解决方案

本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图（View）的超时机制，并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案，确保您的机器人交互功能稳定可靠，即…

程序猿
2026年5月10日
0000
用户投稿

Python递归函数追踪与性能考量：以序列打印为例

本文深入探讨了Python中一种递归打印序列元素的方法，并着重演示了如何通过引入缩进参数来有效追踪递归函数的执行流程和参数变化。通过实际代码示例，文章揭示了递归调用可能带来的潜在性能开销，特别是对调用栈空间的需求，以及Python默认递归深度限制可能导致的错误，为读者提供了理解和优化递归算法的实用见…

程序猿
2026年5月10日
0000