使用 Whisper 生成带时间戳的 SRT 字幕文件及进阶应用

使用 Whisper 生成带时间戳的 SRT 字幕文件及进阶应用

本文详细阐述了如何利用 OpenAI Whisper 模型从音频或视频文件中提取转录文本,并将其格式化为标准的 SRT 字幕文件,包含精确的时间戳。文章首先介绍了Whisper转录结果的结构,随后提供了将这些结果转换为SRT格式的Python代码示例。此外,还探讨了如何通过集成如 PyAnnote 等工具实现说话人分离(Speaker Diarization),从而生成更具识别度的多说话人SRT字幕,并提供了相关的注意事项与最佳实践。

1. 理解 Whisper 的转录结果

openai whisper 模型在完成音频转录后,其返回的 result 对象不仅仅包含完整的转录文本 (result[‘text’]),还包含一个关键的 segments 列表。这个 segments 列表是生成带时间戳 srt 文件的基础,它将整个音频分解成多个语义连贯的短句或片段,每个片段都带有精确的起始时间 (start)、结束时间 (end) 和对应的文本内容 (text)。

result[‘segments’] 的典型结构如下:

[  {    "id": 0,    "seek": 0,    "start": 0.0,    "end": 3.4,    "text": " 这是一个示例。",    "tokens": [50363, 261, 264, 5322, 1079, 286, 264, 1374, 13, 50533],    "temperature": 0.0,    "avg_logprob": -0.21,    "compression_ratio": 1.2,    "no_speech_prob": 0.001  },  {    "id": 1,    "seek": 3.4,    "start": 3.4,    "end": 6.8,    "text": " 我们将学习如何生成SRT文件。",    "tokens": [50533, 261, 264, 5322, 1079, 286, 264, 1374, 13, 50533],    "temperature": 0.0,    "avg_logprob": -0.21,    "compression_ratio": 1.2,    "no_speech_prob": 0.001  }  // ... 更多片段]

可以看到,start 和 end 字段提供了以秒为单位的时间戳,这是构建 SRT 文件的核心数据。

2. 从 Whisper 输出生成 SRT 文件

要将 Whisper 的转录结果转换为 SRT 格式,我们需要遍历 result[‘segments’] 列表,并按照 SRT 文件的标准格式进行输出。SRT 文件遵循以下结构:

100:00:00,000 --> 00:00:03,400这是一个示例。200:00:03,400 --> 00:00:06,800我们将学习如何生成SRT文件。

以下是修改后的 Python 代码,它在转录完成后,将结果保存为 .srt 文件:

import osimport whisperfrom tqdm import tqdmimport datetime# 定义存储mp4文件的根目录root_folder = "C:Video"# 加载 Whisper 模型print("Loading whisper model...")model = whisper.load_model("base") # 可以根据需求选择 "tiny", "base", "small", "medium", "large"print("Whisper model complete.")# 获取待转录的mp4文件数量print("Getting number of files to transcribe...")num_files = sum(1 for dirpath, dirnames, filenames in os.walk(root_folder) for filename in filenames if filename.endswith(".mp4"))print("Number of files: ", num_files)# 转录mp4文件并显示进度条with tqdm(total=num_files, desc="Transcribing Files") as pbar:    for dirpath, dirnames, filenames in os.walk(root_folder):        for filename in filenames:            if filename.endswith(".mp4"):                filepath = os.path.join(dirpath, filename)                print(f"nTranscribing: {filename}")                # 进行转录,fp16=False 适用于没有GPU或GPU不支持FP16的情况                result = model.transcribe(filepath, fp16=False, verbose=True)                # 获取不带扩展名的文件名                filename_no_ext = os.path.splitext(filename)[0]                # 生成 SRT 文件                srt_filepath = os.path.join(dirpath, filename_no_ext + '.srt')                with open(srt_filepath, 'w', encoding='utf-8') as f_srt:                    for i, segment in enumerate(result['segments']):                        # SRT 片段序号                        f_srt.write(str(i + 1) + 'n')                        # 格式化时间戳                        start_time = str(datetime.timedelta(seconds=segment['start']))                        end_time = str(datetime.timedelta(seconds=segment['end']))                        # 处理毫秒部分,timedelta 默认是微秒,需要转换                        # 格式化为 HH:MM:SS,msmsms                        start_ms = int((segment['start'] % 1) * 1000)                        end_ms = int((segment['end'] % 1) * 1000)                        start_str = f"{int(segment['start'] // 3600):02}:{int((segment['start'] % 3600) // 60):02}:{int(segment['start'] % 60):02},{start_ms:03}"                        end_str = f"{int(segment['end'] // 3600):02}:{int((segment['end'] % 3600) // 60):02}:{int(segment['end'] % 60):02},{end_ms:03}"                        f_srt.write(f"{start_str} --> {end_str}n")                        # 写入转录文本                        f_srt.write(segment['text'].strip() + 'nn') # strip() 移除 Whisper 可能生成的首尾空格                print(f"SRT file saved to: {srt_filepath}")                # 如果仍然需要txt文件,可以保留以下代码                # transcription = result['text']                # with open(os.path.join(dirpath, filename_no_ext + '.txt'), 'w', encoding='utf-8') as f_txt:                #     f_txt.write(transcription)                pbar.update(1)print("nAll files transcribed and SRT files generated.")

代码说明:

datetime.timedelta 和时间格式化: SRT 格式要求时间戳为 HH:MM:SS,ms。虽然 datetime.timedelta 可以方便地计算时间差,但直接转换为字符串时,其毫秒部分可能不符合 SRT 的 xxx,yyy 格式。因此,代码中直接通过数学运算来提取小时、分钟、秒和毫秒,并使用 f-string 进行格式化,确保毫秒部分始终为三位数。segment[‘text’].strip(): Whisper 生成的文本片段有时可能包含前导或尾随空格,strip() 方法可以清除这些不必要的空格,使字幕更整洁。编码 建议使用 encoding=’utf-8′ 打开文件,以确保正确处理各种语言字符。

3. 进阶:集成说话人分离 (Speaker Diarization)

虽然上述方法可以生成带时间戳的 SRT 文件,但如果音频中包含多个说话人,生成的字幕不会区分是谁在说话。为了在 SRT 文件中标识不同的说话人,我们需要进行说话人分离(Speaker Diarization)。说话人分离是一种识别音频中不同说话人并标注其说话时段的技术。

PyAnnote 的作用:

PyAnnote 是一个强大的开源工具包,专注于音频分析,其中包括高质量的说话人分离功能。通过集成 PyAnnote,我们可以:

识别说话人边界: 精确地识别音频中每个说话人开始和结束说话的时间点。分配说话人标签: 为每个说话片段分配一个唯一的说话人标签(例如:[Speaker A]、[Speaker B])。

集成思路:

集成 PyAnnote 通常涉及以下步骤:

运行 Whisper 转录: 首先使用 Whisper 获取初步的文本转录和时间戳。运行 PyAnnote 说话人分离: 将相同的音频文件输入到 PyAnnote 模型中,获取每个说话人的时间段和标签。合并结果: 将 Whisper 的文本片段与 PyAnnote 的说话人标签进行匹配。这通常意味着遍历 Whisper 的每个文本片段,根据其时间戳,查找在该时间段内说话的 PyAnnote 识别出的说话人。生成增强型 SRT: 在 SRT 文件的文本内容前加上说话人标签,例如:[Speaker A] 这是一个示例。

示例(概念性,不含完整 PyAnnote 代码):

# ... (Whisper 转录代码,获取 result['segments']) ...# 假设您已通过 PyAnnote 获取了说话人分离结果,# 格式可能类似:[{'speaker': 'SPEAKER_00', 'start': 0.5, 'end': 2.1}, ...]# diarization_result = run_pyannote_diarization(filepath) # 合并 Whisper 和 Diarization 结果,生成增强型 SRT# for i, segment in enumerate(result['segments']):#     # 查找与当前segment时间重叠的diarization_result,确定说话人#     speaker_label = get_speaker_for_segment(segment, diarization_result) #     formatted_text = f"[{speaker_label}] {segment['text'].strip()}"#     # ... 写入 SRT 文件 ...

请注意,PyAnnote 的集成需要额外的安装和配置,并且其 API 使用方式相对复杂,涉及到模型加载、管道构建等。具体的实现会超出本教程的范围,但其核心思想是利用两个工具的优势,共同生成更丰富、更准确的字幕。

4. 注意事项与最佳实践

Whisper 模型选择: Whisper 提供多种模型尺寸(tiny, base, small, medium, large)。模型越大,准确度越高,但转录速度越慢,所需的内存也越多。根据您的硬件资源和准确度需求进行选择。fp16 参数: fp16=True 可以在支持半精度浮点运算的 GPU 上显著提高转录速度并减少内存占用。如果您的系统没有兼容的 GPU 或遇到错误,请将其设置为 False。verbose 参数: verbose=True 会在转录过程中在控制台输出详细信息。在批量处理时,如果不需要这些实时日志,可以设置为 False 以减少输出。文件路径: 确保 root_folder 路径正确,并且 Python 脚本对该目录及其子目录有读写权限。长音频文件处理: 对于非常长的音频文件,Whisper 会自动进行分块处理。但在极端情况下,内存使用仍可能较高。如果遇到内存问题,可能需要手动将音频文件预处理成更小的片段。SRT 时间戳精度: Whisper 提供的 start 和 end 时间戳通常精确到毫秒级别,足以满足大多数字幕需求。

总结

通过本文的指导,您应该已经掌握了如何利用 OpenAI Whisper 模型不仅生成音频的文本转录,还能进一步将其格式化为标准的 SRT 字幕文件,并包含精确的时间戳。此外,我们还探讨了通过集成 PyAnnote 等专业工具实现说话人分离的进阶应用,这能为多说话人场景下的字幕文件增添关键的说话人标识信息,从而大大提升字幕的可用性和阅读体验。在实际应用中,根据项目需求和资源限制,合理选择 Whisper 模型和是否集成说话人分离功能,将帮助您高效地生成高质量的字幕。

以上就是使用 Whisper 生成带时间戳的 SRT 字幕文件及进阶应用的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1374366.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Python高效转换特定格式列表字符串为字典的技巧
上一篇 2025年12月14日 14:05:39
Python FastText安装指南:解决’pybind11’模块未找到错误
下一篇 2025年12月14日 14:05:44

相关推荐

  • composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

    require用于声明项目运行必需的依赖,如框架、数据库组件和第三方SDK,这些包会随项目部署到生产环境;2. require-dev用于声明仅在开发和测试阶段需要的工具,如PHPUnit、PHPStan、Faker等,不会默认部署到生产环境;3. 安装时composer install根据环境决定…

    2026年5月10日
    1000
  • Matplotlib 地图中多类型图例的创建与优化

    Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化

    本教程旨在解决matplotlib地图可视化中,如何在一个图例中同时展示颜色块(如区域分类)和自定义标记(如特定兴趣点)的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时,如何利用`matplotlib.lines.line2d`创建标记图例句柄,并将其与颜色块图例句柄合并,从而生成一…

    2026年5月10日 用户投稿
    100
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    100
  • Debian syslog性能优化技巧有哪些

    提升Debian系统syslog (通常基于rsyslog)性能,关键在于精简配置和高效处理日志。以下策略能有效优化日志管理,提升系统整体性能: 精简配置,高效加载: 在rsyslog配置文件中,仅加载必要的输入、输出和解析模块。 使用全局指令设置日志级别和格式,避免不必要的处理。 自定义模板: 创…

    2026年5月10日
    000
  • 怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

    首先创建含enctype的HTML表单,再用PHP接收文件,检查目录、移动临时文件,验证类型与大小,生成唯一文件名,并调整php.ini限制以确保上传成功。 如果您尝试在PHP项目中添加图片上传功能,但服务器无法正确接收或保存文件,则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

    2026年5月10日
    100
  • 获取日期中的周数:CodeIgniter 教程

    本教程旨在帮助开发者在 CodeIgniter 框架中,从日期字符串中准确提取周数。我们将使用 PHP 内置的 DateTime 类,并提供详细的代码示例和注意事项,确保您能够轻松地在项目中实现此功能。 使用 DateTime 类获取周数 PHP 的 DateTime 类提供了一种便捷的方式来处理日…

    2026年5月10日
    100
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • RichHandler与Rich Progress集成:解决显示冲突的教程

    在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

    2026年5月10日
    000
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    100
  • 网站标题关键词更新后,搜索引擎为何仍显示旧标题?

    网站标题更新后,搜索引擎为何显示旧标题? 网站SEO优化中,站长常修改网站标题关键词,期望搜索结果显示自定义标题。然而,即使更新标签、meta keywords、meta description和结构化数据中的name属性后,搜索结果仍显示旧标题,这令人费解。本文将对此进行解释。 问题:站长修改了网…

    2026年5月10日
    100
  • 创建指定大小并填充特定数据的Golang文件教程

    本文将介绍如何使用Golang创建一个指定大小的文件,并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件,从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件,并将其填充为全零数据。掌握这些方法,可以方便地在例如日志系统或磁盘队列等场景中,预先创建测试文件或初始…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • 如何插入查询结果数据_SQL插入Select查询结果方法

    如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法

    使用INSERT INTO…SELECT语句可高效插入数据,通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复;表结构不一致时可通过别名、类型转换、默认值或计算字段处理;结合存储过程可提升可维护性,支持参数化与动态SQL。 将查询结果数据插入到另一个表中,可以…

    2026年5月10日 用户投稿
    000

发表回复

登录后才能评论
关注微信