Whisper转录进阶：高效生成带时间戳的SRT字幕文件与说话人分离集成

程序猿 • 2025年12月14日 14:01:54 • 好文分享 • 阅读 0

本教程将指导您如何利用Whisper模型从音视频文件中提取转录文本，并将其输出为标准的SRT字幕格式，包含精确的时间戳。我们还将探讨如何进一步结合说话人分离技术（如PyAnnote）来为SRT字幕添加说话人标签，从而提升字幕的可用性和信息量。通过本文，您将掌握从基础字幕生成到高级说话人识别的完整流程。

一、理解SRT字幕格式

srt（subrip subtitle）是一种常见的字幕文件格式，它以纯文本形式存储，易于阅读和编辑。一个典型的srt条目由以下四部分组成：

序号： 字幕块的顺序编号。时间戳： 表示该字幕块在视频中显示和消失的时间，格式为小时:分钟:秒,毫秒 –> 小时:分钟:秒,毫秒。字幕文本： 实际的对话或旁白内容。空行： 用于分隔不同的字幕块。

例如：

100:00:01,500 --> 00:00:04,250这是一段示例字幕。200:00:05,000 --> 00:00:07,800它展示了SRT的结构。

二、使用Whisper生成基础SRT字幕

Whisper模型在执行转录任务时，除了提供完整的文本内容，还会返回每个语音片段（segment）的起始和结束时间戳。这些信息是生成SRT字幕的关键。

2.1 核心原理

Whisper的transcribe方法返回的结果对象中包含一个segments列表。列表中的每个元素都是一个字典，通常包含’start’（起始时间，秒）、’end’（结束时间，秒）和’text’（对应片段的文本）。我们只需遍历这个列表，将每个片段的信息按照SRT的格式进行组织和写入文件即可。

2.2 代码实现

以下是在您原有代码基础上，修改为输出SRT文件的示例：

import osimport whisperfrom tqdm import tqdm# 辅助函数：将秒数转换为SRT所需的时间戳格式def format_timestamp(seconds):    milliseconds = int((seconds - int(seconds)) * 1000)    seconds = int(seconds)    minutes = seconds // 60    hours = minutes // 60    seconds %= 60    minutes %= 60    return f"{hours:02d}:{minutes:02d}:{seconds:02d},{milliseconds:03d}"# 定义存放mp4文件的根目录# 注意：Windows路径建议使用原始字符串（r"C:Video"）或双反斜杠（"C:Video"）root_folder = r"C:Video" # 初始化Whisper模型print("正在加载Whisper模型...")model = whisper.load_model("base") # 可以根据需求选择更大的模型，如"small", "medium", "large"print("Whisper模型加载完成。")# 统计待处理的mp4文件数量print("正在统计待转录文件数量...")num_files = sum(1 for dirpath, dirnames, filenames in os.walk(root_folder) for filename in filenames if filename.endswith(".mp4"))print(f"待处理文件数量: {num_files}")# 遍历文件并转录，同时显示进度条with tqdm(total=num_files, desc="文件转录中") as pbar:    for dirpath, dirnames, filenames in os.walk(root_folder):        for filename in filenames:            if filename.endswith(".mp4"):                filepath = os.path.join(dirpath, filename)                print(f"正在转录: {filepath}...")                # 执行转录，verbose=False避免Whisper的详细输出干扰进度条                # fp16=False确保在CPU或不支持FP16的GPU上运行，或需要更高精度时使用                result = model.transcribe(filepath, fp16=False, verbose=False)                # 构建SRT文件路径                filename_no_ext = os.path.splitext(filename)[0]                srt_filepath = os.path.join(dirpath, filename_no_ext + '.srt')                # 将转录结果写入SRT文件                with open(srt_filepath, 'w', encoding='utf-8') as f:                    for i, segment in enumerate(result['segments']):                        start_time = format_timestamp(segment['start'])                        end_time = format_timestamp(segment['end'])                        text = segment['text'].strip() # 清理文本两端的空白符                        f.write(f"{i + 1}") # 写入序号                        f.write(f"{start_time} --> {end_time}") # 写入时间戳                        f.write(f"{text}") # 写入文本内容，并留一个空行分隔                print(f"SRT文件已保存至: {srt_filepath}")                pbar.update(1) # 更新进度条

2.3 注意事项

模型选择： whisper.load_model(“base”) 是一个较小的模型，处理速度快但准确性相对较低。对于生产环境或对准确性要求高的场景，建议使用 small, medium, 甚至 large 模型以获得更好的效果。fp16参数： fp16=False 表示禁用半精度浮点计算。如果您的GPU支持FP16且希望提高计算速度，可以设置为True。在CPU上运行时，此参数通常没有影响。verbose参数： 在批量处理时，将verbose设置为False可以避免Whisper在控制台输出大量的转录详情，使进度条的显示更加清晰。编码： 写入SRT文件时，请务必指定encoding=’utf-8’，以确保正确处理各种语言字符。

三、进阶：结合说话人分离（Speaker Diarization）生成更丰富的SRT

在某些场景下，仅仅有带时间戳的字幕是不够的，我们可能还需要区分出不同的说话人。这就是说话人分离（Speaker Diarization）的任务，它旨在识别出音频中不同说话人的语音片段。

3.1 什么是说话人分离？

以上就是Whisper转录进阶：高效生成带时间戳的SRT字幕文件与说话人分离集成的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1374295.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

解决GridSearchCV中n_splits与类别成员数冲突的策略

上一篇 2025年12月14日 14:01:52

Python多版本环境下的包管理与pip安装策略

下一篇 2025年12月14日 14:02:04

好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果？

探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果在前端开发中，鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果，这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现虽然 CSS 无法直接实现探照灯效果，但可以通过以下技巧营造出类似效…

程序猿
2025年12月24日
0000
好文分享

苹果浏览器网页背景图色差问题：如何解决背景图不一致？

网页背景图在苹果浏览器上出现色差一位用户在使用苹果浏览器访问网页时遇到一个问题，网页上方的背景图比底部的背景图明显更亮。这个问题的原因很可能是背景图没有正确配置 background-size 属性。在 windows 浏览器中，背景图可能可以自动填满整个容器，但在苹果浏览器中可能需要显式设置 …

程序猿
2025年12月24日
4000
好文分享

苹果浏览器网页背景图像为何色差？

网页背景图像在苹果浏览器的色差问题在不同浏览器中，网站的背景图像有时会出现色差。例如，在 Windows 浏览器中显示正常的上层背景图，在苹果浏览器中却比下层背景图更亮。问题原因出现此问题的原因可能是背景图像未正确设置 background-size 属性。解决方案为确保背景图像在不同浏览…

程序猿
2025年12月24日
5000
好文分享

苹果电脑浏览器背景图亮度差异：为什么网页上下部背景图色差明显？

背景图在苹果电脑浏览器上亮度差异问题描述：在网页设计中，希望上部元素的背景图与页面底部的背景图完全对齐。而在 Windows 中使用浏览器时，该效果可以正常实现。然而，在苹果电脑的浏览器中却出现了明显的色差。原因分析：如果您已经排除屏幕分辨率差异的可能性，那么很可能是背景图的 backgro…

程序猿
2025年12月24日
0000
好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
0000
好文分享

css怎么设置超出显示省略号

css设置超出显示省略号的方法：1、使用“overflow:hidden;”语句把超出的部分隐藏起来；2、使用“text-overflow:ellipsis;”语句在文本溢出包含元素时，显示省略符号来代表被隐藏的部分。本教程操作环境：windows7系统、CSS3&&HTML5版、…

程序猿
2025年12月24日
0000
好文分享

css怎么设置文件编码

在css中，可以使用“@charset”规则来设置编码，语法格式“@charset “字符编码类型”;”。“@charset”规则可以指定样式表中使用的字符编码，它必须是样式表中的第一个元素，并且不能以任何字符开头。本教程操作环境：windows7系统、CSS3&&…

程序猿
2025年12月24日
0000
好文分享

如何使用纯CSS实现Windows启动界面的动画效果

本篇文章给大家带来的内容是关于如何使用纯css实现windows启动界面的动画效果，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。效果预览源代码下载 https://github.com/comehope/front-end-daily-challenges 代码解读定义 d…

程序猿
2025年12月24日
0000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
3000
好文分享

html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

HTML5不能直接运行PHP，需通过Ajax与PHP通信：前端用fetch发送请求，PHP接收处理并返回JSON，前端解析响应更新DOM；注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言，不能直接运行 PHP 代码，但可以通过 Ajax（异步 JavaScript）与 PHP…

程序猿
2025年12月23日
3000
好文分享

HTML5怎么制作广告_HTML5用动画与交互制横幅或弹窗广告吸引点击【制作】

可利用HTML5结合CSS3动画、Canvas、Web Animations API、Intersection Observer和video标签制作互动广告：一用@keyframes实现横幅入场动画；二用Canvas绘制并响应悬停；三用Web Animations API控制弹窗时序；四用Inter…

程序猿
2025年12月23日
0000
html5怎么引用js_HTML5用外链或内嵌JS代码引用脚本【引用】

HTML5中执行JavaScript需通过外链或内嵌方式引入：一、外链用，支持defer/async；二、内嵌将代码写入间，推荐置于body底部；三、type属性默认可省略；四、模块化使用type=”module”支持ES6 import/export。 <img sr…

程序猿
好文分享 2025年12月23日
0000
好文分享

360怎么装html5_360浏览器默认支持HTML5无需额外安装设置【说明】

HTML5是网页标准，非独立软件，360浏览器7.0+已原生支持；需确认内核为Blink/Chromium、关闭兼容模式、禁用强制兼容策略、重置Flash插件、清除HTML5本地存储、检查系统Media Foundation组件。如果您在使用360浏览器时发现HTML5网页功能异常（如视频无法播放…

程序猿
2025年12月23日
0000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
0000
好文分享

html5怎么跳出页面_HT5用location.href或a标签实现页面跳转跳出【跳出】

HTML5页面跳转有五种方法：一、location.href直接跳转并替换历史；二、location.replace()跳转且不保留当前页历史；三、a标签href跳转，支持新窗口及历史回退；四、a标签+JavaScript事件控制条件跳转；五、meta refresh实现定时自动跳转。如果您希望在…

程序猿
2025年12月23日
2000