视频转字幕功能使用帮助 #

视频转字幕功能用于把视频中的语音内容自动转写成字幕文件，适合课程视频、访谈视频、自媒体口播视频、会议录像、讲解视频、直播回放和多语言内容整理。对于需要从视频中提取文本、制作外挂字幕、整理内容脚本或做字幕归档的用户来说，这是一项非常高频且非常有价值的功能。

这个功能和“视频加字幕”不同。视频加字幕是把已有字幕烧录到画面里，而视频转字幕更偏向“从视频内容自动识别语音并生成字幕文件”。也就是说，它是自动转写工具，而不是样式烧录工具。对于想快速把视频中的语音内容整理成文字、字幕或时间轴文件的用户来说，这个功能非常实用。

视频转字幕视频转字幕功能

功能描述 #

视频转字幕功能支持选择单个视频文件，也支持选择一个视频文件夹进行批量转写。用户需要先准备下载模型文件，再选择输入视频和输出目录，然后设置转写语言和字幕导出格式，最后生成对应的文字或字幕文件。

这个功能的输出并不局限于传统字幕格式，还支持 TXT、SRT、VTT、ASS、LRC、JSON、MD 等多种类型，适合不同后续用途，例如字幕制作、文稿整理、博客内容提取、搜索归档和二次编辑。

主要功能 #

支持单个视频转字幕
支持视频文件夹批量转字幕
支持加载下载好的模型文件
支持多语言识别或自动识别
支持导出 TXT、SRT、VTT、ASS、LRC、JSON、MD
支持输出目录自定义
支持转写进度显示
支持停止任务和打开输出文件夹

功能特点 #

1. 从视频中直接提取字幕内容 #

不需要你手动听写，也不需要先单独提取音频，直接选择视频文件即可开始转写，适合大量口播、课程和访谈视频整理。

2. 支持批量处理 #

如果你有一整套课程视频、一批采访录像或一组短视频素材，可以直接使用文件夹模式批量生成字幕，大幅提高效率。

3. 输出格式很丰富 #

除了常见的 SRT、VTT、ASS 之外，还支持 TXT、LRC、JSON、MD，这使它不仅适合字幕制作，也适合文本提取、知识整理和内容归档。

4. 语言支持范围广 #

当前面板内置了非常多的语言选项，包括中文、英文、日文、韩文、法文、德文、西班牙文、俄文等，也支持自动识别，适合多语言内容场景。

主要参数说明 #

模型文件 #

这个功能需要用户先提供在视频小能手官方网站下载的模型文件。模型越大，通常识别准确率越高，但耗时和资源占用也可能更高。

面板中也给出了建议：

中文可优先选择简体中文或繁体中文
如果更重视准确率，可优先使用 small、medium 或 large-v3

输入模式 #

支持：

单文件模式
文件夹批量模式

如果只是测试效果，建议先用单文件；如果准备整批生成字幕，可以再使用文件夹模式。

转写语言 #

你可以选择自动识别，也可以手动指定语言。对于中文内容，通常直接指定简体中文或繁体中文会更稳妥。

输出格式 #

当前支持：

TXT
SRT
VTT
ASS
LRC
JSON
MD

常见使用建议：

TXT：适合纯文本整理
SRT：最常见字幕格式
VTT：适合网页字幕
ASS：适合后续样式编辑
LRC：适合歌词或音频字幕
JSON：适合程序处理
MD：适合文稿和帮助文档整理

使用流程 #

下载模型文件 # #

官方下载百度网盘下载 Google Drive下载

模型文件	文件大小	运行速度	识别精准度	内存占用	推荐用途
`ggml-tiny.bin`	77 MB	非常快	较低	最低	老旧电脑、低配置设备、快速测试
`ggml-base.bin`	148 MB	很快	一般	较低	日常简单语音识别
`ggml-small.bin`	488 MB	快	较高	中等	⭐ 推荐优先使用，速度与准确率平衡最佳
`ggml-medium.bin`	1.53 GB	较慢	高	较高	对识别质量要求较高
`ggml-large-v3.bin`	3.10 GB	慢	非常高	很高	专业场景、长音频、高精准需求

第一步：准备模型文件 #

先下载并准备好模型文件，然后在面板里选择对应模型。

第二步：选择输入视频 #

可以选择：

单个视频文件
一个包含多个视频的文件夹

第三步：选择输出目录 #

设置字幕文件保存位置。建议根据项目建立独立文件夹，避免和原视频混在一起。

第四步：设置语言和输出格式 #

根据视频内容选择：

转写语言
输出格式

如果你只是生成普通字幕，优先 SRT；如果你还想拿去做文本整理，也可以同步导出 TXT、MD 或 JSON。

第五步：开始转写 #

点击“开始转写”，等待识别完成。较长视频或较大模型通常会耗时更久。

第六步：检查输出文件 #

完成后打开输出目录，检查：

文本内容是否正确
时间轴是否合理
格式是否符合后续使用需求

使用建议 #

首次使用时，建议先拿一个短视频测试模型和语言设置
中文内容建议优先手动指定中文语言
如果后续要继续做字幕编辑，建议优先导出 SRT 或 ASS
如果要做内容整理、脚本归档或知识提取，可以同步选择 TXT、MD 或 JSON
批量转写前，建议先验证单个样本的识别准确度

适用场景 #

课程视频自动生成字幕
访谈和会议录像转文字
自媒体口播视频字幕整理
直播回放内容提取
视频内容归档和知识整理
多语言视频字幕初稿生成

常见问题 #

视频字幕转和视频加字幕有什么区别？ #

视频字幕是把视频里的语音自动识别成字幕文件；视频加字幕是把已有字幕文件叠加或烧录到视频中。两者属于不同流程。

为什么需要单独选择模型文件？ #

因为识别能力依赖本地模型，不同模型的准确率、速度和资源消耗不同，所以需要用户自己提供。

批量模式适合大量视频吗？ #

适合，但建议先用一两个样本确认模型、语言和输出格式设置都合适，再批量执行。

软件工作方式对应补充 #

从当前工作方式来看，视频转字幕并不是直接把视频丢给模型后立刻得到字幕，而是会先提取音频主流，再做一轮更适合语音识别的预处理，例如高通、低通、降噪、响度标准化、单声道化和 16kHz pcm_s16le 重采样。这样做的目的是尽量提升识别链路的稳定性，尤其对课程视频、口播视频和会议录像更有帮助。

预处理完成后，软件会调用过滤链完成转写，因此这项功能依赖的是本地 .bin 模型，而不是在线接口。对于注重离线处理、隐私和可控性的用户来说，这一点很重要。

输出格式与文本后处理 #

除了直接生成字幕初稿外，当前线程还会根据你选择的格式做二次整理：

TXT：更适合纯文本整理。
SRT：最常见的外挂字幕格式。
VTT：由 SRT 进一步转换得到，更适合网页字幕。
ASS：会把结果转成更适合样式控制的字幕格式。
LRC：会把时间轴转成歌词型文本，更适合音频同步阅读。
JSON：适合程序或系统继续处理。
MD：会整理成更适合文稿、博客或知识归档的 Markdown 结构。

总结 #

视频转字幕功能适合所有需要从视频中自动提取文字和字幕的用户。它不仅支持常见的字幕导出格式，还兼顾了批量转写、多语言识别和文稿整理等场景。对于课程制作、内容归档、视频转文本和字幕初稿生成来说，这是一项非常值得详细介绍的实用功能。

使用教程

软件简介

开发者中心

视频格式与色彩

视频转字幕功能