功能详情

本地 AI 字幕、语音转文字和批量导出

了解 Voice2Sub 如何用桌面 AI 语音识别、批量流程、CUDA/Metal 支持和可选英文字幕输出，把本地视频和音频文件变成字幕、转写稿和可交付文本文件。

下载 Voice2Sub 阅读更新日志

桌面优先制作流程

文件留在本地，处理更灵活

Voice2Sub 面向真实工作中的源文件：手机视频、相机导出、录屏、播客、采访、会议和课程。处理在桌面应用中完成，而不是浏览器上传队列。

支持多种视频和音频格式

导入 MP4、MOV、MKV、AVI、WebM、MP3、WAV、M4A、AAC、FLAC、OGG 以及更多常见文件。实际兼容性仍可能受编码影响。

批量生成字幕

添加多个视频或音频文件，并在一次运行中生成字幕或转写输出，适合课程、播客、客户文件夹和发布队列。

处理视频中的音轨

可以直接从视频文件开始。Voice2Sub 使用视频里的音轨，因此通常不需要先手动提取音频。

语音转文字与 AI 转写

把本地视频、音频、会议、课程或录音转换成可审阅的转写文本和字幕输出。

最多 99 种识别语言

为多语言课程、采访、创作者短片和内部材料准备人工检查前的字幕或文字稿。

检查后导出

检查并修正结果，然后导出字幕、文字稿或普通文本，用于视频剪辑、字幕、笔记或文档。

可选英文字幕输出

生成仅英文字幕文件，或保留原始字幕输出并额外生成独立英文文件，便于审阅、发布或交付。

字幕编辑器和文件校对

校对已生成字幕，打开支持的字幕文件，借助音频预览微调时间，并将修订文件单独导出。

按硬件选择版本

使用 Windows x64、macOS Universal 和 Linux x64 版本；支持的 NVIDIA GPU 系统可用 CUDA，支持的 Apple Silicon Mac 可用 Metal。

Apple Silicon 的 Metal 加速

Voice2Sub 在 macOS 上使用 Metal 发挥 Apple Silicon 性能，为 Mac 用户提供快速、原生的本地 AI 字幕生成和转写流程。

媒体兼容性

先导入视频和音频，只有特殊文件才转换

Voice2Sub 面向创作者制作流程设计，源文件可能来自相机、手机、录屏、播客、会议和剪辑工具。广泛的格式支持减少了生成字幕或文字稿之前的转换需求。

视频导入

MP4、MOV、MKV、AVI、WebM 以及更多常见容器。
来自日常工具的横屏、竖屏和录屏片段。
应用可以使用视频文件中的音轨，因此通常不需要手动提取音频。

音频导入

MP3、WAV、M4A、AAC、FLAC、OGG 和其他常见音频文件。
播客、采访、语音备忘、讲座和会议录音。
录音较长、音量偏低或噪声较多时，可以按需先处理音频。

生成路径

Whisper AI 语音识别在你的电脑本地运行。
支持最多 99 种识别语言，用于多语言字幕和文字稿。
常规字幕或文字稿创建不需要上传到网站。

检查和导出

字幕编辑器和文件校对
检查后导出字幕，用于剪辑和发布。
导出文字稿或文本，用于笔记、搜索、文档和总结。
把结果作为可检查的起点；发布前请务必检查。

流程

制作流程内部

Voice2Sub 让非技术用户也能看懂流程，同时给剪辑师一个从源文件到输出的可预测顺序。

01
导入视频或音频文件
从电脑选择源文件。来自相机、手机、录屏、播客和会议的常见格式都属于预期制作流程。
02
需要时准备音频
清晰录音使用标准流程。音频较长、音量偏低、噪声较多或音量不均时，可以按需先处理音频。
03
本地生成 AI 字幕或文字稿
Voice2Sub 按需准备音频，并在电脑上运行语音识别，生成可检查的字幕或文字稿。
04
校对、编辑并导出
检查字幕文本，必要时调整时间，然后导出 SRT、VTT、TXT、LRC 或 CSV 文件。

使用场景

适合日常工作的哪些地方

当录制的人声需要变成可阅读、可搜索或便于交接的内容时，Voice2Sub 最有用。

用于 YouTube、Shorts、Reels 和 TikTok 的 AI 字幕
为视频或录音文件夹批量生成字幕
课程、教程和讲座的文字稿
播客笔记和采访文字稿
会议笔记和内部检查材料
多语言字幕工作的前期准备
私密录音的离线处理
把录制内容变成文章或文档
发布或交接前准备文字输出

桌面媒体工作流

一个应用完成字幕、转写和语音转文字

当你需要本地字幕生成、AI 转写、视频/音频转文字、批量处理、最多 99 种识别语言、字幕校对、可交付文件以及可选英文字幕输出时，可以使用 Voice2Sub。

面向本地视频、音频和录音的语音转文字与 AI 转写。
为多个视频或音频文件批量生成字幕。
最多 99 种识别语言可供选择。

需要时可输出仅英文字幕，或独立的 Original + English 字幕文件。
导出 SRT、VTT、TXT、LRC 和 CSV，用于字幕、转写和审阅流程。
在应用内校对已生成结果或受支持的字幕文件，调整时间并将编辑后的文件单独导出。
支持的 Windows/Linux 系统可用 CUDA，支持的 Apple Silicon Mac 可用 Metal。