字幕文件（SRT / VTT）怎么用？

SRT 和 VTT 都是带时间戳的标准字幕格式。SRT 几乎所有剪辑软件（剪映、Premiere、DaVinci）都认；VTT 是网页字幕的标准格式。转完直接下载，导入到你的剪辑工程或视频播放器里即可，时间轴已经对好。

Processed in your browser · no upload

语音转文字 / 音视频转字幕（在线、不上传）

把音频或视频转成文字，并导出带时间戳的 SRT / VTT 字幕，本地完成不上传。

把一段采访录音、一节网课、一条短视频的话音转成文字，或者给视频配上字幕——语音转文字就是干这个的。转换猫用 OpenAI 的 Whisper 模型，直接在你浏览器里把音/视频里的语音转成文字，并能导出带时间戳的 SRT 和 VTT 字幕文件，直接拖进剪辑软件就能用。

Drag & drop or click to select a fileFiles are processed locally in your browser, never uploaded

模型

仅英语，约 40MB —— 又快又稳的默认项。

首次会下载 Whisper 模型（几十 MB），之后缓存在你浏览器里，再用即时。音频在你设备上解码与转写，文件从不上传。

语音转文字 / 音视频转字幕

1拖入或选择一个音频或视频文件（MP3 / WAV / M4A / MP4 / MOV 等）。
2选模型：默认「英语（快）」最稳；要转其它语言切到「多语言」。
3点「开始转写」。首次会下载 Whisper 模型（几十 MB，之后缓存），随后在本地解码并转写。
4查看转录文本，按需下载 .txt / .srt / .vtt（字幕带时间戳）。文件从没上传过。

语音转文字 / 音视频转字幕

文件不出本机：音视频在你浏览器里解码、转写，采访、会议、未发布素材都不经过任何服务器。
直接出字幕：导出带时间戳的 SRT / VTT，拖进剪映、Premiere、YouTube 就能用，不用自己对轴。
免费、不限次、无水印：转一小时和转一分钟一样，没有按分钟计费、没有时长上限。

Frequently asked questions

默认的英语模型对清晰英语口语相当准。要转中文或其它语言，请切到「多语言」模型——它能处理多种语言，但下载更大、速度更慢。无论哪种，背景噪音大、口音重或多人抢话时准确率都会下降，建议转完通读一遍再用。

SRT 和 VTT 都是带时间戳的标准字幕格式。SRT 几乎所有剪辑软件（剪映、Premiere、DaVinci）都认；VTT 是网页 <track> 字幕的标准格式。转完直接下载，导入到你的剪辑工程或视频播放器里即可，时间轴已经对好。

Whisper 需要 16kHz 单声道的音频输入，所以转换猫会先在浏览器里把你的文件解码并重采样到这个规格，再送进模型——这一步对时间戳的准确性很关键。这也意味着视频文件没问题：它只取里面的音轨。

不会上传——音视频在你这台设备的浏览器里处理，文件不离开本机。没有硬性时长限制，但很长的文件（比如一两个小时）会更吃内存、更慢，浏览器内存也有上限；超长素材建议先切成几段分别转写。

Updated 2026-06-09 · ConvertMeow team

Sources, review and limits

Last verified

2026-06-17

Author

ConvertMeow editorial desk

Reviewer

Browser media tooling review

Primary sources

Browser File, Canvas, Audio and Video APIs
Open-source client-side conversion libraries where a format needs a parser or encoder
User-provided files processed in the browser

Conversion output depends on the original file, browser support and codec limits. Use the exported file for convenience, and verify mission-critical media in your own workflow.