
语音转文字 / 音视频转字幕(在线、不上传)
把音频或视频转成文字,并导出带时间戳的 SRT / VTT 字幕,本地完成不上传。
把一段采访录音、一节网课、一条短视频的话音转成文字,或者给视频配上字幕——语音转文字就是干这个的。转换猫用 OpenAI 的 Whisper 模型,直接在你浏览器里把音/视频里的语音转成文字,并能导出带时间戳的 SRT 和 VTT 字幕文件,直接拖进剪辑软件就能用。
模型
仅英语,约 40MB —— 又快又稳的默认项。
首次会下载 Whisper 模型(几十 MB),之后缓存在你浏览器里,再用即时。音频在你设备上解码与转写,文件从不上传。
语音转文字 / 音视频转字幕
- 1拖入或选择一个音频或视频文件(MP3 / WAV / M4A / MP4 / MOV 等)。
- 2选模型:默认「英语(快)」最稳;要转其它语言切到「多语言」。
- 3点「开始转写」。首次会下载 Whisper 模型(几十 MB,之后缓存),随后在本地解码并转写。
- 4查看转录文本,按需下载 .txt / .srt / .vtt(字幕带时间戳)。文件从没上传过。
语音转文字 / 音视频转字幕
- 文件不出本机:音视频在你浏览器里解码、转写,采访、会议、未发布素材都不经过任何服务器。
- 直接出字幕:导出带时间戳的 SRT / VTT,拖进剪映、Premiere、YouTube 就能用,不用自己对轴。
- 免费、不限次、无水印:转一小时和转一分钟一样,没有按分钟计费、没有时长上限。
Frequently asked questions
默认的英语模型对清晰英语口语相当准。要转中文或其它语言,请切到「多语言」模型——它能处理多种语言,但下载更大、速度更慢。无论哪种,背景噪音大、口音重或多人抢话时准确率都会下降,建议转完通读一遍再用。
SRT 和 VTT 都是带时间戳的标准字幕格式。SRT 几乎所有剪辑软件(剪映、Premiere、DaVinci)都认;VTT 是网页 <track> 字幕的标准格式。转完直接下载,导入到你的剪辑工程或视频播放器里即可,时间轴已经对好。
Whisper 需要 16kHz 单声道的音频输入,所以转换猫会先在浏览器里把你的文件解码并重采样到这个规格,再送进模型——这一步对时间戳的准确性很关键。这也意味着视频文件没问题:它只取里面的音轨。
不会上传——音视频在你这台设备的浏览器里处理,文件不离开本机。没有硬性时长限制,但很长的文件(比如一两个小时)会更吃内存、更慢,浏览器内存也有上限;超长素材建议先切成几段分别转写。
Updated · ConvertMeow team
Sources, review and limits
Last verified
2026-06-17
Author
ConvertMeow editorial desk
Reviewer
Browser media tooling review
Primary sources
- Browser File, Canvas, Audio and Video APIs
- Open-source client-side conversion libraries where a format needs a parser or encoder
- User-provided files processed in the browser
Conversion output depends on the original file, browser support and codec limits. Use the exported file for convenience, and verify mission-critical media in your own workflow.