Skip to main content
Podcast microphone and audio workstation for transcription
Processed in your browser · no upload

语音转文字 / 音视频转字幕(在线、不上传)

把音频或视频转成文字,并导出带时间戳的 SRT / VTT 字幕,本地完成不上传。

把一段采访录音、一节网课、一条短视频的话音转成文字,或者给视频配上字幕——语音转文字就是干这个的。转换猫用 OpenAI 的 Whisper 模型,直接在你浏览器里把音/视频里的语音转成文字,并能导出带时间戳的 SRT 和 VTT 字幕文件,直接拖进剪辑软件就能用。

Drag & drop or click to select a fileFiles are processed locally in your browser, never uploaded

模型

仅英语,约 40MB —— 又快又稳的默认项。

首次会下载 Whisper 模型(几十 MB),之后缓存在你浏览器里,再用即时。音频在你设备上解码与转写,文件从不上传。

语音转文字 / 音视频转字幕

  1. 1拖入或选择一个音频或视频文件(MP3 / WAV / M4A / MP4 / MOV 等)。
  2. 2选模型:默认「英语(快)」最稳;要转其它语言切到「多语言」。
  3. 3点「开始转写」。首次会下载 Whisper 模型(几十 MB,之后缓存),随后在本地解码并转写。
  4. 4查看转录文本,按需下载 .txt / .srt / .vtt(字幕带时间戳)。文件从没上传过。

语音转文字 / 音视频转字幕

  • 文件不出本机:音视频在你浏览器里解码、转写,采访、会议、未发布素材都不经过任何服务器。
  • 直接出字幕:导出带时间戳的 SRT / VTT,拖进剪映、Premiere、YouTube 就能用,不用自己对轴。
  • 免费、不限次、无水印:转一小时和转一分钟一样,没有按分钟计费、没有时长上限。

Frequently asked questions

默认的英语模型对清晰英语口语相当准。要转中文或其它语言,请切到「多语言」模型——它能处理多种语言,但下载更大、速度更慢。无论哪种,背景噪音大、口音重或多人抢话时准确率都会下降,建议转完通读一遍再用。

SRT 和 VTT 都是带时间戳的标准字幕格式。SRT 几乎所有剪辑软件(剪映、Premiere、DaVinci)都认;VTT 是网页 <track> 字幕的标准格式。转完直接下载,导入到你的剪辑工程或视频播放器里即可,时间轴已经对好。

Whisper 需要 16kHz 单声道的音频输入,所以转换猫会先在浏览器里把你的文件解码并重采样到这个规格,再送进模型——这一步对时间戳的准确性很关键。这也意味着视频文件没问题:它只取里面的音轨。

不会上传——音视频在你这台设备的浏览器里处理,文件不离开本机。没有硬性时长限制,但很长的文件(比如一两个小时)会更吃内存、更慢,浏览器内存也有上限;超长素材建议先切成几段分别转写。

Updated · ConvertMeow team

Sources, review and limits

Last verified

2026-06-17

Author

ConvertMeow editorial desk

Reviewer

Browser media tooling review

Primary sources

  • Browser File, Canvas, Audio and Video APIs
  • Open-source client-side conversion libraries where a format needs a parser or encoder
  • User-provided files processed in the browser

Conversion output depends on the original file, browser support and codec limits. Use the exported file for convenience, and verify mission-critical media in your own workflow.