
Voz a texto y subtítulos (en el navegador, sin subir nada)
Convierte audio o vídeo en texto y exporta subtítulos SRT / VTT con marcas de tiempo: todo en local, nunca se sube.
Convierte la grabación de una entrevista, una clase en línea o la voz de un clip corto en texto, o ponle subtítulos a un vídeo.
模型
仅英语,约 40MB —— 又快又稳的默认项。
首次会下载 Whisper 模型(几十 MB),之后缓存在你浏览器里,再用即时。音频在你设备上解码与转写,文件从不上传。
¿Cómo transcribir / subtítulos?
- 1Arrastra o selecciona un archivo de audio o vídeo (MP3 / WAV / M4A / MP4 / MOV y más).
- 2Elige un modelo: el de inglés por defecto (rápido) es el más fiable; cambia a Multilingüe para otros idiomas.
- 3Pulsa Transcribir. La primera vez se descarga el modelo Whisper (decenas de MB, luego en caché), y luego decodifica y transcribe en local.
- 4Lee la transcripción y descarga .txt / .srt / .vtt (los subtítulos llevan marcas de tiempo). El archivo nunca se subió.
¿Por qué usar ConvertMeow para transcribir / subtítulos?
- El archivo se queda en tu equipo: el audio/vídeo se decodifica y transcribe en tu navegador, así que entrevistas, reuniones y material sin publicar nunca tocan un servidor.
- Subtítulos listos de fábrica: exporta SRT / VTT con marcas de tiempo listos para CapCut, Premiere o YouTube, sin sincronizar a mano.
- Gratis, sin límites, sin marca de agua: una hora se transcribe como un minuto, sin cobro por minuto y sin tope de duración.
Preguntas frecuentes
El modelo de inglés por defecto es bastante preciso con voz clara en inglés. Para otros idiomas, cambia al modelo Multilingüe: maneja muchos idiomas, pero descarga más y va más lento. En cualquier caso, mucho ruido de fondo, acentos fuertes o gente hablando a la vez bajan la precisión, así que repasa el resultado antes de fiarte de él.
SRT y VTT son formatos estándar de subtítulos con marcas de tiempo. SRT lo reconocen prácticamente todos los editores (CapCut, Premiere, DaVinci); VTT es el estándar para subtítulos web con <track>. Solo descárgalo e impórtalo en tu proyecto de edición o reproductor: el tiempo ya está alineado.
Whisper necesita audio mono a 16kHz, así que ConvertMeow primero decodifica y remuestrea tu archivo a esa especificación en el navegador antes de pasárselo al modelo, un paso esencial para que las marcas de tiempo sean precisas. También significa que los archivos de vídeo van bien: simplemente toma la pista de audio.
Sin subidas: el audio/vídeo se procesa en tu navegador, en tu dispositivo, y nunca sale de tu equipo. No hay un límite duro de duración, pero los archivos muy largos (una o dos horas) usan más memoria y van más lentos, y el navegador tiene un techo de memoria; para material muy largo, divídelo en tramos y transcribe cada uno.
Actualizado · Equipo de ConvertMeow
Sources, review and limits
Last verified
2026-06-17
Author
ConvertMeow editorial desk
Reviewer
Browser media tooling review
Primary sources
- Browser File, Canvas, Audio and Video APIs
- Open-source client-side conversion libraries where a format needs a parser or encoder
- User-provided files processed in the browser
Conversion output depends on the original file, browser support and codec limits. Use the exported file for convenience, and verify mission-critical media in your own workflow.