Se procesa en tu navegador · no se sube nada

Voz a texto y subtítulos (en el navegador, sin subir nada)

Convierte audio o vídeo en texto y exporta subtítulos SRT / VTT con marcas de tiempo: todo en local, nunca se sube.

Convierte la grabación de una entrevista, una clase en línea o la voz de un clip corto en texto, o ponle subtítulos a un vídeo.

Arrastra y suelta o haz clic para elegir un archivoLos archivos se procesan en local, en tu navegador, nunca se suben

模型

仅英语，约 40MB —— 又快又稳的默认项。

首次会下载 Whisper 模型（几十 MB），之后缓存在你浏览器里，再用即时。音频在你设备上解码与转写，文件从不上传。

¿Cómo transcribir / subtítulos?

1Arrastra o selecciona un archivo de audio o vídeo (MP3 / WAV / M4A / MP4 / MOV y más).
2Elige un modelo: el de inglés por defecto (rápido) es el más fiable; cambia a Multilingüe para otros idiomas.
3Pulsa Transcribir. La primera vez se descarga el modelo Whisper (decenas de MB, luego en caché), y luego decodifica y transcribe en local.
4Lee la transcripción y descarga .txt / .srt / .vtt (los subtítulos llevan marcas de tiempo). El archivo nunca se subió.

¿Por qué usar ConvertMeow para transcribir / subtítulos?

El archivo se queda en tu equipo: el audio/vídeo se decodifica y transcribe en tu navegador, así que entrevistas, reuniones y material sin publicar nunca tocan un servidor.
Subtítulos listos de fábrica: exporta SRT / VTT con marcas de tiempo listos para CapCut, Premiere o YouTube, sin sincronizar a mano.
Gratis, sin límites, sin marca de agua: una hora se transcribe como un minuto, sin cobro por minuto y sin tope de duración.

Preguntas frecuentes

El modelo de inglés por defecto es bastante preciso con voz clara en inglés. Para otros idiomas, cambia al modelo Multilingüe: maneja muchos idiomas, pero descarga más y va más lento. En cualquier caso, mucho ruido de fondo, acentos fuertes o gente hablando a la vez bajan la precisión, así que repasa el resultado antes de fiarte de él.

SRT y VTT son formatos estándar de subtítulos con marcas de tiempo. SRT lo reconocen prácticamente todos los editores (CapCut, Premiere, DaVinci); VTT es el estándar para subtítulos web con <track>. Solo descárgalo e impórtalo en tu proyecto de edición o reproductor: el tiempo ya está alineado.

Whisper necesita audio mono a 16kHz, así que ConvertMeow primero decodifica y remuestrea tu archivo a esa especificación en el navegador antes de pasárselo al modelo, un paso esencial para que las marcas de tiempo sean precisas. También significa que los archivos de vídeo van bien: simplemente toma la pista de audio.

Sin subidas: el audio/vídeo se procesa en tu navegador, en tu dispositivo, y nunca sale de tu equipo. No hay un límite duro de duración, pero los archivos muy largos (una o dos horas) usan más memoria y van más lentos, y el navegador tiene un techo de memoria; para material muy largo, divídelo en tramos y transcribe cada uno.

Actualizado 2026-06-09 · Equipo de ConvertMeow

Sources, review and limits

Last verified

2026-06-17

Author

ConvertMeow editorial desk

Reviewer

Browser media tooling review

Primary sources

Browser File, Canvas, Audio and Video APIs
Open-source client-side conversion libraries where a format needs a parser or encoder
User-provided files processed in the browser

Conversion output depends on the original file, browser support and codec limits. Use the exported file for convenience, and verify mission-critical media in your own workflow.

¿Cómo transcribir / subtítulos?

1Arrastra o selecciona un archivo de audio o vídeo (MP3 / WAV / M4A / MP4 / MOV y más).

2Elige un modelo: el de inglés por defecto (rápido) es el más fiable; cambia a Multilingüe para otros idiomas.

3Pulsa Transcribir. La primera vez se descarga el modelo Whisper (decenas de MB, luego en caché), y luego decodifica y transcribe en local.

4Lee la transcripción y descarga .txt / .srt / .vtt (los subtítulos llevan marcas de tiempo). El archivo nunca se subió.