Voz a Texto con IA local

Transcribe archivos con IA sin salir de la página.
100% privado en tu ordenador o movil.

🔒

IA Local

El audio nunca viaja por internet

🌐

Multilenguaje

Usa el motor de Whisper

⏱️

Marcas de tiempo

Para encontrar donde se dijo qué

🤖

Se requiere descarga del modelo de IA

Para ejecutar el reconocimiento de voz localmente en su navegador, esta herramienta necesita descargar un modelo de IA (Whisper) de aproximadamente 40-70 MB en la primera ejecución. Recomendamos usar una conexión Wi-Fi. Ningún dato de audio se enviará a ningún servidor.

about,

Acerca de

Una genial herramienta que usa el modelo de OpenAI's Whisper directamente en el navegador. Al aislar todo, puede proveer del 100% privacidad, porque la voz nunca es interceptada por servidores externos. Ideal para transcribir terapias o juntas laborales bajo NDA.

how to,

Cómo usar

Arrastrar Audio

Suelta el archivo de audio aquí.

Reconocimiento IA

Whisper IA transformará la voz a texto dentro de tu navegador de manera privada.

glosario,

Glosario

Reconocimiento de Voz: Tecnología que convierte la entrada de audio en texto en tiempo real. Esta herramienta utiliza el modelo de IA Whisper a través de Transformers.js, ejecutándose completamente dentro de tu navegador.
Whisper: Modelo de reconocimiento automático de voz (ASR) de código abierto de OpenAI. Admite docenas de idiomas y ofrece alta precisión, especialmente para español, inglés y japonés.
Transformers.js: Biblioteca JavaScript de Hugging Face que permite ejecutar modelos de IA basados en transformers (como Whisper) directamente en el navegador usando WebAssembly, sin ningún servidor.
Marcas de Tiempo: Marcadores en la transcripción que indican cuándo ocurrió cada segmento del habla. Útiles para navegar por las grabaciones y crear actas de reuniones.
Resultados Provisionales: Texto de reconocimiento provisional mostrado en tiempo real mientras se habla. Se reemplaza por el resultado de reconocimiento final una vez que el enunciado está completo.
Detección de Actividad de Voz (VAD): Tecnología que detecta automáticamente segmentos de voz humana dentro de una señal de audio. Permite una transcripción más eficiente al omitir secciones en silencio.
Portapapeles: Función a nivel del sistema operativo para almacenar temporalmente texto o imágenes. Usa el botón de copiar para copiar el texto reconocido al portapapeles y pegarlo en cualquier otra aplicación.

faq,

FAQ

Q.¿Mi audio grabado se envía a un servidor?: No. Whisper AI se ejecuta completamente dentro de tu navegador a través de WebAssembly. Tus datos de audio nunca salen de tu dispositivo. Esta herramienta no almacena ni recopila ninguno de tus datos.
Q.¿Qué navegadores son compatibles?: Google Chrome y Microsoft Edge funcionan mejor. Firefox y Safari tienen soporte limitado para subprocesos múltiples de WebAssembly, lo que puede afectar el rendimiento de carga del modelo.
Q.¿Puedo transcribir idiomas distintos del español?: Sí. Whisper admite docenas de idiomas, incluidos inglés, chino, coreano y japonés. Simplemente selecciona tu idioma en el menú de idiomas.
Q.¿Por qué la primera carga es lenta?: Los archivos del modelo Whisper (~40–70MB según el tamaño) se descargan de una CDN en el primer uso. Después se almacenan en caché del navegador para cargas posteriores casi instantáneas.
Q.¿Cómo puedo mejorar la precisión del reconocimiento?: Usa un entorno silencioso, habla claramente cerca del micrófono y usa un micrófono externo si es posible. Seleccionar el idioma correcto también mejora significativamente los resultados.
Q.¿Puedo guardar el resultado de la transcripción como archivo?: Sí. Usa el botón Descargar para guardar la transcripción como archivo .txt, o usa el botón Copiar para copiarlo al portapapeles y pegarlo en cualquier otra aplicación.
Q.¿Puedo usarlo en un smartphone?: Chrome en Android es compatible. iOS Safari tiene soporte limitado para subprocesos múltiples de WebAssembly, lo que puede restringir el rendimiento de carga del modelo y la transcripción.