OCR de Imagen (Reconocimiento de Texto)

Extrae texto de fotos y capturas de pantalla en tu navegador.
Todo local — las imágenes nunca se suben al servidor.

🔒

Sin Subida al Servidor

Las imágenes nunca salen de tu dispositivo

🌐

OCR Multiidioma

5 idiomas incluido el japonés

⚡

Preprocesamiento

Mejora la precisión con contraste y binarización

Totalmente Local — Las imágenes nunca se envían a ningún servidor

🔍

Arrastra y suelta una imagen
o haz clic para seleccionar

JPEG, PNG, WebP, BMP (máx. 30MB)

📋 Pega desde el portapapeles con Ctrl+V

acerca de,

Acerca de

La herramienta "OCR de Imagen (Reconocimiento de Texto)" es una herramienta gratuita en línea que lee el texto de fotos y capturas de pantalla en tu navegador y lo extrae como texto editable.

Utiliza Tesseract.js (versión WebAssembly), que ejecuta el motor OCR Tesseract de Google directamente en el navegador. Compatible con 5 idiomas: japonés, inglés, chino simplificado, coreano y español.

Todo el procesamiento se ejecuta en un Web Worker dentro de tu navegador — ningún dato de imagen se envía a ningún servidor. Usa las funciones de preprocesamiento (contraste, escala de grises, binarización) para mejorar la precisión en imágenes de baja calidad.

cómo usar,

Cómo Usar

STEP 1

Subir una Imagen

Arrastra y suelta, haz clic para seleccionar o pega desde el portapapeles (Ctrl+V). Selecciona los idiomas de destino antes de procesar.

STEP 2

Ajustar Preprocesamiento

En la pestaña "Preprocesamiento", ajusta el contraste, el umbral de binarización y la escala de grises para mejorar la precisión. Luego haz clic en "Extraer Texto".

STEP 3

Copiar o Guardar

El texto extraído aparece en la pestaña "Resultado". Edítalo si es necesario, luego cópialo al portapapeles o descárgalo como archivo TXT UTF-8.

glosario,

Glosario

OCR (Reconocimiento Óptico de Caracteres): Tecnología que reconoce automáticamente el texto en imágenes o documentos escaneados y lo convierte en texto digital editable. Los motores OCR modernos usan deep learning para alta precisión.
Tesseract.js: Biblioteca JavaScript que ejecuta el motor OCR Tesseract de Google en el navegador mediante WebAssembly. Compatible con más de 100 idiomas. No requiere servidor.
Binarización: Conversión de cada píxel a blanco o negro según un valor umbral. Aplicar binarización a imágenes con bajo contraste entre texto y fondo puede mejorar significativamente la precisión del OCR.
Puntuación de Confianza: Métrica del 0 al 100% que indica qué tan seguro está el motor OCR sobre su resultado. Se recomienda revisión manual cuando está por debajo del 70%.
WebAssembly (WASM): Formato de instrucción binaria que permite ejecutar código nativo a velocidad casi nativa en el navegador. Permite que tareas computacionalmente intensas como el OCR se ejecuten en el lado del cliente.

faq,

FAQ

Q.¿Mis imágenes se suben a algún servidor?: No. Tesseract.js (WebAssembly) se ejecuta completamente dentro del navegador. No se transmiten datos de imagen. Solo el modelo de idioma se descarga desde una CDN en el primer uso.
Q.¿Qué precisión tiene el reconocimiento de texto en japonés?: Para texto impreso claro (tipografía), se espera una precisión del 85-95%. El preprocesamiento (contraste, binarización) puede mejorar esto. Los caracteres escritos a mano tienen una precisión significativamente menor.
Q.¿Por qué la primera carga es lenta?: El modelo de idioma (aprox. 15MB para japonés) se descarga desde una CDN en el primer uso. Después se almacena en caché en el navegador, por lo que los usos posteriores cargan instantáneamente.
Q.¿Puede reconocer escritura a mano?: Tesseract.js está optimizado para texto impreso. La precisión del reconocimiento de escritura a mano es limitada. Para OCR de alta precisión en manuscritos, considera Google Docs u otros servicios especializados.
Q.¿Puedo extraer texto directamente de un PDF?: Los PDFs no son compatibles. Toma una captura de pantalla o exporta la página del PDF como imagen PNG/JPEG primero y luego usa esta herramienta.