digtools
🔍
image ocr,

Nhận Dạng Chữ Trong Ảnh (OCR)

Trích xuất văn bản từ hình ảnh và ảnh chụp màn hình ngay trên trình duyệt. Không tải ảnh lên máy chủ, hoàn toàn bảo mật và miễn phí.

🔒
Bảo mật 100%
Ảnh không bị gửi đi
🌐
Hỗ trợ đa ngôn ngữ
Tiếng Nhật, Anh, Trung...
Tiền xử lý
Cải thiện độ chính xác
Hoạt động 100% trên trình duyệt — Hình ảnh không bao giờ bị gửi lên máy chủ
Ngôn ngữ:
🔍

Kéo & Thả ảnh vào đây
hoặc click để chọn file

Hỗ trợ JPEG, PNG, WebP, BMP (Tối đa 30MB)

📋 Hoặc dán từ khay nhớ tạm (Ctrl+V)

about,

Giới thiệu

Công cụ "Nhận Dạng Chữ Trong Ảnh (OCR)" là tiện ích trực tuyến miễn phí giúp bạn trích xuất văn bản từ các bức ảnh hoặc ảnh chụp màn hình một cách nhanh chóng ngay trên trình duyệt.

Sử dụng công nghệ lõi Tesseract.js (phiên bản WebAssembly), đưa bộ máy OCR mã nguồn mở mạnh mẽ nhất của Google hoạt động mượt mà trên trình duyệt. Hỗ trợ 5 ngôn ngữ phổ biến gồm tiếng Nhật, tiếng Anh, tiếng Trung giản thể, tiếng Hàn và tiếng Tây Ban Nha.

Mọi quá trình xử lý đều được thực hiện thông qua Web Worker trong môi trường trình duyệt web của bạn — tuyệt đối không có bất kỳ dữ liệu hình ảnh nào bị tải lên máy chủ bên ngoài. Bạn cũng có thể dùng chức năng tiền xử lý ảnh (tăng tương phản, nhị phân hóa, chuyển sang ảnh đa độ xám) để nâng cao độ chính xác khi nhận dạng văn bản trên các bức ảnh có chất lượng thấp.

how to,

Cách dùng

BƯỚC 1

Chọn ảnh

Kéo thả, click chọn file, hoặc dán trực tiếp ảnh từ clipboard (bằng phím tắt Ctrl+V). Hãy nhớ đánh dấu vào các ngôn ngữ văn bản có trong ảnh trước khi bắt đầu.

BƯỚC 2

Tiền xử lý (Nếu cần)

Tại tab "Tiền xử lý", bạn có thể điều chỉnh độ tương phản, ngưỡng nhị phân, hoặc chuyển đổi ảnh sang dải xám đen trắng để giúp văn bản nổi bật hơn, làm tăng độ chính xác của quá trình nhận dạng. Sau đó nhấn "Trích xuất văn bản".

BƯỚC 3

Sao chép hoặc Lưu

Nội dung văn bản được trích xuất sẽ tự động hiện ra tại tab "Kết quả". Bạn có thể kiểm tra, chỉnh sửa nếu cần, rồi sao chép văn bản đó vào clipboard hoặc lưu dưới dạng file .TXT (chuẩn UTF-8).

glossary,

Thuật ngữ

OCR (Optical Character Recognition)
Nhận dạng ký tự quang học. Công nghệ tự động quét và phân tích hình dáng các ký tự trên bức ảnh hay tài liệu scan, từ đó chuyển đổi chúng thành văn bản kỹ thuật số (text) có thể chỉnh sửa.
Tesseract.js
Một thư viện JavaScript mạnh mẽ dùng để chạy bộ máy nhận dạng mã nguồn mở Tesseract OCR do Google phát triển ngay trên trình duyệt nhờ vào WebAssembly. Khả năng hỗ trợ hơn 100 ngôn ngữ khác nhau mà không cần kết nối máy chủ.
WebAssembly (WASM)
Định dạng mã máy dạng nhị phân, cho phép các ngôn ngữ lập trình hiệu suất cao (C/C++/Rust) được chạy trực tiếp trên trình duyệt web với tốc độ gần bằng ứng dụng cài đặt trên máy tính. Nó giúp những tác vụ xử lý tốn tài nguyên như OCR trở nên khả thi ngay trên trình duyệt.
Nhị phân hóa (Binarization)
Quá trình xử lý ảnh biến đổi tất cả các điểm ảnh (pixel) về 2 màu duy nhất là đen và trắng hoàn toàn, dựa vào một giá trị ngưỡng nhất định. Cách này đặc biệt hữu ích để xử lý những hình ảnh bị mờ hoặc có độ tương phản thấp giữa chữ và nền.
Độ tin cậy (Confidence Score)
Điểm số đánh giá từ 0–100% biểu thị mức độ tự tin (chắc chắn) của máy nhận dạng vào kết quả trích xuất được. Chỉ số càng cao, dữ liệu càng chính xác. Bạn nên dành thời gian kiểm tra lại nội dung nếu điểm số này thấp hơn 70%.
faq,

FAQ

Q.Hình ảnh của tôi có bị gửi đến máy chủ không?
Không. Tesseract.js (phiên bản WebAssembly) chạy hoàn toàn trên trình duyệt của bạn. Không có dữ liệu hình ảnh nào được gửi đi. Chỉ có gói ngôn ngữ (language model) được tải xuống từ CDN trong lần sử dụng đầu tiên.
Q.Độ chính xác khi nhận dạng tiếng Nhật là bao nhiêu?
Đối với văn bản in rõ nét, độ chính xác thường đạt 85–95%. Các bước tiền xử lý (chỉnh độ tương phản, nhị phân hóa) có thể cải thiện kết quả. Độ chính xác cho chữ viết tay thấp hơn đáng kể.
Q.Công cụ hỗ trợ những ngôn ngữ nào?
Công cụ hỗ trợ 5 ngôn ngữ: tiếng Nhật, tiếng Anh, tiếng Trung giản thể, tiếng Hàn và tiếng Tây Ban Nha. Bạn cũng có thể chọn nhận dạng đồng thời nhiều ngôn ngữ cùng lúc.
Q.Tại sao lần chạy đầu tiên lại mất nhiều thời gian?
Vì gói ngôn ngữ (khoảng 15MB đối với tiếng Nhật) cần được tải xuống từ CDN. Sau đó, dữ liệu sẽ được lưu trữ (cache) ngay trong trình duyệt của bạn, nên các lần sử dụng tiếp theo sẽ diễn ra tức thì.
Q.Có thể nhận dạng chữ viết tay không?
Tesseract.js được tối ưu hóa cho văn bản đánh máy/in ấn. Khả năng nhận dạng chữ viết tay của công cụ này bị hạn chế. Để nhận dạng chữ viết tay với độ chính xác cao, bạn nên dùng Google Docs hoặc các dịch vụ chuyên dụng.
Q.Tôi có thể trích xuất văn bản trực tiếp từ tệp PDF không?
Tệp PDF không được hỗ trợ. Bạn hãy chụp màn hình hoặc xuất trang PDF dưới dạng hình ảnh PNG/JPEG trước, sau đó dùng công cụ này để trích xuất.
use cases,

Ứng dụng

📄

Số hóa tài liệu

Dễ dàng trích xuất nội dung từ các hợp đồng, báo cáo dạng ảnh scan để biến chúng thành văn bản số lưu trữ và dễ dàng tìm kiếm.

📸

Dịch biển báo, menu khi du lịch

Chụp ảnh biển báo nước ngoài hoặc thực đơn nhà hàng, trích xuất văn bản, rồi dán vào các ứng dụng dịch thuật tiện lợi.

💻

Lấy chữ từ ảnh chụp màn hình

Lấy đoạn text từ các tệp PDF đã bị khóa copy, phụ đề trong video, hộp thoại báo lỗi, hoặc những trang web không cho phép bôi đen copy.

🎓

Ghi chú học tập

Chụp ảnh trang sách giáo khoa, vở ghi chép, tài liệu giấy và trích xuất chữ để đưa vào các phần mềm quản lý ghi chú kỹ thuật số của bạn.

🏢

Số hóa danh thiếp (Business Card)

Trích xuất nhanh họ tên, chức vụ, tên công ty và các thông tin liên lạc từ ảnh chụp danh thiếp để lưu vào sổ địa chỉ điện thoại.

🔬

Nghiên cứu & Lưu trữ

Scan và trích xuất nội dung từ các trang sách cổ, tài liệu nghiên cứu cũ không có bản mềm để xây dựng thư viện lưu trữ thông tin điện tử.

Tất cả danh mục

Gửi phản hồi

Vui lòng cho chúng tôi biết suy nghĩ của bạn để giúp chúng tôi cải thiện công cụ.

Tuyên bố miễn trách nhiệm

Các công cụ được cung cấp trên trang web này hoàn toàn miễn phí, nhưng vui lòng sử dụng theo rủi ro của riêng bạn. Chúng tôi không đảm bảo về độ chính xác, đầy đủ hoặc an toàn của bất kỳ kết quả tính toán, kết quả chuyển đổi hoặc dữ liệu được tạo ra nào. Xin lưu ý rằng người vận hành không chịu trách nhiệm về bất kỳ thiệt hại hoặc sự cố nào gây ra bởi việc sử dụng các công cụ này. Hầu hết các công cụ xử lý tệp và tính toán ngay trong trình duyệt của bạn, nghĩa là dữ liệu bạn nhập không được gửi hoặc lưu trữ trên máy chủ của chúng tôi.