画像OCR(文字認識)ツール
写真やスクリーンショットから文字を読み取り、テキストに変換。
サーバー送信なし、すべてブラウザ内で安全に処理。
画像をドラッグ&ドロップ
またはクリックして選択
JPEG・PNG・WebP・BMP対応(最大30MB)
📋 Ctrl+V でクリップボードから貼り付け可能
概要
「画像OCR(文字認識)ツール」は、写真やスクリーンショットに写ったテキストをブラウザ内で読み取り、編集可能なテキストとして抽出できる無料のオンラインツールです。
OCR(光学文字認識)エンジンとしてTesseract.js(WebAssembly版)を採用。このエンジンはGoogleが開発した世界最高水準のOCRエンジンをWebブラウザ上で動作させたもので、日本語・英語・中国語(簡体字)・韓国語・スペイン語の5言語に対応しています。
すべての処理はブラウザ内のWeb Worker上で行われるため、画像データがサーバーに送信されることは一切ありません。コントラスト強調・グレースケール変換・二値化などの前処理を組み合わせることで、低品質な画像でも認識精度を向上させることができます。
使い方
画像をアップロード
文字を読み取りたい画像をドラッグ&ドロップ、クリックで選択、またはCtrl+Vでクリップボードから貼り付けます。認識したい言語を事前に選択しておいてください。
前処理で精度向上
「前処理」タブでコントラスト・二値化・グレースケールを調整すると認識精度が向上します。調整後「文字を読み取る」ボタンを押します。文字が鮮明な場合は調整不要です。
テキストをコピー・保存
「認識結果」タブに抽出されたテキストが表示されます。編集も可能。コピーボタンでクリップボードにコピーするか、TXTファイルとしてダウンロードできます。
用語集
- OCR(光学文字認識、Optical Character Recognition)
- 画像やスキャンされた文書に含まれるテキストを自動的に認識し、編集可能なデジタルテキストに変換する技術。近年はディープラーニングを活用した高精度のOCRエンジンが普及している。
- Tesseract.js(テッセラクト)
- Googleが開発したオープンソースOCRエンジン「Tesseract」をWebAssemblyでブラウザ上で動作させたJavaScriptライブラリ。100以上の言語モデルに対応し、サーバー不要でOCR処理を実行できる。
- WebAssembly(WASM)
- ブラウザ上でC/C++/Rustなどで書かれたネイティブコードを実行するための技術。JavaScriptより高速な処理が可能で、OCRのような計算集約的な処理のブラウザ内実行を実現する。
- 二値化(Binarization)
- 画像の各ピクセルを白か黒の2値に変換する処理。グレースケール値が閾値以上なら白、未満なら黒にする。背景と文字のコントラストが低い画像に適用すると、OCR精度が大幅に向上することがある。
- 信頼度(Confidence Score)
- OCRエンジンが各文字をどの程度の確信度で認識したかを0〜100%で表す指標。値が高いほど認識結果の信頼性が高い。70%未満の場合は手動での確認・修正を推奨。
FAQ
- Q.画像がサーバーにアップロードされることはありますか?
- いいえ。Tesseract.js(WebAssembly)がブラウザ内で動作するため、画像データがネットワーク上に送信されることはありません。ただし、言語認識モデルの初回ダウンロード時のみCDN通信が発生します。
- Q.日本語の認識精度はどの程度ですか?
- 明瞭な印刷テキスト(活字)であれば85〜95%程度の精度が期待できます。前処理(コントラスト強調・二値化)を活用することで精度を向上させることができます。手書き文字の認識精度は限定的です。
- Q.初回の読み込みが遅いのはなぜ?
- 初回利用時に言語認識モデル(日本語の場合 約15MB)をCDNからダウンロードするためです。ダウンロード後はブラウザにキャッシュされるため、2回目以降はすぐに利用できます。
- Q.手書き文字の認識はできますか?
- Tesseract.jsは主に印刷テキスト向けに最適化されており、手書き文字の認識精度は低めです。手書き文字の高精度OCRには、Google Docs等の専用サービスをお使いください。
- Q.PDFから直接テキストを抽出できますか?
- PDFは対応していません。PDFをスクリーンショットやPNG画像として保存してからご利用ください。
活用シーン
書類・報告書のデジタル化
スキャンした書類や契約書の文字を抽出してデジタルテキスト化。検索可能なデータとして保存・管理。
看板・メニューの文字読み取り
旅行先で撮影した看板や外国語メニューの文字を抽出して翻訳アプリに貼り付け。
スクリーンショットからコピペ
コピー不可のPDFや動画スクリーンショット、エラーメッセージの画像から文字を抽出。
教科書・参考書のテキスト化
教科書や参考書のページ写真から文字を抽出して学習ノートに転記。効率的な学習をサポート。
名刺のデジタル化
名刺写真から氏名・会社名・連絡先を抽出してアドレス帳に登録。名刺管理を効率化。
研究・アーカイブ作業
古い文献・資料の画像から文字を抽出してデジタルアーカイブを構築。研究・調査の効率化に。