文字化け復元・エンコーディング変換ツール
文字化け(Mojibake)を瞬時に解読・修復する
ブラウザ完結型のテキストコンバータ。
復元するテキスト
文字化けが直ったら、次はこちらのツールもどうぞ
文字化け復元ツールの概要
本ツールは、文字化け(Mojibake)して読めなくなってしまったテキストデータを貼り付けるだけで、自動的に元の正しい日本語テキストに復元する無料オンラインツールです。WindowsやMacなどの異なるOS間でファイルをやり取りした際や、古いシステムからデータを抽出した際に発生するテキストの文字化けトラブルを瞬時に解決します。
UTF-8、Shift_JIS(SJIS / CP932)、EUC-JP、ISO-2022-JP 間のすべてのエンコーディング変換パターンを一括で自動検証・判定し、最も自然な日本語として意味が通じる結果をご提示します。手動で一つずつ文字コードを推測して変換を試す手間が省けます。
また、すべての復元処理はご利用の端末(パソコンやスマートフォンのブラウザ)の内部でのみ実行されます。入力された機密データや顧客情報などが外部のサーバーに送信・保存されることは一切ありません。ソフトウェアのインストールや会員登録、ログインといった煩わしい手続きも不要で、安全かつプライバシーを保ったまま安心して業務にご利用いただけます。
なぜ文字化けが起きる?主な原因と仕組み
文字コード(エンコーディング)の不一致が原因
コンピューター上では、すべてのテキストデータは「0と1の数字の羅列(バイト列)」として保存されています。この数字の羅列を、人間が読める「文字」に変換するためのルール表が「文字コード(文字エンコーディング)」です。
例えば、同じ「あ」という文字でも、UTF-8というルール表と、Shift_JISというルール表では、割り当てられている数字が異なります。送信者が「Shift_JIS」のルールで保存したデータを、受信者が誤って「UTF-8」のルールで読み込んでしまうと、全く違う文字として画面に表示されてしまいます。これが文字化け(Mojibake)の正体です。
代表的な文字化けの発生パターン
- UTF-8 を Shift_JIS で誤読した文字化け:
Web上で最もよく見られる文字化けです。「繧ゅ§縺ー縺代」のように、「繧」「縺」「繝」といった画数の多い見慣れない漢字や記号が連続して表示されるのが特徴です。Macで作成したファイルをWindowsの古いソフトで開いた際などに頻発します。 - Shift_JIS を UTF-8 で誤読した文字化け:
文字の大部分が「(黒いダイヤにハテナ)」や「?」といった代替文字(Replacement Character)に置き換わってしまう現象です。代替文字に置き換わって保存されてしまった場合、元のバイトデータが消失しているため、完全な復元が困難になることがあります。
文字化けの直し方・使い方
文字化けテキストを入力
解読したい文字化けした文字列を上部の入力エリアに貼り付けます。文字エンコーディングが破損して開けなくなったテキストファイル(.txt, .csv等)を直接ドロップして読み込ませることも可能です。
復元結果から正しいテキストを選ぶ
入力と同時に、裏側で数十種類のエンコーディング変換パターンが総当たりで検証・リストアップされます。リストの中から「★ 推奨」バッジが付いた、最も自然な日本語になっている結果をお探しください。
結果をコピー・手動変換
正しく復元された結果ブロックの「コピー」ボタンをクリックして、元のテキストをクリップボードに取得します。もし自動判定でうまく直らない場合は、「手動エンコーディング変換」から任意の文字コードを指定して復元を試すこともできます。
文字化け関連の用語集
- 文字化け (Mojibake)
- テキストを作成・保存した環境と、ファイルを開いて読み込む環境において「文字コード(エンコーディング)」の認識が一致せず、「縺ゅ>縺」のように文字がデタラメな記号や漢字の羅列として表示されてしまうエラー現象のこと。文字コード変換ツール等を用いて正しいエンコーディングに復元する必要があります。
- UTF-8(ユーティーエフエイト)
- 現在、世界のインターネットやシステムで最も標準的となっている国際的な文字コード(Unicodeの一種)。多言語の文字を同時に扱うことができますが、古いWindows環境などではShift_JISとして誤って解釈され、文字化けを引き起こす原因になることが多々あります。
- Shift_JIS (SJIS / CP932)
- Windows OSなどで古くから使われている日本語特有の文字コード。Macなどで作成された最新のUTF-8文字列を、古いExcelなどのSJIS環境で開くと「縺」などの特有の文字化けが発生します。
- EUC-JP / ISO-2022-JP
- EUC-JPは古いLinuxやUNIXサーバーでよく利用されていた文字コード。一方、ISO-2022-JP(JISコード)は、昔の電子メールの送受信において標準的に使われていた日本語文字コードです。現在でも古いシステムとの連携時に文字化けの要因となります。
- エンコード (Encode)
- 人間が読める文字列データを、特定の文字コード規則(UTF-8やShift_JISなど)に従って、コンピューターが保存・処理できるバイトデータ(0と1のデジタルの羅列)に変換する処理のこと。
- デコード (Decode)
- コンピューター上のバイトデータを、文字コードの規則に従って元の人間が読めるテキスト文字列に戻す(解読する)処理のこと。このデコード時の解釈ルールを間違えると、画面上で文字化けが発生します。
文字化けに関するよくある質問(FAQ)
- Q.入力したテキストはサーバーに送信されますか?
- 送信されません。すべての処理はブラウザ内で完結しており、データがサーバーに送信・保存されることはありません。
- Q.CSVファイルの文字化けも直せますか?
- はい。文字化けしたCSVファイルをドラッグ&ドロップするか、ファイル読込ボタンから選択して復元できます。復元後はテキストエディタで BOM付きUTF-8 として保存することでExcelでも文字化けせずに開けます。
- Q.復元できない文字化けがあるのはなぜですか?
- 文字コードの誤変換だけでなく、途中で「Windows-1252」などで保存される等してデータの一部(バイト欠落)が不可逆的に失われている場合(代替文字に置き換えられた場合など)は、元のテキストを完全に復元することは困難です。
- Q.「UTF-8 → Shift_JIS」のようなパターンとは何ですか?
- 本来は「UTF-8」で作られたデータを、開く側のソフトが誤って「Shift_JIS」として解釈してしまったという【文字化けの原因となった誤解釈の歴史】を示しています。
- Q.どれが正しい復元結果かわかりません。
- 本ツールは代表的な誤変換パターンを総当たりで計算し、結果を一覧表示します。一覧の中から最も「日本語として意味が通じている文章」を目視で見つけてください。
- Q.「縺ゅ>縺」のような文字化けは直りますか?
- はい、「縺」が含まれるのは「UTF-8で保存された日本語をShift_JISで開いた」際の典型的な文字化けパターンであり、本ツールで極めて高確率で復元可能です。
- Q.絵文字の文字化け(?や□になる現象)は直りますか?
- 残念ながら、絵文字非対応の古いシステムを経由してデータ自体が「?(クエスチョンマーク)」等に不可逆変換・上書きされてしまった場合、復元ツールでは直せません。
- Q.文字化けを未然に防ぐにはどうすればいいですか?
- ファイルを作成・保存する際に、文字コードを世界標準の「UTF-8(BOM付き/なし用途に応じて)」に統一し、受け渡し先にもUTF-8で開くよう伝えることが一番の対策です。
文字化けトラブルのよくあるケースと解決策
仕事やプライベートで遭遇しやすい、代表的な文字化けの発生ケースとその解決策をご紹介します。
Excelで開いたCSVファイルが文字化けする
WebシステムなどからダウンロードしたUTF-8形式のCSVデータを、そのままWindowsのExcelでダブルクリックして開くと、ExcelがShift_JISとして読み込もうとして文字化けします。
解決策: 本ツールにドロップして復元するか、Excelの「データ」タブから「テキストまたはCSVから」を選択し、文字コードを「UTF-8」に指定してインポートすることで正しく表示されます。
受信したメールが文字化けして読めない
送信者が「ISO-2022-JP(JISコード)」や「EUC-JP」などの古いエンコーディングでメールを送信し、受信側のメーラー(OutlookやGmail等)がUTF-8として処理しようとした際に発生します。
解決策: 文字化けした本文をすべてコピーし、本ツールの入力エリアに貼り付けることで、元の文章を解読・復元することができます。
Mac/Windows間のZIP解凍時のファイル名文字化け
Macで圧縮したZIPファイルをWindowsの標準機能で解凍すると、ファイル名が文字化けすることがあります。これはMacがファイル名をUTF-8で保存するのに対し、WindowsがShift_JISとして展開しようとするためです。
解決策: 7-ZipなどのUTF-8対応の解凍ソフトを使用するか、Mac側で圧縮する際にWindows互換の圧縮ツールを使用することで防げます。
Webブラウザ上でサイト全体が文字化けする
HTMLファイルのメタタグ(charset指定)と、実際にファイルが保存されている文字コードが一致していない場合に発生します。
解決策: Webブラウザの拡張機能を使ってテキストエンコーディングを手動で変更するか、サイト管理者がHTMLの文字コード指定を正しく修正する必要があります。
本ツールの文字化け復元アルゴリズム(技術解説)
ブラウザネイティブの TextDecoder API を活用したセキュアな処理
文字化けの復元にあたり、本ツールではモダンブラウザに標準搭載されている TextEncoder および TextDecoder API を駆使しています。ユーザーが入力した文字化けテキストから各文字のコードポイントを取得し、指定された各種エンコーディングへのバイト変換・再デコード処理をクライアントサイドのみで完結させています。
これにより、外部サーバーへデータを一切送信することなく、極めてセキュアかつ高速に文字化けの修復・解読を行うことが可能です。
ブルートフォース(総当たり)による自動判定とスコアリング
入力されたテキストに対し、ツール内部で以下の数十パターンに及ぶ変換テストを非同期で総当たり実行します。
- 単段変換(19パターン): 1回の文字コード解釈ミス(例:本来UTF-8であるデータをShift_JISとして解釈してしまった場合など)によって発生する一般的な文字化けを網羅的に検証・復元します。
- 多段変換・二重文字化け(10パターン): 複数のシステムを経由したことで、2回以上の誤変換(SJIS → CP1252 → UTF-8 のように連鎖的に化けたデータ)が発生した複雑な文字化けについても復元を試みます。
すべてのパターンの変換結果に対して、日本語の出現頻度(ひらがな、カタカナ、常用漢字がどれだけ含まれているか)、ASCII文字の割合、および代替文字(?や)や制御文字などの不正文字の混入率を独自のアルゴリズムでスコアリングします。最もスコアが高く、「自然な日本語」に近いと判定された結果に「★ 推奨」バッジを付与して提示しています。
フィードバックを送信
ツールをより良くするためのご意見をお聞かせください。
現在、フィードバックの受付を一時停止しています
サーバーが混み合っているか、スパム防止のための安全装置が作動しています。しばらく経ってから再度アクセスしてください。