글자 깨짐 복원・인코딩 변환 도구
글자 깨짐(Mojibake)을 순식간에 해독・복구하는
브라우저 완결형 텍스트 컨버터.
복원할 텍스트
글자 깨짐이 해결되었다면, 다음 도구들도 이용해 보세요
글자 깨짐 복원 도구 개요
본 도구는 글자가 깨져(Mojibake) 읽을 수 없게 된 텍스트 데이터를 붙여넣기만 하면 자동으로 원래의 올바른 텍스트로 복원해 주는 무료 온라인 도구입니다. Windows나 Mac 등 서로 다른 OS 간에 파일을 주고받을 때나 오래된 시스템에서 데이터를 추출할 때 발생하는 텍스트 글자 깨짐 문제를 순식간에 해결합니다.
UTF-8, Shift_JIS(SJIS / CP932), EUC-JP, ISO-2022-JP 간의 모든 인코딩 변환 패턴을 일괄적으로 자동 검증・판정하여 가장 자연스러운 언어로서 의미가 통하는 결과를 제시합니다. 수동으로 일일이 문자 코드를 추측해 가며 변환을 시도하는 수고를 덜 수 있습니다.
또한, 모든 복원 처리는 사용 중인 기기(PC나 스마트폰의 브라우저) 내부에서만 실행됩니다. 입력된 기밀 데이터나 고객 정보 등이 외부 서버로 전송되거나 저장되는 일은 절대 없습니다. 소프트웨어 설치나 회원가입, 로그인 같은 번거로운 절차도 필요 없어, 안전하고 프라이버시가 유지된 상태로 안심하고 업무에 활용할 수 있습니다.
왜 글자 깨짐이 발생할까? 주요 원인과 원리
문자 코드(인코딩)의 불일치가 원인
컴퓨터 상에서는 모든 텍스트 데이터가 '0과 1의 숫자 나열(바이트 열)'로 저장되어 있습니다. 이 숫자 나열을 인간이 읽을 수 있는 '문자'로 변환하기 위한 규칙표가 '문자 코드(문자 인코딩)'입니다.
예를 들어, 같은 문자를 나타내더라도 UTF-8이라는 규칙표와 Shift_JIS(또는 EUC-KR 등)라는 규칙표에서는 할당된 숫자가 다릅니다. 송신자가 특정 규칙으로 저장한 데이터를 수신자가 잘못된 다른 규칙으로 읽어들이면, 화면에는 전혀 다른 문자로 표시되어 버립니다. 이것이 바로 글자 깨짐(Mojibake)의 정체입니다.
대표적인 글자 깨짐 발생 패턴
- UTF-8을 Shift_JIS 등으로 잘못 읽은 경우:
웹상에서 가장 흔히 볼 수 있는 글자 깨짐 패턴입니다. 인코딩 해석 오류로 인해 이상한 한자나 기호가 연속으로 나타나는 특징이 있습니다. Mac에서 만든 파일을 Windows의 구형 프로그램으로 열 때 자주 발생합니다. - 기존 인코딩을 UTF-8로 잘못 읽은 경우:
문자의 대부분이 ''나 '?' 같은 대체 문자(Replacement Character)로 바뀌어 버리는 현상입니다. 대체 문자로 치환되어 저장된 경우 원본 바이트 데이터가 소실된 것이기 때문에 완벽한 복원이 어려울 수 있습니다.
복원 방법・사용법
글자가 깨진 텍스트 입력
해독하고 싶은 깨진 문자열을 상단의 입력 영역에 붙여넣습니다. 문자 인코딩이 손상되어 열 수 없게 된 텍스트 파일(.txt, .csv 등)을 직접 드롭하여 읽어 들이는 것도 가능합니다.
복원 결과에서 올바른 텍스트 선택
입력과 동시에 이면에서 수십 종류의 인코딩 변환 패턴이 모두 검증되고 목록으로 나열됩니다. 목록 중에서 '★ 권장' 배지가 붙어 있고 가장 자연스러운 문장으로 보이는 결과를 찾아보세요.
결과 복사・수동 변환
올바르게 복원된 결과 블록의 '복사' 버튼을 클릭하여 원래의 텍스트를 클립보드로 가져옵니다. 만약 자동 판정으로 잘 복원되지 않는다면, '수동 인코딩 변환'에서 임의의 문자 코드를 지정해 복원을 시도할 수도 있습니다.
글자 깨짐 관련 용어집
- 글자 깨짐 (Mojibake)
- 텍스트를 작성・저장한 환경과 파일을 열어 읽는 환경에서 '문자 코드(인코딩)' 인식이 일치하지 않아, 문자가 엉뚱한 기호나 한자의 나열로 표시되어 버리는 오류 현상. 문자 코드 변환 도구 등을 이용해 올바른 인코딩으로 복원해야 합니다.
- UTF-8
- 현재 전 세계 인터넷이나 시스템에서 가장 표준으로 사용되는 국제적인 문자 코드(유니코드의 일종). 다국어 문자를 동시에 다룰 수 있지만, 오래된 Windows 환경 등에서는 Shift_JIS로 잘못 해석되어 글자 깨짐을 일으키는 원인이 되곤 합니다.
- Shift_JIS (SJIS / CP932)
- Windows OS 등에서 예전부터 사용되어 온 일본어 특유의 문자 코드. Mac 등에서 작성된 최신 UTF-8 문자열을 구형 Excel 등 SJIS 환경에서 열면 특유의 글자 깨짐이 발생합니다.
- EUC-JP / ISO-2022-JP
- EUC-JP는 과거 Linux나 UNIX 서버에서 자주 사용되던 문자 코드입니다. 한편 ISO-2022-JP(JIS 코드)는 과거 이메일 송수신에 표준으로 사용되던 일본어 문자 코드입니다. 지금도 오래된 시스템과 연동할 때 글자 깨짐의 원인이 됩니다.
- 인코딩 (Encode)
- 사람이 읽을 수 있는 문자열 데이터를 특정 문자 코드 규칙에 따라 컴퓨터가 저장・처리할 수 있는 바이트 데이터(0과 1의 나열)로 변환하는 처리.
- 디코딩 (Decode)
- 컴퓨터상의 바이트 데이터를 문자 코드 규칙에 따라 원래 사람이 읽을 수 있는 텍스트 문자열로 되돌리는(해독하는) 처리. 이 디코딩 시의 해석 규칙을 잘못 적용하면 화면에 글자 깨짐이 발생합니다.
자주 묻는 질문 (FAQ)
- Q.입력한 텍스트는 서버로 전송되나요?
- 전송되지 않습니다. 모든 처리는 브라우저 내에서 완결되며, 데이터가 서버로 전송되거나 저장되는 일은 없습니다.
- Q.CSV 파일의 글자 깨짐도 고칠 수 있나요?
- 네. 글자가 깨진 CSV 파일을 드래그 앤 드롭하거나 파일 읽기 버튼으로 선택하여 복원할 수 있습니다. 복원 후에는 텍스트 에디터에서 BOM이 포함된 UTF-8로 저장하면 Excel에서도 글자 깨짐 없이 열 수 있습니다.
- Q.복원할 수 없는 글자 깨짐이 있는 이유는 무엇인가요?
- 문자 코드의 오변환뿐만 아니라 도중에 'Windows-1252' 등으로 저장되는 등의 이유로 데이터의 일부(바이트 누락)가 불가역적으로 손실된 경우(대체 문자로 치환된 경우 등)에는 원본 텍스트를 완벽하게 복원하기 어렵습니다.
- Q.'UTF-8 → Shift_JIS'와 같은 패턴은 무엇을 뜻하나요?
- 원래 'UTF-8'로 작성된 데이터를 여는 쪽의 소프트웨어가 잘못하여 'Shift_JIS'로 해석해 버렸다는 【글자 깨짐의 원인이 된 오해석의 역사】를 나타냅니다.
- Q.어느 것이 올바른 복원 결과인지 모르겠습니다.
- 본 도구는 대표적인 오변환 패턴을 모두 계산하여 결과를 목록으로 표시합니다. 목록 중에서 가장 '의미가 통하는 문장'을 눈으로 확인하여 찾아주세요.
- Q.'縺ゅ>縺'와 같은 글자 깨짐은 고쳐지나요?
- 네, '縺'가 포함되는 것은 'UTF-8로 저장된 일본어를 Shift_JIS로 열었을 때'의 전형적인 글자 깨짐 패턴이며, 본 도구에서 매우 높은 확률로 복원 가능합니다.
- Q.이모티콘의 글자 깨짐(?나 □로 되는 현상)도 고쳐지나요?
- 안타깝게도 이모티콘을 지원하지 않는 오래된 시스템을 거치면서 데이터 자체가 '?(물음표)' 등으로 불가역적으로 변환・덮어쓰기된 경우, 복원 도구로는 고칠 수 없습니다.
- Q.글자 깨짐을 미연에 방지하려면 어떻게 해야 하나요?
- 파일을 작성・저장할 때 문자 코드를 세계 표준인 'UTF-8(BOM 포함/미포함 용도에 따라)'로 통일하고, 전달받는 쪽에도 UTF-8로 열도록 안내하는 것이 가장 좋은 대책입니다.
글자 깨짐 문제의 흔한 사례와 해결책
업무나 일상에서 자주 접하게 되는 대표적인 글자 깨짐 발생 사례와 그 해결책을 소개합니다.
Excel에서 연 CSV 파일의 글자가 깨짐
웹 시스템 등에서 다운로드한 UTF-8 형식의 CSV 데이터를 그대로 Windows의 Excel에서 더블 클릭하여 열면, Excel이 Shift_JIS로 읽어 들이려다 글자 깨짐이 발생합니다.
해결책: 본 도구에 드롭하여 복원하거나, Excel의 '데이터' 탭에서 '텍스트/CSV'를 선택하고 파일 원본을 'UTF-8'로 지정하여 가져오면 제대로 표시됩니다.
수신한 이메일이 깨져서 읽을 수 없음
송신자가 'ISO-2022-JP'나 'EUC-JP' 등의 과거 인코딩으로 메일을 보냈는데 수신 측의 메일 클라이언트(Outlook, Gmail 등)가 UTF-8로 처리하려고 할 때 발생합니다.
해결책: 깨진 본문을 모두 복사한 뒤, 본 도구의 입력 영역에 붙여넣으면 원래 문장을 해독하여 복원할 수 있습니다.
Mac/Windows 간 ZIP 압축 해제 시 파일명 깨짐
Mac에서 압축한 ZIP 파일을 Windows의 기본 기능으로 풀면 파일명이 깨지는 경우가 있습니다. Mac은 파일명을 UTF-8로 저장하는 반면 Windows는 기본 시스템 인코딩으로 해제하려고 하기 때문입니다.
해결책: 7-Zip 등 UTF-8을 지원하는 압축 해제 프로그램을 사용하거나, Mac에서 압축할 때 Windows 호환 압축 도구를 사용하면 방지할 수 있습니다.
웹 브라우저에서 사이트 전체의 글자가 깨짐
HTML 파일의 메타 태그(charset 지정)와 실제로 파일이 저장된 문자 코드가 일치하지 않을 때 발생합니다.
해결책: 웹 브라우저의 확장 기능을 사용해 텍스트 인코딩을 수동으로 변경하거나, 사이트 관리자가 HTML의 문자 코드 지정을 올바르게 수정해야 합니다.
본 도구의 글자 깨짐 복원 알고리즘 (기술 해설)
브라우저 네이티브의 TextDecoder API를 활용한 안전한 처리
글자 깨짐을 복원할 때, 본 도구는 최신 브라우저에 기본 탑재된 TextEncoder 및 TextDecoder API를 활용합니다. 사용자가 입력한 깨진 텍스트에서 각 문자의 코드 포인트를 가져와, 지정된 각종 인코딩으로 바이트 변환 및 재디코딩 처리를 클라이언트 단에서만 완결시킵니다.
이를 통해 외부 서버로 데이터를 전혀 전송하지 않고도 극도로 안전하고 빠르게 글자 깨짐의 복구 및 해독이 가능합니다.
브루트 포스(모든 경우의 수 대입)에 의한 자동 판정과 스코어링
입력된 텍스트에 대해 도구 내부에서 다음과 같은 수십 가지 패턴에 달하는 변환 테스트를 비동기식으로 실행합니다.
- 단일 변환 (19패턴): 한 번의 문자 코드 해석 오류(예: 본래 UTF-8인 데이터를 다른 인코딩으로 해석한 경우 등)로 인해 발생하는 일반적인 글자 깨짐을 망라하여 검증하고 복원합니다.
- 다중 변환・이중 글자 깨짐 (10패턴): 여러 시스템을 거치면서 2번 이상의 오변환이 발생한 복잡한 글자 깨짐에 대해서도 복원을 시도합니다.
모든 패턴의 변환 결과에 대하여 일본어(또는 해당 언어)의 출현 빈도, ASCII 문자의 비율, 그리고 대체 문자나 제어 문자와 같은 잘못된 문자의 혼입 비율을 자체 알고리즘으로 채점합니다. 가장 점수가 높고 '자연스러운 문장'에 가깝다고 판정된 결과에 '★ 권장' 배지를 부여하여 제시합니다.
Send Feedback
Please let us know your thoughts to help us improve the tool.
Feedback is temporarily suspended
The server is busy or spam protection is active. Please try again later.