แก้ข้อความตัวอักษรเพี้ยน (Mojibake)
เครื่องมือบนเบราว์เซอร์ที่ช่วยถอดรหัสและซ่อมแซมข้อความตัวอักษรเพี้ยนในทันที
ข้อความที่ต้องการกู้คืน
หากคุณแก้ไขตัวอักษรเพี้ยนแล้ว ลองใช้เครื่องมือเหล่านี้ดู:
ภาพรวมของเครื่องมือแก้ข้อความตัวอักษรเพี้ยน
เครื่องมือนี้เป็นเครื่องมือออนไลน์ฟรีที่ช่วยกู้คืนข้อมูลข้อความที่ตัวอักษรเพี้ยน (Mojibake) และอ่านไม่ได้ให้กลับเป็นข้อความต้นฉบับที่ถูกต้องโดยอัตโนมัติเพียงแค่วางข้อความลงไป ช่วยแก้ปัญหาตัวอักษรเพี้ยนที่เกิดขึ้นเมื่อแลกเปลี่ยนไฟล์ระหว่างระบบปฏิบัติการที่ต่างกันเช่น Windows และ Mac หรือเมื่อดึงข้อมูลจากระบบเก่าได้อย่างรวดเร็ว
ตรวจสอบและประเมินรูปแบบการแปลงการเข้ารหัสทั้งหมดระหว่าง UTF-8, Shift_JIS (SJIS / CP932), EUC-JP และ ISO-2022-JP โดยอัตโนมัติ และแสดงผลลัพธ์ที่มีความหมายมากที่สุด ช่วยให้คุณประหยัดเวลาในการเดารหัสอักขระและลองแปลงทีละอันด้วยตนเอง
นอกจากนี้ กระบวนการกู้คืนทั้งหมดจะดำเนินการภายในอุปกรณ์ของคุณ (คอมพิวเตอร์หรือเบราว์เซอร์ของสมาร์ทโฟน) เท่านั้น ข้อมูลที่เป็นความลับหรือข้อมูลลูกค้าที่คุณป้อนจะไม่ถูกส่งหรือจัดเก็บไว้บนเซิร์ฟเวอร์ภายนอกเด็ดขาด ไม่จำเป็นต้องมีขั้นตอนที่ยุ่งยากเช่นการติดตั้งซอฟต์แวร์ การลงทะเบียนสมาชิก หรือการเข้าสู่ระบบ คุณจึงสามารถใช้งานได้อย่างปลอดภัยและเป็นส่วนตัวสำหรับการทำงาน
ทำไมถึงเกิดตัวอักษรเพี้ยน? สาเหตุและกลไก
สาเหตุมาจากความไม่ตรงกันของการเข้ารหัสอักขระ (Encoding)
ในคอมพิวเตอร์ ข้อมูลข้อความทั้งหมดจะถูกจัดเก็บในรูปแบบของตัวเลข 0 และ 1 (ไบต์) ตารางกฎที่แปลงชุดตัวเลขนี้เป็นอักขระที่มนุษย์สามารถอ่านได้เรียกว่า การเข้ารหัสอักขระ (Character Encoding)
ตัวอย่างเช่น สำหรับตัวอักษร "あ" ตัวเดียวกัน ตัวเลขที่กำหนดใน UTF-8 และ Shift_JIS จะแตกต่างกัน หากผู้รับเข้าใจผิดว่าข้อมูลที่ผู้ส่งบันทึกเป็น 'Shift_JIS' และอ่านตามกฎของ 'UTF-8' อักขระที่แตกต่างกันอย่างสิ้นเชิงจะปรากฏบนหน้าจอ นี่คือธรรมชาติที่แท้จริงของตัวอักษรเพี้ยน (Mojibake)
รูปแบบของตัวอักษรเพี้ยนที่พบบ่อย
- เพี้ยนจากการอ่าน UTF-8 ผิดเป็น Shift_JIS:
นี่เป็นรูปแบบการเพี้ยนที่พบบ่อยที่สุดบนเว็บ โดดเด่นด้วยชุดของตัวอักษรคันจิและสัญลักษณ์แปลกๆ เช่น "繧", "縺", "繝" มักเกิดขึ้นเมื่อเปิดไฟล์ที่สร้างบน Mac ด้วยซอฟต์แวร์ Windows รุ่นเก่า - เพี้ยนจากการอ่าน Shift_JIS ผิดเป็น UTF-8:
นี่เป็นปรากฏการณ์ที่อักขระส่วนใหญ่ถูกแทนที่ด้วยอักขระทดแทน (Replacement Character) เช่น รูปสี่เหลี่ยมขนมเปียกปูนสีดำที่มีเครื่องหมายคำถาม หรือ "?" หากถูกบันทึกทับด้วยอักขระทดแทน ข้อมูลไบต์ต้นฉบับจะสูญหายและยากที่จะกู้คืนได้อย่างสมบูรณ์
วิธีแก้ไขและใช้งาน
ป้อนข้อความที่ตัวอักษรเพี้ยน
วางสตริงข้อความที่ตัวอักษรเพี้ยนที่ต้องการถอดรหัสลงในพื้นที่ป้อนข้อมูลด้านบน คุณยังสามารถลากและวางไฟล์ข้อความ (.txt, .csv ฯลฯ) ที่การเข้ารหัสเสียหายเพื่อโหลดได้โดยตรง
เลือกข้อความที่ถูกต้องจากผลลัพธ์
ในเวลาเดียวกับการป้อนข้อมูล รูปแบบการแปลงการเข้ารหัสหลายสิบรูปแบบจะถูกตรวจสอบและแสดงเป็นรายการในเบื้องหลังโดยอัตโนมัติ โปรดค้นหาผลลัพธ์ที่มีป้าย '★ แนะนำ' ซึ่งเป็นผลลัพธ์ที่มีความหมายเป็นธรรมชาติที่สุด
คัดลอกผลลัพธ์ / แปลงด้วยตนเอง
คลิกปุ่ม "คัดลอก" ในบล็อกผลลัพธ์ที่กู้คืนได้ถูกต้องเพื่อบันทึกข้อความ หากการกู้คืนอัตโนมัติไม่ทำงาน คุณสามารถลองกู้คืนโดยระบุการเข้ารหัสที่ต้องการจาก "แปลงการเข้ารหัสด้วยตนเอง"
คำศัพท์เกี่ยวกับตัวอักษรเพี้ยน
- ตัวอักษรเพี้ยน (Mojibake)
- ปรากฏการณ์ข้อผิดพลาดที่การเข้ารหัสอักขระ (Encoding) ไม่ตรงกันระหว่างสภาพแวดล้อมที่สร้าง/บันทึกข้อความและสภาพแวดล้อมที่เปิด/อ่านไฟล์ ทำให้ตัวอักษรแสดงเป็นชุดสัญลักษณ์และอักขระแบบสุ่มที่ไม่มีความหมาย จำเป็นต้องกู้คืนเป็นการเข้ารหัสที่ถูกต้องด้วยเครื่องมือแปลง
- UTF-8
- การเข้ารหัสอักขระสากลที่พบบ่อยที่สุด (Unicode ชนิดหนึ่ง) สำหรับอินเทอร์เน็ตและระบบทั่วโลกในปัจจุบัน สามารถจัดการอักขระหลายภาษาได้พร้อมกัน แต่มักถูกตีความผิดเป็น Shift_JIS ในสภาพแวดล้อม Windows รุ่นเก่า ทำให้เกิดตัวอักษรเพี้ยน
- Shift_JIS (SJIS / CP932)
- การเข้ารหัสอักขระเฉพาะของภาษาญี่ปุ่นที่ใช้มาอย่างยาวนานในระบบปฏิบัติการ Windows เมื่อเปิดสตริง UTF-8 ล่าสุดที่สร้างบน Mac ในสภาพแวดล้อม SJIS เก่าเช่น Excel รุ่นเก่า จะเกิดตัวอักษรเพี้ยนที่มีลักษณะเฉพาะ เช่น "縺"
- EUC-JP / ISO-2022-JP
- EUC-JP คือชุดรหัสอักขระที่มักใช้บนเซิร์ฟเวอร์ Linux หรือ UNIX รุ่นเก่า ในทางกลับกัน ISO-2022-JP (รหัส JIS) เป็นการเข้ารหัสภาษาญี่ปุ่นมาตรฐานที่เคยใช้ในการส่งและรับอีเมลในอดีต แม้ในปัจจุบัน ก็ยังสามารถทำให้เกิดตัวอักษรเพี้ยนเมื่อเชื่อมต่อกับระบบเก่าได้
- การเข้ารหัส (Encode)
- กระบวนการแปลงข้อมูลสตริงที่มนุษย์สามารถอ่านได้เป็นข้อมูลไบต์ (ชุดตัวเลขดิจิทัล 0 และ 1) ที่คอมพิวเตอร์สามารถจัดเก็บและประมวลผลได้ตามกฎการเข้ารหัสอักขระเฉพาะ (เช่น UTF-8 หรือ Shift_JIS)
- การถอดรหัส (Decode)
- กระบวนการนำข้อมูลไบต์บนคอมพิวเตอร์กลับเป็นสตริงข้อความต้นฉบับที่มนุษย์สามารถอ่านได้ตามกฎของการเข้ารหัสอักขระ หากคุณใช้กฎผิดพลาดในขณะที่ถอดรหัสนี้ ตัวอักษรเพี้ยนจะปรากฏบนหน้าจอ
คำถามที่พบบ่อยเกี่ยวกับตัวอักษรเพี้ยน (FAQ)
- Q.ข้อความที่ฉันป้อนจะถูกส่งไปยังเซิร์ฟเวอร์หรือไม่?
- ไม่ การประมวลผลทั้งหมดเสร็จสิ้นภายในเบราว์เซอร์ และข้อมูลจะไม่ถูกส่งหรือจัดเก็บไว้บนเซิร์ฟเวอร์ใด ๆ
- Q.ฉันสามารถแก้ไขตัวอักษรเพี้ยนในไฟล์ CSV ได้หรือไม่?
- ได้ คุณสามารถกู้คืนได้โดยการลากและวางไฟล์ CSV ที่ตัวอักษรเพี้ยน หรือเลือกจากปุ่มโหลดไฟล์ หลังจากกู้คืนแล้ว ให้บันทึกเป็น UTF-8 with BOM ด้วยโปรแกรมแก้ไขข้อความเพื่อเปิดใน Excel ได้โดยไม่เพี้ยน
- Q.ทำไมข้อความที่ตัวอักษรเพี้ยนบางส่วนถึงกู้คืนไม่ได้?
- หากข้อมูลสูญหายไปบางส่วนและไม่สามารถย้อนกลับได้ (เช่น ถูกบันทึกด้วย 'Windows-1252' และมีการแทรกอักขระทดแทน) การกู้คืนข้อความต้นฉบับอย่างสมบูรณ์จะเป็นเรื่องยากมาก
- Q.รูปแบบเช่น 'UTF-8 → Shift_JIS' คืออะไร?
- มันบ่งบอกถึง [ประวัติการตีความผิดที่ทำให้ตัวอักษรเพี้ยน] โดยที่ข้อมูลเดิมถูกสร้างด้วย 'UTF-8' แต่ซอฟต์แวร์ที่ใช้เปิดกลับตีความผิดว่าเป็น 'Shift_JIS'
- Q.ฉันจะรู้ได้อย่างไรว่าผลลัพธ์การกู้คืนอันไหนถูกต้อง?
- เครื่องมือนี้จะคำนวณชุดค่าผสมทั้งหมดของรูปแบบการแปลงที่ผิดพลาดทั่วไปและแสดงเป็นรายการ โปรดค้นหาข้อความที่ 'มีความหมายมากที่สุดในภาษาญี่ปุ่น (หรือภาษาของคุณ)' จากรายการด้วยตนเอง
- Q.สามารถแก้ไขตัวอักษรเพี้ยนเช่น '縺ゅ>縺' ได้หรือไม่?
- ได้ การมีตัวอักษร '縺' เป็นรูปแบบตัวอักษรเพี้ยนที่พบได้บ่อยเมื่อ 'ภาษาญี่ปุ่นที่บันทึกด้วย UTF-8 ถูกเปิดด้วย Shift_JIS' และเครื่องมือนี้สามารถกู้คืนได้ด้วยความน่าจะเป็นที่สูงมาก
- Q.อิโมจิที่เพี้ยน (กลายเป็น ? หรือ □) สามารถแก้ไขได้หรือไม่?
- น่าเสียดายที่หากข้อมูลถูกเขียนทับอย่างไม่สามารถย้อนกลับได้เป็น '?' ผ่านระบบเก่าที่ไม่รองรับอิโมจิ จะไม่สามารถแก้ไขได้ด้วยเครื่องมือกู้คืน
- Q.ฉันจะป้องกันไม่ให้เกิดตัวอักษรเพี้ยนได้อย่างไร?
- วิธีที่ดีที่สุดคือการกำหนดให้การเข้ารหัสอักขระเป็นมาตรฐานสากล 'UTF-8' เมื่อสร้างและบันทึกไฟล์ และขอให้ผู้รับเปิดด้วย UTF-8 เช่นกัน
กรณีการเกิดตัวอักษรเพี้ยนที่พบบ่อยและวิธีแก้ไข
ต่อไปนี้คือกรณีการเกิดตัวอักษรเพี้ยน (Mojibake) ที่คุณอาจพบได้บ่อยในการทำงานหรือชีวิตส่วนตัว พร้อมด้วยแนวทางแก้ไข
ไฟล์ CSV เปิดใน Excel แล้วตัวอักษรเพี้ยน
หากคุณดับเบิลคลิกเพื่อเปิดข้อมูล CSV รูปแบบ UTF-8 ที่ดาวน์โหลดจากระบบเว็บใน Windows Excel ตัวอักษรจะเพี้ยนเนื่องจาก Excel พยายามอ่านเป็น Shift_JIS
วิธีแก้ไข: วางไฟล์ลงในเครื่องมือนี้เพื่อกู้คืน หรือนำเข้าจากแท็บ 'ข้อมูล' ของ Excel -> 'จากข้อความ/CSV' และระบุรหัสอักขระเป็น 'UTF-8' เพื่อให้แสดงผลอย่างถูกต้อง
อีเมลที่ได้รับตัวอักษรเพี้ยนและอ่านไม่ได้
สิ่งนี้เกิดขึ้นเมื่อผู้ส่งส่งอีเมลโดยใช้การเข้ารหัสเก่าเช่น 'ISO-2022-JP' (รหัส JIS) หรือ 'EUC-JP' และโปรแกรมรับส่งเมลของผู้รับ (Outlook, Gmail ฯลฯ) พยายามประมวลผลเป็น UTF-8
วิธีแก้ไข: คุณสามารถถอดรหัสและกู้คืนข้อความต้นฉบับได้โดยการคัดลอกข้อความอีเมลที่เพี้ยนทั้งหมดและวางลงในพื้นที่ป้อนข้อมูลของเครื่องมือนี้
ชื่อไฟล์เพี้ยนเมื่อแตกไฟล์ ZIP ระหว่าง Mac/Windows
หากคุณแตกไฟล์ ZIP ที่บีบอัดบน Mac โดยใช้ฟังก์ชันมาตรฐานของ Windows ชื่อไฟล์อาจเพี้ยนได้ เนื่องจาก Mac บันทึกชื่อไฟล์เป็น UTF-8 ในขณะที่ Windows พยายามแตกไฟล์เป็น Shift_JIS
วิธีแก้ไข: คุณสามารถป้องกันสิ่งนี้ได้โดยใช้ซอฟต์แวร์แตกไฟล์ที่รองรับ UTF-8 เช่น 7-Zip หรือใช้เครื่องมือบีบอัดที่เข้ากันได้กับ Windows เมื่อบีบอัดบน Mac
เว็บไซต์ทั้งหน้าตัวอักษรเพี้ยนบนเบราว์เซอร์
สิ่งนี้เกิดขึ้นเมื่อแท็ก meta (charset) ของไฟล์ HTML และรหัสอักขระจริงที่ใช้บันทึกไฟล์ไม่ตรงกัน
วิธีแก้ไข: คุณต้องเปลี่ยนการเข้ารหัสข้อความด้วยตนเองโดยใช้ส่วนขยายของเว็บเบราว์เซอร์ หรือผู้ดูแลเว็บไซต์ต้องแก้ไขการกำหนดค่า charset ของ HTML ให้ถูกต้อง
อัลกอริทึมการกู้คืนตัวอักษรเพี้ยน (คำอธิบายทางเทคนิค)
ประมวลผลอย่างปลอดภัยด้วย TextDecoder API พื้นฐานของเบราว์เซอร์
เพื่อกู้คืนข้อความที่เพี้ยน เครื่องมือนี้ใช้ API TextEncoder และ TextDecoder ที่มีอยู่ในเบราว์เซอร์สมัยใหม่เป็นมาตรฐาน ดึง code point ของแต่ละอักขระจากข้อความที่เพี้ยนที่ผู้ใช้ป้อน และกระบวนการแปลงไบต์และถอดรหัสใหม่ตามการเข้ารหัสที่ระบุจะเสร็จสมบูรณ์ในฝั่งไคลเอนต์ (Client-side) ทั้งหมด
ซึ่งช่วยให้สามารถกู้คืนและถอดรหัสข้อความที่เพี้ยนได้อย่างปลอดภัยสูงและรวดเร็ว โดยไม่ต้องส่งข้อมูลใด ๆ ไปยังเซิร์ฟเวอร์ภายนอก
การตัดสินและให้คะแนนอัตโนมัติด้วยการทดสอบทุกรูปแบบ (Brute Force)
สำหรับข้อความที่ป้อน เครื่องมือจะทำงานแบบอะซิงโครนัสเพื่อทดสอบรูปแบบการแปลงภายในหลายสิบรูปแบบทั้งหมด:
- การแปลงขั้นตอนเดียว (19 รูปแบบ): ตรวจสอบและกู้คืนตัวอักษรเพี้ยนทั่วไปที่เกิดจากการตีความรหัสอักขระผิดพลาด 1 ครั้ง (เช่น ข้อมูลที่เป็น UTF-8 แต่ถูกตีความผิดเป็น Shift_JIS) อย่างครอบคลุม
- การแปลงหลายขั้นตอน / เพี้ยนซ้อน (10 รูปแบบ): พยายามกู้คืนตัวอักษรเพี้ยนที่ซับซ้อนซึ่งเกิดจากการแปลงผิดพลาดตั้งแต่ 2 ครั้งขึ้นไป (เช่น ข้อมูลที่เสียหายต่อเนื่องเป็น SJIS → CP1252 → UTF-8) ผ่านหลายระบบ
สำหรับรูปแบบผลลัพธ์การแปลงทั้งหมด อัลกอริทึมเฉพาะจะให้คะแนนความถี่ของการปรากฏของภาษาญี่ปุ่น (มีฮิรางานะ คาตาคานะ และคันจิที่ใช้บ่อยรวมอยู่เท่าใด) อัตราส่วนของอักขระ ASCII และอัตราการผสมของอักขระที่ไม่ถูกต้อง เช่น อักขระทดแทน (? หรือ ) หรืออักขระควบคุม ผลลัพธ์ที่มีคะแนนสูงสุดและได้รับการตัดสินว่าใกล้เคียงกับ "ภาษาญี่ปุ่นที่เป็นธรรมชาติที่สุด" จะได้รับป้าย "★ แนะนำ" และแสดงให้ผู้ใช้เห็น
ส่งความคิดเห็น
โปรดแจ้งให้เราทราบความคิดเห็นของคุณเพื่อช่วยปรับปรุงเครื่องมือ
การส่งความคิดเห็นถูกระงับชั่วคราว
เซิร์ฟเวอร์ไม่ว่างหรือระบบป้องกันสแปมทำงานอยู่ โปรดลองอีกครั้งในภายหลัง