Sửa lỗi tách dấu trên Mac
(Chuẩn hóa Unicode)
Sửa ngay lập tức lỗi tách dấu tên file đặc thù trên Mac
ngay trên trình duyệt.
🔍 Phân tích chi tiết (Code Points)
Tổng quan
Một công cụ trực tuyến thực hiện chuẩn hóa văn bản Unicode (NFC/NFD/NFKC/NFKD) theo thời gian thực. Bạn có thể dễ dàng thực hiện quá trình chuẩn hóa cần thiết để hợp nhất các mã ký tự và so sánh chúng.
Hỗ trợ các mẫu chuẩn hóa thường gặp trong xử lý văn bản, như thống nhất ký tự toàn và bán kích, kết hợp/tách các dấu và chuẩn hóa các ký tự tương thích. Công cụ cũng có thể hiển thị các điểm mã ký tự (code points) và chuỗi byte.
Tất cả quá trình xử lý được hoàn thành bên trong trình duyệt và không có dữ liệu nào bị gửi lên máy chủ.
Cách sử dụng
Nhập văn bản
Nhập hoặc dán đoạn văn bản bạn muốn chuẩn hóa vào khung nhập liệu.
Chọn định dạng
Chọn định dạng chuẩn hóa: NFC, NFD, NFKC, hoặc NFKD.
Xác nhận/Sao chép kết quả
Kiểm tra thay đổi của văn bản và code point sau khi chuẩn hóa rồi sao chép.
Thuật ngữ
- Chuẩn Hóa Unicode
- Quá trình chuyển đổi văn bản sang một dạng Unicode chuẩn hóa sao cho các chuỗi code-point biểu diễn cùng một ký tự sẽ được xử lý giống nhau.
- NFC (Canonical Composition)
- Tách ký tự sau đó cấu thành lại thành dạng tích hợp. Định dạng chuẩn hóa thông dụng nhất cho nội dung web và xử lý văn bản.
- NFD (Canonical Decomposition)
- Tách ký tự thành ký tự gốc và ký tự dấu hợp thành. Được sử dụng trên hệ thống tệp tin macOS và một số môi trường Unix.
- NFKC (Compatibility Composition)
- Chuyển các ký tự có tính tương thích (ví dụ: số/chữ toàn kích, chữ katakana bán kích) về định dạng tiêu chuẩn và sau đó hợp nhất lại. Thường được sử dụng để tìm kiếm và chuẩn hóa dữ liệu.
- Ký Tự Kết Hợp (Combining Characters)
- Các Unicode code points gắn liền với một ký tự gốc ở trước nó chứ không đứng một mình, chẳng hạn như dấu câu hay dấu phụ.
- Ký Tự Tương Thích (Compatibility Characters)
- Các ký tự có code point phân biệt nhưng mang cùng ý nghĩa hay vẻ ngoài tương đương như dạng chuẩn, như ASCII toàn kích, con số trong vòng tròn, và katakana bán kích.
- Code Point (Điểm mã)
- Định danh số duy nhất gán cho mỗi ký tự theo chuẩn Unicode, viết dưới dạng U+XXXX (ví dụ U+3042 cho chữ hiragana あ).
FAQ
- Sự khác nhau giữa NFC và NFKC là gì?
- NFC hợp nhất mã hóa nội bộ mà không đổi vẻ ngoài của chữ. NFKC thì có khả năng chuyển đổi các ký tự tương đương — ví dụ như số/chữ toàn kích thành dạng bán kích.
- Tôi nên sử dụng định dạng nào?
- Sử dụng NFC cho văn bản thông thường. Dùng NFKC trước khi lưu trữ vào cơ sở dữ liệu hay tạo mục lục tìm kiếm. Dùng NFD nếu ưu tiên tương thích trên macOS.
- Văn bản của tôi có bị gửi lên máy chủ không?
- Không. Mọi xử lý chuẩn hóa đều chạy trên trình duyệt. Văn bản sẽ không bao giờ được gửi tới máy chủ bên ngoài nào.
- Sự chuẩn hóa có xóa ký tự không?
- Bình thường là không. Nhưng, NFKC có thể làm thay đổi diện mạo của ký tự — ví dụ như đổi các ký tự chữ số từ toàn kích về bán kích.
- Tại sao lại cần phải chuẩn hóa trước khi so sánh chuỗi?
- Các ký tự trông giống hệt nhau có thể có mã hóa ở bên trong khác nhau. Khi chuẩn hóa về cùng một dạng, việc so sánh hay tìm kiếm sẽ đảm bảo kết quả ổn định hơn.
- Có đặc biệt hiệu quả đối với văn bản tiếng Nhật không?
- Có. Trong các tài liệu tiếng Nhật rất hay bị lẫn giữa văn bản toàn kích (full-width) và bán kích (half-width). Quá trình chuẩn hóa sẽ xử lý những chỗ lẫn lộn đó và đem lại chất lượng cho dữ liệu.
- Làm thế nào tôi có thể sao chép kết quả?
- Hãy nhấp vào nút sao chép ở trên khu vực xuất kết quả để lưu đoạn văn đã chuẩn hóa vào bộ nhớ đệm của bạn.
Ứng dụng
Thống nhất cơ sở dữ liệu
Đảm bảo tính đồng nhất của dữ liệu bằng cách chuẩn hóa nội dung người dùng nhập vào.
So sánh chuỗi
Đạt được sự tìm kiếm và so sánh chính xác nhờ sử dụng các chuỗi chuẩn hóa.
Tiền xử lý văn bản
Áp dụng sự chuẩn hóa như một bước tiền xử lý trong phân tích dữ liệu và ngôn ngữ tự nhiên.
Kiểm tra mã ký tự
Kiểm tra code point của ký tự để điều tra các vấn đề về mã hóa.
Kỹ thuật
API String.prototype.normalize()
Vì chỉ sử dụng các chức năng gốc của trình duyệt, ngay cả khối lượng dữ liệu chuỗi lớn cũng có thể được chuẩn hóa ngay lập tức trong vài mili-giây.
Gửi phản hồi
Vui lòng cho chúng tôi biết suy nghĩ của bạn để giúp chúng tôi cải thiện công cụ.
Feedback is temporarily suspended
The server is busy or spam protection is active. Please try again later.