Trình phát hiện chạy ngay trong trình duyệt với nút tải ví dụ, gợi ý chuyển đổi và tài liệu bản địa hóa 16 ngôn ngữ.
Features
- Phát hiện thông minh: Tự động phát hiện mã hóa bằng phân tích thống kê, BOM, nhận dạng mẫu ký tự. Hỗ trợ UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, ISO-8859, Windows-1252 kèm điểm tin cậy
- Chuyển đổi charset: Chuyển văn bản giữa các mã hóa: UTF-8 ↔ GBK ↔ Big5, sửa lỗi mojibake, thêm/xóa BOM, xử lý surrogate pair và ký tự tổ hợp
- Chẩn đoán mã hóa: Phát hiện lỗi mã hóa: byte không hợp lệ, Tệp trộn mã, BOM sai, lỗi surrogate; cung cấp gợi ý sửa và báo cáo chi tiết
- Xử lý hàng loạt: Phân tích nhiều tệp, chuyển đổi cả thư mục, giữ cấu trúc, sinh báo cáo thống kê và log lỗi
Use Cases
- Di chuyển hệ thống legacy: Chuyển toàn bộ kho GBK/Big5 sang UTF-8 khi nâng cấp hệ thống tài chính, ERP hoặc chính phủ.
- Kiểm thử nội dung toàn cầu: Nhóm nội dung/SEO đảm bảo website, RSS và email đa ngôn ngữ khai báo đúng charset để tránh lỗi hiển thị.
- Pipeline nạp dữ liệu: Kiểm tra mã hóa log, CSV và ETL từ đối tác trước khi đổ vào data warehouse hoặc Spark.
- Gỡ lỗi cho developer: Nhanh chóng phát hiện xung đột BOM hoặc dữ liệu trộn mã hóa trong diff Git hay bản xuất database.
Usage Guide
- Tải lên hoặc dán: Tải Tệp văn bản hoặc dán nội dung để phân tích mã hóa
- Phát hiện mã hóa: Nhấp Phát hiện để tự nhận, hoặc chọn thủ công nếu đã biết
- Xem kết quả: Kiểm tra mã hóa, độ tin cậy, BOM và xem trước văn bản
- Chuyển đổi khi cần: Chọn mã mục tiêu, chuyển đổi rồi tải xuống hoặc sao chép kết quả
Technical Details
Chuẩn mã hóa
Mã hóa phát triển để hỗ trợ ngôn ngữ khác nhau: ASCII (1963, 7 bit, 128 ký tự), ISO-8859 (8 bit, vùng địa lý), DBCS cho châu Á (GB2312, GBK, Big5, Shift-JIS). Unicode tạo chuẩn chung: UTF-8 (1-4 byte, chuẩn web), UTF-16 (2/4 byte), UTF-32 (4 byte).
Thuật toán phát hiện
Phát hiện dựa trên: BOM (UTF-8 EF BB BF...), phân tích thống kê (tần suất ký tự, mẫu byte), kiểm tra hợp lệ (quy tắc UTF-8, phạm vi GB2312), heuristic (đuôi Tệp, Tiêu đề HTTP, khai báo XML). Điểm tin cậy kết hợp nhiều tín hiệu; văn bản ngắn dễ gây nhầm lẫn.
Chuyển đổi mã hóa
Quy trình: giải mã byte nguồn thành code point Unicode → mã hóa sang charset đích. Xử lý ký tự không ánh xạ, chuẩn hóa Unicode (NFC/NFD), BOM, kết thúc dòng (CRLF/LF), xử lý streaming cho tệp lớn.
Frequently Asked Questions
- Độ chính xác của phát hiện mã hóa như thế nào?
- Bộ phát hiện kết hợp phát hiện BOM, phân tích thống kê và xác thực mẫu byte để ước tính bộ ký tự có khả năng nhất. Mỗi lần chạy cũng hiển thị điểm tin cậy để bạn biết khi nào nên xem xét thủ công bổ sung được khuyến nghị.
- Tôi có thể chuyển đổi văn bản sau khi phát hiện không?
- Có. Sau khi xác định được mã hóa, bạn có thể chọn bất kỳ bộ ký tự đích nào, chuyển đổi văn bản hoàn toàn trong trình duyệt và tải xuống hoặc sao chép đầu ra đã chuyển đổi mà không cần tải lên tệp.
- Tùy chọn Thêm hoặc Xóa BOM làm gì?
- BOM (Byte Order Mark) là chữ ký tùy chọn ở đầu tệp UTF. Thêm BOM giúp một số công cụ Windows phát hiện mã hóa, trong khi xóa nó giữ cho tệp gọn gàng cho các môi trường UNIX. Chuyển đổi tùy chọn dựa trên nơi văn bản sẽ được sử dụng.
- Tại sao tôi vẫn thấy các ký tự lộn xộn sau khi chuyển đổi?
- Nếu văn bản trước đây được giải mã bằng bộ ký tự sai, thiệt hại có thể đã được lưu. Hãy thử tải lại tệp gốc, đảm bảo mã hóa nguồn chính xác được chọn và chuyển đổi lại. Các mã hóa hỗn hợp trong một tệp duy nhất cũng có thể tạo ra mojibake.
- Văn bản của tôi có được tải lên hoặc lưu trữ không?
- Không. Phát hiện và chuyển đổi hoàn toàn diễn ra trong trình duyệt của bạn. Tệp không bao giờ rời khỏi thiết bị của bạn nên các tài liệu bí mật vẫn ở chế độ riêng tư.
Related Documentation
- Tiêu chuẩn Unicode - Đặc tả mã hóa Unicode
- RFC 3629 - UTF-8 - Tiêu chuẩn định dạng UTF-8
- GB18030 - Chuẩn mã hóa quốc gia Trung Quốc
- ICU Encoding Detection - Thư viện phát hiện mã hóa của Unicode
- Thực hành tốt nhất mã hóa - Hướng dẫn của W3C về xử lý charset