🔤

Bộ phát hiện mã hóa văn bản

Trình phát hiện chạy ngay trong trình duyệt với nút tải ví dụ, gợi ý chuyển đổi và tài liệu bản địa hóa 16 ngôn ngữ.

Văn bản đầu vào

Mã hóa ký tự là gì

Mã hóa ký tự là hệ thống ánh xạ ký tự thành giá trị nhị phân để lưu trữ/truyền tải. Các chuẩn khác nhau dùng bảng ánh xạ khác nhau: ASCII 7 bit (128 ký tự tiếng Anh), ISO-8859-1 8 bit (Tây Âu), GB2312/GBK (Trung giản thể), Big5 (Trung phồn thể), Shift-JIS (Nhật), UTF-8 (1-4 byte, phổ quát, tương thích ASCII), UTF-16 (2/4 byte), UTF-32 (4 byte).

Tính năng

🔍

Phát hiện thông minh

Tự động phát hiện mã hóa bằng phân tích thống kê, BOM, nhận dạng mẫu ký tự. Hỗ trợ UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, ISO-8859, Windows-1252 kèm điểm tin cậy
🔄

Chuyển đổi charset

Chuyển văn bản giữa các mã hóa: UTF-8 ↔ GBK ↔ Big5, sửa lỗi mojibake, thêm/xóa BOM, xử lý surrogate pair và ký tự tổ hợp
🩺

Chẩn đoán mã hóa

Phát hiện lỗi mã hóa: byte không hợp lệ, Tệp trộn mã, BOM sai, lỗi surrogate; cung cấp gợi ý sửa và báo cáo chi tiết
📦

Xử lý hàng loạt

Phân tích nhiều tệp, chuyển đổi cả thư mục, giữ cấu trúc, sinh báo cáo thống kê và log lỗi
🎯

Tình huống sử dụng

🏢

Di chuyển hệ thống legacy

Chuyển toàn bộ kho GBK/Big5 sang UTF-8 khi nâng cấp hệ thống tài chính, ERP hoặc chính phủ.
🌐

Kiểm thử nội dung toàn cầu

Nhóm nội dung/SEO đảm bảo website, RSS và email đa ngôn ngữ khai báo đúng charset để tránh lỗi hiển thị.
🧾

Pipeline nạp dữ liệu

Kiểm tra mã hóa log, CSV và ETL từ đối tác trước khi đổ vào data warehouse hoặc Spark.
🛠️

Gỡ lỗi cho developer

Nhanh chóng phát hiện xung đột BOM hoặc dữ liệu trộn mã hóa trong diff Git hay bản xuất database.

📋Hướng dẫn sử dụng

1️⃣
Tải lên hoặc dán
Tải Tệp văn bản hoặc dán nội dung để phân tích mã hóa
2️⃣
Phát hiện mã hóa
Nhấp Phát hiện để tự nhận, hoặc chọn thủ công nếu đã biết
3️⃣
Xem kết quả
Kiểm tra mã hóa, độ tin cậy, BOM và xem trước văn bản
4️⃣
Chuyển đổi khi cần
Chọn mã mục tiêu, chuyển đổi rồi tải xuống hoặc sao chép kết quả

📚Giới thiệu kỹ thuật

🔤Chuẩn mã hóa

Mã hóa phát triển để hỗ trợ ngôn ngữ khác nhau: ASCII (1963, 7 bit, 128 ký tự), ISO-8859 (8 bit, vùng địa lý), DBCS cho châu Á (GB2312, GBK, Big5, Shift-JIS). Unicode tạo chuẩn chung: UTF-8 (1-4 byte, chuẩn web), UTF-16 (2/4 byte), UTF-32 (4 byte).

🔍Thuật toán phát hiện

Phát hiện dựa trên: BOM (UTF-8 EF BB BF...), phân tích thống kê (tần suất ký tự, mẫu byte), kiểm tra hợp lệ (quy tắc UTF-8, phạm vi GB2312), heuristic (đuôi Tệp, Tiêu đề HTTP, khai báo XML). Điểm tin cậy kết hợp nhiều tín hiệu; văn bản ngắn dễ gây nhầm lẫn.

🔄Chuyển đổi mã hóa

Quy trình: giải mã byte nguồn thành code point Unicode → mã hóa sang charset đích. Xử lý ký tự không ánh xạ, chuẩn hóa Unicode (NFC/NFD), BOM, kết thúc dòng (CRLF/LF), xử lý streaming cho tệp lớn.

🐛Mojibake và cách sửa

Mojibake xuất hiện khi giải mã sai charset (ví dụ UTF-8 đọc thành Latin-1). Cách sửa: re-encode bằng charset sai rồi decode bằng charset đúng, dùng thư viện phát hiện, kiểm tra Tiêu đề/meta. Ngăn lỗi bằng cách dùng UTF-8 thống nhất và khai báo rõ ràng.

Frequently Asked Questions

Độ chính xác của phát hiện mã hóa như thế nào?

Bộ phát hiện kết hợp phát hiện BOM, phân tích thống kê và xác thực mẫu byte để ước tính bộ ký tự có khả năng nhất. Mỗi lần chạy cũng hiển thị điểm tin cậy để bạn biết khi nào nên xem xét thủ công bổ sung được khuyến nghị.
💬

Tôi có thể chuyển đổi văn bản sau khi phát hiện không?

Có. Sau khi xác định được mã hóa, bạn có thể chọn bất kỳ bộ ký tự đích nào, chuyển đổi văn bản hoàn toàn trong trình duyệt và tải xuống hoặc sao chép đầu ra đã chuyển đổi mà không cần tải lên tệp.
🔍

Tùy chọn Thêm hoặc Xóa BOM làm gì?

BOM (Byte Order Mark) là chữ ký tùy chọn ở đầu tệp UTF. Thêm BOM giúp một số công cụ Windows phát hiện mã hóa, trong khi xóa nó giữ cho tệp gọn gàng cho các môi trường UNIX. Chuyển đổi tùy chọn dựa trên nơi văn bản sẽ được sử dụng.
💡

Tại sao tôi vẫn thấy các ký tự lộn xộn sau khi chuyển đổi?

Nếu văn bản trước đây được giải mã bằng bộ ký tự sai, thiệt hại có thể đã được lưu. Hãy thử tải lại tệp gốc, đảm bảo mã hóa nguồn chính xác được chọn và chuyển đổi lại. Các mã hóa hỗn hợp trong một tệp duy nhất cũng có thể tạo ra mojibake.
📚

Văn bản của tôi có được tải lên hoặc lưu trữ không?

Không. Phát hiện và chuyển đổi hoàn toàn diễn ra trong trình duyệt của bạn. Tệp không bao giờ rời khỏi thiết bị của bạn nên các tài liệu bí mật vẫn ở chế độ riêng tư.

💡Các thực hành tốt nhất

💡

Luôn dùng UTF-8

Sử dụng UTF-8 mặc định cho DB, Tệp, HTTP, HTML. Khai báo charset rõ ràng để tránh mojibake.
🔍

Phát hiện trước khi chuyển

Luôn phát hiện mã hóa trước khi chuyển đổi; kiểm tra điểm tin cậy và xác nhận thủ công nếu cần.
📝

Xử lý BOM đúng cách

Kiểm tra BOM để xác định mã hóa; thêm/xóa tùy theo yêu cầu hệ thống đích.
🩺

Kiểm tra lỗi mojibake

Phân tích mẫu ký tự để xác định mã hóa gốc và mã hóa sai; thử sửa trên mẫu trước khi áp dụng toàn bộ.
⚠️

Xác thực tại ranh giới

Kiểm tra mã hóa khi đọc Tệp, HTTP, DB, API. Đừng trộn mã trong cùng tệp/cột.

🔗Tài liệu liên quan

User Comments

0 / 2000
Loading...