Браузерный детектор кодировок с загрузкой примера, подсказками по конвертации и документацией на 16 языках.
Возможности
- Умное Определение: Автоматическое определение кодировки текста с использованием статистического анализа, определения BOM, распознавания паттернов символов. Поддержка UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, серии ISO-8859, Windows-1252 с оценками уверенности
- Преобразование Кодировок: Преобразование текста между любыми поддерживаемыми кодировками: UTF-8 ↔ GBK ↔ Big5, исправление проблем кракозябр, добавление или удаление маркеров BOM, правильная обработка суррогатных пар и объединяющих символов
- Диагностика Кодировки: Идентификация проблем кодировки: недопустимые последовательности байтов, смешанные кодировки в одном файле, несоответствия BOM, ошибки суррогатных пар с предложениями по исправлению и подробными отчетами об ошибках
- Пакетная Обработка: Одновременная обработка множественных файлов с определением кодировки, преобразование целых каталогов, сохранение структуры файлов, генерация отчетов о преобразовании со статистикой и журналами ошибок
Сценарии использования
- Миграция легаси-систем: Конвертируйте архивы GBK/Big5 в UTF-8 при модернизации финансовых, ERP или государственных систем.
- Глобальный контент и SEO: Команды проверяют, что многоязычные сайты, RSS и рассылки объявляют верную кодировку и не дают кракозябры.
- Пайплайны загрузки данных: Проверяйте кодировку логов, CSV и ETL от партнёров перед загрузкой в витрины данных или Spark.
- Отладка разработчика: Быстро находите конфликты BOM или смешанные кодировки в Git diff и экспортированных дампах БД.
Руководство по использованию
- Загрузить или Вставить: Загрузить текстовый файл или вставить текстовое содержимое для анализа кодировки
- Определить Кодировку: Нажать определить для автоматической идентификации кодировки или указать вручную, если известно
- Просмотреть Результаты: Проверить обнаруженную кодировку, уровень уверенности, наличие BOM и предпросмотр текста
- Преобразовать При Необходимости: Выбрать целевую кодировку, преобразовать текст, скачать или скопировать преобразованный результат
Технические детали
Стандарты Кодирования
Кодировки символов эволюционировали для поддержки различных языков: ASCII (1963, 7 бит, 128 символов, английский). Серия ISO-8859 (8 бит, 256 символов, региональные: -1 латиница, -2 Центральная Европа, -5 кириллица, -6 арабский). DBCS (Двухбайтовый) для азиатских языков: GB2312 (1980, 6763 упрощенных китайских), GBK (21886 символов, расширение GB2312), Big5 (13060 традиционных китайских), Shift-JIS (японский, сложные правила байтов). Консорциум Unicode создал универсальную кодировку: UTF-8 (переменная 1-4 байта, совместима с ASCII, веб-стандарт), UTF-16 (2 или 4 байта, по умолчанию Windows/Java, требуется BOM), UTF-32 (фиксированные 4 байта, расточительный, но простой). Современные системы предпочитают UTF-8 для хранения, UTF-16 для обработки в памяти.
Алгоритмы Обнаружения
Обнаружение кодировки использует множественные методы: 1) Обнаружение BOM: UTF-8 (EF BB BF), UTF-16 LE (FF FE), UTF-16 BE (FE FF), UTF-32 LE (FF FE 00 00). 2) Статистический анализ: распределение частоты символов, паттерны байтов, допустимые последовательности байтов. Библиотеки как chardet (Python), ICU (C++), jschardet (JavaScript) используют символьные n-граммы и языковые модели, обученные на образцах текстов. 3) Валидация: проверка формирования байтами допустимых последовательностей для кодировки (UTF-8 имеет специфические правила байтов продолжения, GB2312 имеет определенные диапазоны кодов). 4) Эвристика: расширение файла (.txt), HTTP заголовки (charset), XML объявления (<?xml encoding="">). Оценки уверенности комбинируют множественные сигналы. Ложноположительные результаты возникают с короткими текстами или редкими символами.
Преобразование Кодировки
Преобразование между кодировками требует: 1) Декодировать исходные байты в кодовые точки Unicode, используя исходную кодировку. 2) Кодировать кодовые точки в целевую кодировку. Проблемы: Несопоставимые символы (не все символы Unicode существуют в устаревших кодировках) - обрабатывать символом замены (�), HTML-сущностями или ошибкой. Нормализация: Unicode имеет множественные представления для одного символа (é может быть одной кодовой точкой U+00E9 или e + комбинирующий акцент), NFC нормализует в составную, NFD в разложенную. Обработка BOM: добавлять для UTF-16/32, опционально для UTF-8 (обычно опущено). Окончания строк: CRLF (Windows) vs LF (Unix) требуют отдельной обработки. Потоковое преобразование больших файлов обрабатывает фрагменты с декодерами с состоянием, поддерживающими контекст между фрагментами.
Часто задаваемые вопросы
- Насколько точно определение кодировки?
- Детектор сочетает определение BOM, статистический анализ и проверку байтовых шаблонов для оценки наиболее вероятной кодировки. Каждый запуск также показывает оценку достоверности, чтобы вы знали, когда рекомендуется дополнительная ручная проверка.
- Могу ли я преобразовать текст после определения?
- Да. После определения кодировки вы можете выбрать любую целевую кодировку, полностью преобразовать текст в браузере и загрузить или скопировать преобразованный вывод без загрузки файлов.
- Что делает опция добавления или удаления BOM?
- BOM (Byte Order Mark) — это необязательная подпись в начале файлов UTF. Добавление BOM помогает некоторым инструментам Windows определять кодировку, а её удаление делает файлы компактными для сред UNIX. Переключайте опцию в зависимости от того, где будет использоваться текст.
- Почему я все еще вижу искаженные символы после преобразования?
- Если текст был ранее декодирован с неправильной кодировкой, повреждение может быть уже сохранено. Попробуйте перезагрузить исходный файл, убедитесь, что выбрана правильная исходная кодировка, и преобразуйте снова. Смешанные кодировки в одном файле также могут вызывать mojibake.
- Загружается или сохраняется ли мой текст?
- Нет. Определение и преобразование происходят полностью в вашем браузере. Файлы никогда не покидают ваше устройство, поэтому конфиденциальные документы остаются приватными.
Связанная документация
- Стандарт Unicode - Официальная спецификация кодировки символов Unicode
- RFC 3629 - Спецификация UTF-8 - Стандарт формата кодировки UTF-8
- Китайская Кодировка GB18030 - Национальный стандарт кодировки символов Китая
- Определение Кодировки Символов ICU - Библиотека определения международных компонентов для Unicode
- Лучшие Практики Кодировки Символов - Руководство W3C по обработке кодировок символов