Detector de codificación en el navegador con carga de ejemplo, consejos de conversión y documentación en 16 idiomas.
Características
- Detección Inteligente: Detectar automáticamente codificación texto usando análisis estadístico, detección BOM, reconocimiento patrones caracteres. Soportar UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, series ISO-8859, Windows-1252 con puntajes confianza
- Conversión Conjunto Caracteres: Convertir texto entre cualquier codificación soportada: UTF-8 ↔ GBK ↔ Big5, corregir problemas mojibake, agregar o eliminar marcadores BOM, manejar correctamente pares sustitutos y caracteres combinados
- Diagnóstico Codificación: Identificar problemas codificación: secuencias bytes inválidas, codificaciones mixtas en mismo archivo, desajustes BOM, errores pares sustitutos con sugerencias corrección e informes errores detallados
- Procesamiento Lote: Procesar archivos múltiples simultáneamente con detección codificación, convertir directorios enteros, preservar estructura archivos, generar informes conversión con estadísticas y registros errores
Casos de uso
- Migración de sistemas heredados: Convertir archivos GBK/Big5 a UTF-8 al modernizar plataformas financieras, ERP o gubernamentales.
- QA de contenido global: Los equipos de contenido y SEO verifican que sitios multilingües, feeds y correos declaren el charset correcto.
- Canalizaciones de ingesta de datos: Revisar la codificación de registros, CSV y entradas ETL de socios antes de cargarlas al data warehouse o a Spark.
- Depuración para desarrolladores: Detectar al instante conflictos de BOM o codificaciones mixtas en diffs de Git o exportaciones de bases de datos.
Guía de uso
- Subir o Pegar: Subir archivo texto o pegar contenido texto para análisis codificación
- Detectar Codificación: Hacer clic detectar para identificar automáticamente codificación, o especificar manualmente si conocido
- Revisar Resultados: Verificar codificación detectada, nivel confianza, presencia BOM, vista previa texto
- Convertir si Necesario: Seleccionar codificación objetivo, convertir texto, descargar o copiar resultado convertido
Detalles técnicos
Estándares Codificación
Las codificaciones de caracteres evolucionaron para soportar diferentes idiomas: ASCII (1963, 7 bits, 128 caracteres, inglés). Serie ISO-8859 (8 bits, 256 caracteres, regional: -1 latín, -2 Europa Central, -5 cirílico, -6 árabe). DBCS (Doble-Byte) para idiomas asiáticos: GB2312 (1980, 6763 chino simplificado), GBK (21886 caracteres, extensión GB2312), Big5 (13060 chino tradicional), Shift-JIS (japonés, reglas bytes complejas). Consorcio Unicode creó codificación universal: UTF-8 (variable 1-4 bytes, Compatible ASCII, estándar web), UTF-16 (2 o 4 bytes, predeterminado Windows/Java, BOM requerido), UTF-32 (fijo 4 bytes, derrochador pero Simple). Sistemas modernos prefieren UTF-8 para almacenamiento, UTF-16 para procesamiento memoria.
Algoritmos Detección
Detección codificación usa técnicas múltiples: 1) Detección BOM: UTF-8 (EF BB BF), UTF-16 LE (FF FE), UTF-16 BE (FE FF), UTF-32 LE (FF FE 00 00). 2) Análisis estadístico: distribución frecuencia caracteres, patrones bytes, secuencias bytes válidas. Bibliotecas como chardet (Python), ICU (C++), jschardet (JavaScript) usan n-gramas caracteres y modelos lenguaje entrenados en textos muestra. 3) Validación: verificar si bytes forman secuencias válidas para codificación (UTF-8 tiene reglas bytes continuación específicas, GB2312 tiene rangos códigos definidos). 4) Heurística: extensión archivo (.txt), encabezados HTTP (charset), declaración XML (<?xml encoding="">). Puntajes confianza combinan señales múltiples. Falsos positivos ocurren con textos cortos o caracteres raros.
Conversión Codificación
Conversión entre codificaciones requiere: 1) Decodificar bytes origen a puntos código Unicode usando codificación origen. 2) Codificar puntos código en codificación objetivo. Desafíos: Caracteres Non mapeables (Non todos caracteres Unicode existen en codificaciones heredadas) - manejar con carácter reemplazo (�), entidades HTML, o Erreur. Normalización: Unicode tiene representaciones múltiples para mismo carácter (é puede ser punto código único U+00E9 o e + acento combinado), NFC normaliza a compuesto, NFD a descompuesto. Manejo BOM: agregar para UTF-16/32, opcional para UTF-8 (generalmente omitido). Finales línea: CRLF (Windows) vs LF (Unix) requieren manejo separado. Conversión streaming archivos grandes procesa fragmentos con decodificadores con estado manteniendo contexto entre fragmentos.
Preguntas frecuentes
- ¿Qué tan precisa es la detección de codificación?
- El detector combina la detección de BOM, análisis estadístico y validación de patrones de bytes para estimar el juego de caracteres más probable. Cada ejecución muestra un puntaje de confianza para saber cuándo conviene revisar manualmente.
- ¿Puedo convertir el texto después de la detección?
- Sí. Una vez identificada la codificación de origen, elige cualquier juego de caracteres de destino, realiza la conversión directamente en el navegador y copia o descarga el resultado sin subir archivos.
- ¿Para qué sirve la opción Agregar o Quitar BOM?
- Un BOM (Byte Order Mark) es una firma opcional al inicio de los archivos UTF. Añadirlo ayuda a que algunas herramientas de Windows reconozcan la codificación, mientras que en entornos UNIX suele eliminarse para mantener los archivos ligeros. Activa la opción según el lugar donde usarás el archivo.
- ¿Por qué sigo viendo caracteres extraños tras la conversión?
- Si el texto se guardó anteriormente con un juego de caracteres incorrecto, los bytes pueden haber quedado dañados. Vuelve a cargar el archivo original, confirma que la codificación fuente sea la correcta y recuerda que mezclar codificaciones en un mismo archivo también genera mojibake.
- ¿Se sube o almacena mi texto?
- Non. La detección y la conversión ocurren íntegramente en tu navegador, por lo que los archivos nunca abandonan tu dispositivo.
Documentación relacionada
- Estándar Unicode - Especificación oficial codificación caracteres Unicode
- RFC 3629 - Especificación UTF-8 - Estándar formato codificación UTF-8
- Codificación China GB18030 - Codificación caracteres estándar nacional chino
- Detección Codificación Caracteres ICU - Biblioteca detección Componentes Internacionales para Unicode
- Mejores Prácticas Codificación Caracteres - Directrices W3C para manejo codificaciones caracteres