🔤

Detector Codificación Texto

Detector de codificación en el navegador con carga de ejemplo, consejos de conversión y documentación en 16 idiomas.

Entrada Texto

Qué es Codificación Caracteres

La codificación de caracteres es un sistema que mapea caracteres a valores binarios para almacenamiento y transmisión de computadora. Diferentes codificaciones usan mapeos diferentes: ASCII usa 7 bits (128 caracteres, solo inglés), ISO-8859-1 (Latin-1) se extiende a 8 bits (256 caracteres, europeo occidental), GB2312/GBK para chino simplificado, Big5 para chino tradicional, Shift-JIS para japonés, UTF-8 (1-4 bytes, universal, Compatible ASCII hacia atrás), UTF-16 (2 o 4 bytes). Mojibake (texto confuso como �) ocurre cuando texto codificado en un conjunto caracteres se decodifica con otro. BOM (Byte Order Mark) es firma opcional inicio archivo identificando codificación. Detección codificación apropiada previene corrupción datos y asegura visualización texto correcta entre sistemas e idiomas.

Características

🔍

Detección Inteligente

Detectar automáticamente codificación texto usando análisis estadístico, detección BOM, reconocimiento patrones caracteres. Soportar UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, series ISO-8859, Windows-1252 con puntajes confianza
🔄

Conversión Conjunto Caracteres

Convertir texto entre cualquier codificación soportada: UTF-8 ↔ GBK ↔ Big5, corregir problemas mojibake, agregar o eliminar marcadores BOM, manejar correctamente pares sustitutos y caracteres combinados
🩺

Diagnóstico Codificación

Identificar problemas codificación: secuencias bytes inválidas, codificaciones mixtas en mismo archivo, desajustes BOM, errores pares sustitutos con sugerencias corrección e informes errores detallados
📦

Procesamiento Lote

Procesar archivos múltiples simultáneamente con detección codificación, convertir directorios enteros, preservar estructura archivos, generar informes conversión con estadísticas y registros errores
🎯

Casos de uso

🏢

Migración de sistemas heredados

Convertir archivos GBK/Big5 a UTF-8 al modernizar plataformas financieras, ERP o gubernamentales.
🌐

QA de contenido global

Los equipos de contenido y SEO verifican que sitios multilingües, feeds y correos declaren el charset correcto.
🧾

Canalizaciones de ingesta de datos

Revisar la codificación de registros, CSV y entradas ETL de socios antes de cargarlas al data warehouse o a Spark.
🛠️

Depuración para desarrolladores

Detectar al instante conflictos de BOM o codificaciones mixtas en diffs de Git o exportaciones de bases de datos.

📋Guía de uso

1️⃣
Subir o Pegar
Subir archivo texto o pegar contenido texto para análisis codificación
2️⃣
Detectar Codificación
Hacer clic detectar para identificar automáticamente codificación, o especificar manualmente si conocido
3️⃣
Revisar Resultados
Verificar codificación detectada, nivel confianza, presencia BOM, vista previa texto
4️⃣
Convertir si Necesario
Seleccionar codificación objetivo, convertir texto, descargar o copiar resultado convertido

📚Introducción técnica

🔤Estándares Codificación

Las codificaciones de caracteres evolucionaron para soportar diferentes idiomas: ASCII (1963, 7 bits, 128 caracteres, inglés). Serie ISO-8859 (8 bits, 256 caracteres, regional: -1 latín, -2 Europa Central, -5 cirílico, -6 árabe). DBCS (Doble-Byte) para idiomas asiáticos: GB2312 (1980, 6763 chino simplificado), GBK (21886 caracteres, extensión GB2312), Big5 (13060 chino tradicional), Shift-JIS (japonés, reglas bytes complejas). Consorcio Unicode creó codificación universal: UTF-8 (variable 1-4 bytes, Compatible ASCII, estándar web), UTF-16 (2 o 4 bytes, predeterminado Windows/Java, BOM requerido), UTF-32 (fijo 4 bytes, derrochador pero Simple). Sistemas modernos prefieren UTF-8 para almacenamiento, UTF-16 para procesamiento memoria.

🔍Algoritmos Detección

Detección codificación usa técnicas múltiples: 1) Detección BOM: UTF-8 (EF BB BF), UTF-16 LE (FF FE), UTF-16 BE (FE FF), UTF-32 LE (FF FE 00 00). 2) Análisis estadístico: distribución frecuencia caracteres, patrones bytes, secuencias bytes válidas. Bibliotecas como chardet (Python), ICU (C++), jschardet (JavaScript) usan n-gramas caracteres y modelos lenguaje entrenados en textos muestra. 3) Validación: verificar si bytes forman secuencias válidas para codificación (UTF-8 tiene reglas bytes continuación específicas, GB2312 tiene rangos códigos definidos). 4) Heurística: extensión archivo (.txt), encabezados HTTP (charset), declaración XML (<?xml encoding="">). Puntajes confianza combinan señales múltiples. Falsos positivos ocurren con textos cortos o caracteres raros.

🔄Conversión Codificación

Conversión entre codificaciones requiere: 1) Decodificar bytes origen a puntos código Unicode usando codificación origen. 2) Codificar puntos código en codificación objetivo. Desafíos: Caracteres Non mapeables (Non todos caracteres Unicode existen en codificaciones heredadas) - manejar con carácter reemplazo (�), entidades HTML, o Erreur. Normalización: Unicode tiene representaciones múltiples para mismo carácter (é puede ser punto código único U+00E9 o e + acento combinado), NFC normaliza a compuesto, NFD a descompuesto. Manejo BOM: agregar para UTF-16/32, opcional para UTF-8 (generalmente omitido). Finales línea: CRLF (Windows) vs LF (Unix) requieren manejo separado. Conversión streaming archivos grandes procesa fragmentos con decodificadores con estado manteniendo contexto entre fragmentos.

🐛Mojibake y Correcciones

Mojibake (文字化け, texto confuso) proviene desajuste codificación: texto UTF-8 interpretado como Latin-1 muestra à en lugar é, chino muestra � o 中文. Causas comunes: servidor envía UTF-8 sin encabezado charset, editor guarda con codificación incorrecta, base datos almacena UTF-8 en columna Latin-1. Correcciones: 1) Re-decodificar con codificación correcta: si texto es UTF-8 pero decodificado como Latin-1, re-codificar a bytes Latin-1 luego decodificar como UTF-8. 2) Usar biblioteca detección codificación. 3) Verificar encabezados HTTP, etiquetas meta HTML, declaraciones XML. Prevención: Siempre usar UTF-8 en todas partes, declarar codificación explícitamente, validar datos en fronteras. Biblioteca Ftfy (Python) corrige automáticamente mojibake usando patrones estadísticos.

Frequently Asked Questions

¿Qué tan precisa es la detección de codificación?

El detector combina la detección de BOM, análisis estadístico y validación de patrones de bytes para estimar el juego de caracteres más probable. Cada ejecución muestra un puntaje de confianza para saber cuándo conviene revisar manualmente.
💬

¿Puedo convertir el texto después de la detección?

Sí. Una vez identificada la codificación de origen, elige cualquier juego de caracteres de destino, realiza la conversión directamente en el navegador y copia o descarga el resultado sin subir archivos.
🔍

¿Para qué sirve la opción Agregar o Quitar BOM?

Un BOM (Byte Order Mark) es una firma opcional al inicio de los archivos UTF. Añadirlo ayuda a que algunas herramientas de Windows reconozcan la codificación, mientras que en entornos UNIX suele eliminarse para mantener los archivos ligeros. Activa la opción según el lugar donde usarás el archivo.
💡

¿Por qué sigo viendo caracteres extraños tras la conversión?

Si el texto se guardó anteriormente con un juego de caracteres incorrecto, los bytes pueden haber quedado dañados. Vuelve a cargar el archivo original, confirma que la codificación fuente sea la correcta y recuerda que mezclar codificaciones en un mismo archivo también genera mojibake.
📚

¿Se sube o almacena mi texto?

Non. La detección y la conversión ocurren íntegramente en tu navegador, por lo que los archivos nunca abandonan tu dispositivo.

💡Mejores Prácticas

💡

Siempre Usar UTF-8

Use codificación UTF-8 en todas partes por defecto - bases datos, archivos, encabezados HTTP, etiquetas meta HTML. UTF-8 es universal, soporta todos idiomas, Compatible ASCII hacia atrás, y es estándar web. Declare codificación explícitamente en HTML (<meta charset="UTF-8">) y encabezados HTTP (Content-Type: text/html; charset=utf-8). Esto previene mojibake y asegura visualización texto consistente entre sistemas.
🔍

Detectar Antes Convertir

Siempre detecte codificación antes intentar conversión evitar corrupción datos. Use puntajes confianza bibliotecas detección verificar precisión. Para casos ambiguos (baja confianza), inspeccione muestra texto manualmente o pruebe codificaciones múltiples con verificación visual. Nunca asuma codificación basado únicamente extensión archivo u origen - siempre valide.
📝

Manejar BOM Correctamente

Verifique BOM (Byte Order Mark) inicio archivo para identificación codificación definitiva. UTF-8 BOM (EF BB BF) opcional pero ayuda detección. UTF-16/32 requiere BOM determinar orden bytes (LE/BE). Algunos sistemas esperan BOM, otros lo rechazan - conozca sistema objetivo. Elimine o agregue BOM según necesidad durante conversión.
🩺

Probar Correcciones Mojibake

Al corregir texto confuso, identifique codificaciones original y mal interpretada mediante análisis patrones. Mojibake común: UTF-8 como Latin-1 (é en lugar é), chino como ? o caracteres aleatorios. Re-codifique a codificación intermedia, luego decodifique con correcta. Pruebe correcciones en datos muestra antes procesar archivos enteros. Algunos mojibake son irreversibles si datos ya corruptos en base datos.
⚠️

Validar en Fronteras

Valide codificación en fronteras sistema - lecturas archivos, solicitudes HTTP, consultas base datos, llamadas API. Use declaraciones charset en todas transferencias datos. Sanitice y valide texto entrada detectar secuencias bytes inválidas temprano. Registre problemas codificación para depuración. Implemente estrategias respaldo para fallos detección codificación. Nunca mezcle codificaciones dentro archivo único o columna base datos.

🔗Documentos relacionados

🔤RFC 3629 - Especificación UTF-8-Estándar formato codificación UTF-8
🔧Detección Codificación Caracteres ICU-Biblioteca detección Componentes Internacionales para Unicode
📚Mejores Prácticas Codificación Caracteres-Directrices W3C para manejo codificaciones caracteres

User Comments

0 / 2000
Loading...