Détecteur d'encodage 100 % navigateur avec chargement d'exemple, conseils de conversion et documentation localisée en 16 langues.
Fonctionnalités
- Détection Intelligente: Détecter automatiquement encodage texte utilisant analyse statistique, détection BOM, reconnaissance motifs caractères. Supporter UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, séries ISO-8859, Windows-1252 avec Scores confiance
- Conversion Jeu Caractères: Convertir texte entre encodages Supportés quelconques : UTF-8 ↔ GBK ↔ Big5, corriger problèmes mojibake, ajouter ou supprimer marqueurs BOM, gérer correctement paires substitution et caractères combinés
- Diagnostic Encodage: Identifier problèmes encodage : séquences octets invalides, encodages mixtes dans même fichier, non-correspondances BOM, erreurs paires substitution avec suggestions correction et rapports erreurs détaillés
- Traitement Lot: Traiter fichiers multiples simultanément avec détection encodage, convertir répertoires entiers, préserver structure fichiers, générer rapports Conversion avec statistiques et journaux erreurs
Cas d'utilisation
- Migration de systèmes legacy: Convertir des archives GBK/Big5 en UTF-8 lors de la modernisation de finances, ERP ou administrations.
- QA contenu mondial: Les équipes contenu/SEO vérifient que sites multilingues, flux RSS et emails déclarent le bon charset pour éviter le mojibake.
- Pipelines d'ingestion de données: Contrôler l'encodage des journaux partenaires, exports CSV et entrées ETL avant de les pousser dans l'entrepôt ou Spark.
- Debug développeur: Identifier rapidement conflits BOM ou encodages mélangés dans les diff Git ou exports base de données.
Guide d'utilisation
- Téléverser ou Coller: Téléverser fichier texte ou coller contenu texte pour analyse encodage
- Détecter Encodage: Cliquer détecter pour identifier automatiquement encodage, ou spécifier manuellement si connu
- Examiner Résultats: Vérifier encodage détecté, niveau confiance, présence BOM, aperçu texte
- Convertir si Nécessaire: Sélectionner encodage cible, convertir texte, télécharger ou copier résultat converti
Détails techniques
Normes Encodage
Les encodages de caractères ont évolué pour supporter différentes langues : ASCII (1963, 7 bits, 128 caractères, anglais). Série ISO-8859 (8 bits, 256 caractères, régional : -1 latin, -2 Europe centrale, -5 cyrillique, -6 arabe). DBCS (Double-Byte) pour langues asiatiques : GB2312 (1980, 6763 chinois simplifié), GBK (21886 caractères, extension GB2312), Big5 (13060 chinois traditionnel), Shift-JIS (japonais, règles octets complexes). Consortium Unicode a créé encodage universel : UTF-8 (variable 1-4 octets, Compatible ASCII, standard web), UTF-16 (2 ou 4 octets, défaut Windows/Java, BOM requis), UTF-32 (fixe 4 octets, gaspillage mais Simple). Systèmes modernes préfèrent UTF-8 pour stockage, UTF-16 pour traitement mémoire.
Algorithmes Détection
Détection encodage utilise techniques multiples : 1) Détection BOM : UTF-8 (EF BB BF), UTF-16 LE (FF FE), UTF-16 BE (FE FF), UTF-32 LE (FF FE 00 00). 2) Analyse statistique : distribution fréquence caractères, motifs octets, séquences octets valides. Bibliothèques comme chardet (Python), ICU (C++), jschardet (JavaScript) utilisent n-grammes caractères et modèles langue entraînés sur textes échantillons. 3) Validation : vérifier si octets forment séquences valides pour encodage (UTF-8 a règles octets continuation spécifiques, GB2312 a plages codes définies). 4) Heuristiques : extension fichier (.txt), en-têtes HTTP (charset), déclaration XML (<?xml encoding="">). Scores confiance combinent signaux multiples. Faux positifs surviennent avec textes courts ou caractères rares.
Conversion Encodage
Conversion entre encodages nécessite : 1) Décoder octets source en Points code Unicode utilisant encodage source. 2) Encoder Points code en encodage cible. Défis : Caractères non mappables (pas tous caractères Unicode existent dans encodages hérités) - gérer avec caractère remplacement (�), entités HTML, ou erreur. Normalisation : Unicode a représentations multiples pour même caractère (é peut être Point code unique U+00E9 ou e + accent combiné), NFC normalise en composé, NFD en décomposé. Gestion BOM : ajouter pour UTF-16/32, optionnel pour UTF-8 (généralement omis). Fins ligne : CRLF (Windows) vs LF (Unix) nécessitent traitement séparé. Conversion streaming fichiers volumineux traite morceaux avec décodeurs avec état maintenant contexte entre morceaux.
Questions fréquentes
- Quelle est la précision de la détection d'encodage ?
- Le détecteur combine la détection BOM, l'analyse statistique et la validation des modèles d'octets pour estimer le jeu de caractères le plus probable. Chaque exécution expose également un Score de confiance afin que vous sachiez quand un examen manuel supplémentaire est recommandé.
- Puis-je convertir le texte après la détection ?
- Oui. Une fois qu'un encodage est identifié, vous pouvez choisir n'importe quel jeu de caractères cible, convertir le texte entièrement dans le navigateur et télécharger ou copier la sortie convertie sans télécharger de fichiers.
- Que fait l'option Ajouter ou Supprimer le BOM ?
- Un BOM (Byte Order Mark) est une signature optionnelle au début des fichiers UTF. L'ajout d'un BOM aide certains outils Windows à détecter l'encodage, tandis que sa suppression garde les fichiers compacts pour les environnements UNIX. Basculez l'option en fonction de l'endroit où le texte sera utilisé.
- Pourquoi vois-je encore des caractères illisibles après la Conversion ?
- Si le texte a été décodé précédemment avec le mauvais jeu de caractères, les dommages peuvent déjà être enregistrés. Essayez de recharger le fichier d'origine, assurez-vous que l'encodage source correct est sélectionné et convertissez à nouveau. Les encodages mixtes dans un seul fichier peuvent également produire du mojibake.
- Mon texte est-il téléchargé ou stocké ?
- Non. La détection et la Conversion se produisent entièrement dans votre navigateur. Les fichiers ne quittent jamais votre appareil, de sorte que les Documents confidentiels restent privés.
Documentation connexe
- Standard Unicode - Spécification officielle encodage caractères Unicode
- RFC 3629 - Spécification UTF-8 - Standard Format encodage UTF-8
- Encodage Chinois GB18030 - Encodage caractères standard national chinois
- Détection Encodage Caractères ICU - Bibliothèque détection Composants Internationaux pour Unicode
- Meilleures Pratiques Encodage Caractères - Directives W3C pour gestion encodages caractères