🔤

Détecteur Encodage Texte

Détecteur d'encodage 100 % navigateur avec chargement d'exemple, conseils de conversion et documentation localisée en 16 langues.

Entrée Texte

Qu'est-ce qu'Encodage Caractères

L'encodage de caractères est un système mappant caractères vers valeurs binaires pour stockage et transmission ordinateur. Différents encodages utilisent mappages différents : ASCII utilise 7 bits (128 caractères, anglais uniquement), ISO-8859-1 (Latin-1) étend à 8 bits (256 caractères, européen occidental), GB2312/GBK pour chinois simplifié, Big5 pour chinois traditionnel, Shift-JIS pour japonais, UTF-8 (1-4 octets, universel, Compatible ASCII arrière), UTF-16 (2 ou 4 octets). Mojibake (texte brouillé comme �) se produit quand texte encodé dans un jeu caractères est décodé avec autre. BOM (Byte Order Mark) est signature optionnelle début fichier identifiant encodage. Détection encodage appropriée empêche corruption données et assure affichage texte correct entre systèmes et langues.

Caractéristiques

🔍

Détection Intelligente

Détecter automatiquement encodage texte utilisant analyse statistique, détection BOM, reconnaissance motifs caractères. Supporter UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, séries ISO-8859, Windows-1252 avec Scores confiance
🔄

Conversion Jeu Caractères

Convertir texte entre encodages Supportés quelconques : UTF-8 ↔ GBK ↔ Big5, corriger problèmes mojibake, ajouter ou supprimer marqueurs BOM, gérer correctement paires substitution et caractères combinés
🩺

Diagnostic Encodage

Identifier problèmes encodage : séquences octets invalides, encodages mixtes dans même fichier, non-correspondances BOM, erreurs paires substitution avec suggestions correction et rapports erreurs détaillés
📦

Traitement Lot

Traiter fichiers multiples simultanément avec détection encodage, convertir répertoires entiers, préserver structure fichiers, générer rapports Conversion avec statistiques et journaux erreurs
🎯

Cas d'usage

🏢

Migration de systèmes legacy

Convertir des archives GBK/Big5 en UTF-8 lors de la modernisation de finances, ERP ou administrations.
🌐

QA contenu mondial

Les équipes contenu/SEO vérifient que sites multilingues, flux RSS et emails déclarent le bon charset pour éviter le mojibake.
🧾

Pipelines d'ingestion de données

Contrôler l'encodage des journaux partenaires, exports CSV et entrées ETL avant de les pousser dans l'entrepôt ou Spark.
🛠️

Debug développeur

Identifier rapidement conflits BOM ou encodages mélangés dans les diff Git ou exports base de données.

📋Guide d'utilisation

1️⃣
Téléverser ou Coller
Téléverser fichier texte ou coller contenu texte pour analyse encodage
2️⃣
Détecter Encodage
Cliquer détecter pour identifier automatiquement encodage, ou spécifier manuellement si connu
3️⃣
Examiner Résultats
Vérifier encodage détecté, niveau confiance, présence BOM, aperçu texte
4️⃣
Convertir si Nécessaire
Sélectionner encodage cible, convertir texte, télécharger ou copier résultat converti

📚Introduction technique

🔤Normes Encodage

Les encodages de caractères ont évolué pour supporter différentes langues : ASCII (1963, 7 bits, 128 caractères, anglais). Série ISO-8859 (8 bits, 256 caractères, régional : -1 latin, -2 Europe centrale, -5 cyrillique, -6 arabe). DBCS (Double-Byte) pour langues asiatiques : GB2312 (1980, 6763 chinois simplifié), GBK (21886 caractères, extension GB2312), Big5 (13060 chinois traditionnel), Shift-JIS (japonais, règles octets complexes). Consortium Unicode a créé encodage universel : UTF-8 (variable 1-4 octets, Compatible ASCII, standard web), UTF-16 (2 ou 4 octets, défaut Windows/Java, BOM requis), UTF-32 (fixe 4 octets, gaspillage mais Simple). Systèmes modernes préfèrent UTF-8 pour stockage, UTF-16 pour traitement mémoire.

🔍Algorithmes Détection

Détection encodage utilise techniques multiples : 1) Détection BOM : UTF-8 (EF BB BF), UTF-16 LE (FF FE), UTF-16 BE (FE FF), UTF-32 LE (FF FE 00 00). 2) Analyse statistique : distribution fréquence caractères, motifs octets, séquences octets valides. Bibliothèques comme chardet (Python), ICU (C++), jschardet (JavaScript) utilisent n-grammes caractères et modèles langue entraînés sur textes échantillons. 3) Validation : vérifier si octets forment séquences valides pour encodage (UTF-8 a règles octets continuation spécifiques, GB2312 a plages codes définies). 4) Heuristiques : extension fichier (.txt), en-têtes HTTP (charset), déclaration XML (<?xml encoding="">). Scores confiance combinent signaux multiples. Faux positifs surviennent avec textes courts ou caractères rares.

🔄Conversion Encodage

Conversion entre encodages nécessite : 1) Décoder octets source en Points code Unicode utilisant encodage source. 2) Encoder Points code en encodage cible. Défis : Caractères non mappables (pas tous caractères Unicode existent dans encodages hérités) - gérer avec caractère remplacement (�), entités HTML, ou erreur. Normalisation : Unicode a représentations multiples pour même caractère (é peut être Point code unique U+00E9 ou e + accent combiné), NFC normalise en composé, NFD en décomposé. Gestion BOM : ajouter pour UTF-16/32, optionnel pour UTF-8 (généralement omis). Fins ligne : CRLF (Windows) vs LF (Unix) nécessitent traitement séparé. Conversion streaming fichiers volumineux traite morceaux avec décodeurs avec état maintenant contexte entre morceaux.

🐛Mojibake et Corrections

Mojibake (文字化け, texte brouillé) provient non-correspondance encodage : texte UTF-8 interprété comme Latin-1 montre à au lieu é, chinois montre � ou 中文. Causes communes : serveur envoie UTF-8 sans en-tête charset, éditeur sauvegarde avec encodage incorrect, base données stocke UTF-8 dans colonne Latin-1. Corrections : 1) Re-décoder avec encodage correct : si texte est UTF-8 mais décodé comme Latin-1, ré-encoder en octets Latin-1 puis décoder comme UTF-8. 2) Utiliser bibliothèque détection encodage. 3) Vérifier en-têtes HTTP, balises meta HTML, déclarations XML. Prévention : Toujours utiliser UTF-8 partout, déclarer encodage explicitement, valider données aux frontières. Bibliothèque Ftfy (Python) corrige automatiquement mojibake utilisant motifs statistiques.

Frequently Asked Questions

Quelle est la précision de la détection d'encodage ?

Le détecteur combine la détection BOM, l'analyse statistique et la validation des modèles d'octets pour estimer le jeu de caractères le plus probable. Chaque exécution expose également un Score de confiance afin que vous sachiez quand un examen manuel supplémentaire est recommandé.
💬

Puis-je convertir le texte après la détection ?

Oui. Une fois qu'un encodage est identifié, vous pouvez choisir n'importe quel jeu de caractères cible, convertir le texte entièrement dans le navigateur et télécharger ou copier la sortie convertie sans télécharger de fichiers.
🔍

Que fait l'option Ajouter ou Supprimer le BOM ?

Un BOM (Byte Order Mark) est une signature optionnelle au début des fichiers UTF. L'ajout d'un BOM aide certains outils Windows à détecter l'encodage, tandis que sa suppression garde les fichiers compacts pour les environnements UNIX. Basculez l'option en fonction de l'endroit où le texte sera utilisé.
💡

Pourquoi vois-je encore des caractères illisibles après la Conversion ?

Si le texte a été décodé précédemment avec le mauvais jeu de caractères, les dommages peuvent déjà être enregistrés. Essayez de recharger le fichier d'origine, assurez-vous que l'encodage source correct est sélectionné et convertissez à nouveau. Les encodages mixtes dans un seul fichier peuvent également produire du mojibake.
📚

Mon texte est-il téléchargé ou stocké ?

Non. La détection et la Conversion se produisent entièrement dans votre navigateur. Les fichiers ne quittent jamais votre appareil, de sorte que les Documents confidentiels restent privés.

💡Meilleures Pratiques

💡

Toujours Utiliser UTF-8

Utiliser encodage UTF-8 partout par défaut - bases données, fichiers, en-têtes HTTP, balises meta HTML. UTF-8 est universel, supporte toutes langues, Compatible ASCII arrière, et est standard web. Déclarer encodage explicitement dans HTML (<meta charset="UTF-8">) et en-têtes HTTP (Content-Type: text/html; charset=utf-8). Cela empêche mojibake et assure affichage texte cohérent entre systèmes.
🔍

Détecter Avant Convertir

Toujours détecter encodage avant tenter Conversion éviter corruption données. Utiliser Scores confiance bibliothèques détection vérifier précision. Pour cas ambigus (faible confiance), inspecter manuellement texte échantillon ou essayer encodages multiples avec vérification visuelle. Jamais supposer encodage basé uniquement extension fichier ou origine - toujours valider.
📝

Gérer BOM Correctement

Vérifier BOM (Byte Order Mark) début fichier pour identification encodage définitive. BOM UTF-8 (EF BB BF) optionnel mais aide détection. UTF-16/32 nécessite BOM déterminer ordre octets (LE/BE). Certains systèmes attendent BOM, autres le rejettent - connaître système cible. Supprimer ou ajouter BOM selon besoin pendant Conversion.
🩺

Tester Corrections Mojibake

Lors correction texte brouillé, identifier encodages original et mal interprété via analyse motifs. Mojibake commun : UTF-8 comme Latin-1 (é au lieu é), chinois comme ? ou caractères aléatoires. Ré-encoder en encodage intermédiaire, puis décoder avec correct. Tester corrections sur données échantillon avant traiter fichiers entiers. Certains mojibake sont irréversibles si données déjà corrompues en base données.
⚠️

Valider aux Frontières

Valider encodage aux frontières système - lectures fichiers, requêtes HTTP, requêtes base données, appels API. Utiliser déclarations jeu caractères dans tous transferts données. Assainir et valider texte entrée détecter séquences octets invalides tôt. Enregistrer problèmes encodage pour débogage. Implémenter stratégies repli pour échecs détection encodage. Jamais mélanger encodages dans fichier unique ou colonne base données.

🔗Documents connexes

🔤RFC 3629 - Spécification UTF-8-Standard Format encodage UTF-8
📚Meilleures Pratiques Encodage Caractères-Directives W3C pour gestion encodages caractères

User Comments

0 / 2000
Loading...