Browserbasierter Kodierungsdetektor mit Beispiel-Ladevorgang, Konvertierungstipps und Dokumentation in 16 Sprachen.
Features
- Smart Erkennung: Automatically detect text encoding using statistical analysis, BOM detection, character pattern recognition. Support UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, ISO-8859 series, Windows-1252 mit confidence Scores
- Charset Konvertierung: Konvertieren text zwischen beliebige unterstützt encodings: UTF-8 ↔ GBK ↔ Big5, fix mojibake issues, hinzufügen oder entfernen BOM markers, handle surrogate pairs und combining characters correctly
- Codierung Diagnosis: Identify encoding problems: invalid byte sequences, mixed encodings in same Datei, BOM mismatches, surrogate pair errors mit suggestions für fixing and detailed Fehler Rapports
- Stapelverarbeitung: Process plusieurs Dateien simultaneously mit encoding detection, convert entire Répertoires, preserve Datei structure, Generieren Conversion Rapports mit statistics and Fehler Journaux
Use Cases
- Migration von Legacy-Systemen: GBK/Big5-Archive in UTF-8 überführen, wenn Finanz-, ERP- oder Behördensysteme modernisiert werden.
- Globales Content-QA: Content- und SEO-Teams prüfen, ob mehrsprachige Sites, Feeds und E-Mails den richtigen Zeichensatz deklarieren.
- Daten-Ingestion-Pipelines: Kodierung von Partner-Logs, CSV-Exporten und ETL-Eingaben kontrollieren, bevor sie ins Warehouse oder nach Spark fließen.
- Entwickler-Debugging: BOM-Konflikte oder Mischkodierungen in Git-Diffs und Datenbank-Exports sofort sichtbar machen.
Usage Guide
- Hochladen oder Einfügen: Laden Sie eine Textdatei hoch oder fügen Sie Textinhalt für die Kodierungsanalyse ein
- Kodierung erkennen: Klicken Sie auf Erkennen, um die Kodierung automatisch zu identifizieren, oder geben Sie sie manuell an, falls bekannt
- Ergebnisse überprüfen: Überprüfen Sie die erkannte Kodierung, das Vertrauensniveau, das Vorhandensein von BOM und die Textvorschau
- Bei Bedarf konvertieren: Wählen Sie die Zielkodierung aus, konvertieren Sie den Text, laden Sie das konvertierte Ergebnis herunter oder kopieren Sie es
Technical Details
Codierung Standards
Character encodings evolved to Support different Sprachen: ASCII (1963, 7-bit, 128 chars, English). ISO-8859 series (8-bit, 256 chars, regional: -1 Latin, -2 Central European, -5 Cyrillic, -6 Arabic). DBCS (Double-Byte) für Asian Sprachen: GB2312 (1980, 6763 simplified Chinese), GBK (21886 chars, GB2312 extension), Big5 (13060 traditional Chinese), Shift-JIS (Japanese, complex byte rules). Unicode consortium Créé universal encoding: UTF-8 (variable 1-4 bytes, ASCII compatible, web standard), UTF-16 (2 or 4 bytes, Windows/Java Standard, BOM Erforderlich), UTF-32 (fixed 4 bytes, wasteful but simple). Modern systems prefer UTF-8 für storage, UTF-16 für in-memory Traitement.
Erkennung Algorithmen
Encoding detection uses plusieurs techniques: 1) BOM detection: UTF-8 (EF BB BF), UTF-16 LE (FF FE), UTF-16 BE (FE FF), UTF-32 LE (FF FE 00 00). 2) Statistical analysis: character frequency distribution, byte patterns, valid byte sequences. Libraries like chardet (Python), ICU (C++), jschardet (JavaScript) use character n-grams and Sprache models trained on sample texts. 3) Validation: check if bytes fürm valid sequences für encoding (UTF-8 has specific continuation byte rules, GB2312 has defined Code ranges). 4) Heuristics: Datei extension (.txt), HTTP headers (charset), XML declaration (<?xml encoding="">). Confidence Scores combine plusieurs signals. False positives occur mit short texts or rare characters.
Codierung Konvertierung
Konvertierung zwischen encodings requires: 1) Decodieren source bytes zu Unicode code Points Verwendung source Codierung. 2) Codieren code Points zu target Codierung. Challenges: Unmappable characters (nicht alle Unicode chars exist in legacy encodings) - handle mit replacement char (�), HTML entities, oder Fehler. Normalization: Unicode hat plusieurs representations für same character (é kann sein single code Point U+00E9 oder e + combining accent), NFC normalizes zu composed, NFD zu decomposed. BOM handling: hinzufügen für UTF-16/32, Optional für UTF-8 (normalerweise omitted). Line endings: CRLF (Windows) vs LF (Unix) require separate handling. Streaming Konvertierung für groß Fichiers processes chunks mit stateful decoders maintaining context zwischen chunks.
Frequently Asked Questions
- Wie zuverlässig ist die Zeichencodierungs-Erkennung?
- Der Detektor kombiniert BOM-Erkennung, statistische Analysen und die Validierung gültiger Bytesequenzen, um den wahrscheinlichsten Zeichensatz zu bestimmen. Jede Ausführung liefert auch einen Vertrauenswert, sodass du bei niedrigen Werten manuell nachprüfen kannst.
- Kann ich den Text nach der Erkennung konvertieren?
- Ja. Sobald die Quellcodierung erkannt wurde, wählst du einen Zielzeichensatz, führst die Umwandlung direkt im Browser aus und kannst das Ergebnis kopieren oder herunterladen – ganz ohne Datei-Hochladen.
- Was bewirkt die Option „BOM hinzufügen oder entfernen“?
- Ein BOM (Byte Order Mark) ist eine optionale Signatur am Anfang von UTF-Dateien. Sie hilft manchen Windows-Tools, die Codierung zu erkennen, während man sie in UNIX-Umgebungen meist entfernt. Wechsle die Einstellung je nach Zielplattform.
- Warum sehe ich trotz Konvertierung noch Zeichenwirrwarr?
- Wenn eine Datei früher mit dem falschen Zeichensatz gespeichert wurde, sind die Bytes eventuell bereits beschädigt. Lade die Originaldatei erneut, kontrolliere die Quellcodierung und bedenke, dass gemischte Codierungen in einer Datei ebenfalls Mojibake erzeugen.
- Werden meine Texte hochgeladen oder gespeichert?
- Nein. Erkennung und Konvertierung laufen vollständig im Browser, sodass deine Dateien das Gerät nie verlassen.
Related Documentation
- Unicode Standard - Official Unicode character Codierung specification
- RFC 3629 - UTF-8 Specification - UTF-8 encoding fürmat standard
- GB18030 Chinese Codierung - Chinese national standard character Codierung
- ICU Character Codierung Erkennung - International Components für Unicode detection library
- Character Codierung Best Practices - W3C guidelines für handling character encodings