🔤

Text-Kodierungs-Detektor

Browserbasierter Kodierungsdetektor mit Beispiel-Ladevorgang, Konvertierungstipps und Dokumentation in 16 Sprachen.

Text Eingabe

War ist Character Codierung

Character encoding is a system mapping characters to binary values für computer storage and transmission. Different encodings use different mappings: ASCII uses 7 bits (128 characters, English only), ISO-8859-1 (Latin-1) extends to 8 bits (256 characters, Western European), GB2312/GBK für simplified Chinese, Big5 für traditional Chinese, Shift-JIS für Japanese, UTF-8 (1-4 bytes, universal, backward compatible mit ASCII), UTF-16 (2 or 4 bytes). Mojibake (garbled text like �) occurs when text encoded in one charset is decoded mit another. BOM (Byte Order Mark) is Optional signature at Datei Starten identifying encoding. Proper encoding detection prevents data corruption and ensures correct text display across systems and Sprachen.

Funktionen

🔍

Smart Erkennung

Automatically detect text encoding using statistical analysis, BOM detection, character pattern recognition. Support UTF-8/16/32, GBK, GB2312, Big5, Shift-JIS, ISO-8859 series, Windows-1252 mit confidence Scores
🔄

Charset Konvertierung

Konvertieren text zwischen beliebige unterstützt encodings: UTF-8 ↔ GBK ↔ Big5, fix mojibake issues, hinzufügen oder entfernen BOM markers, handle surrogate pairs und combining characters correctly
🩺

Codierung Diagnosis

Identify encoding problems: invalid byte sequences, mixed encodings in same Datei, BOM mismatches, surrogate pair errors mit suggestions für fixing and detailed Fehler Rapports
📦

Stapelverarbeitung

Process plusieurs Dateien simultaneously mit encoding detection, convert entire Répertoires, preserve Datei structure, Generieren Conversion Rapports mit statistics and Fehler Journaux
🎯

Anwendungsszenarien

🏢

Migration von Legacy-Systemen

GBK/Big5-Archive in UTF-8 überführen, wenn Finanz-, ERP- oder Behördensysteme modernisiert werden.
🌐

Globales Content-QA

Content- und SEO-Teams prüfen, ob mehrsprachige Sites, Feeds und E-Mails den richtigen Zeichensatz deklarieren.
🧾

Daten-Ingestion-Pipelines

Kodierung von Partner-Logs, CSV-Exporten und ETL-Eingaben kontrollieren, bevor sie ins Warehouse oder nach Spark fließen.
🛠️

Entwickler-Debugging

BOM-Konflikte oder Mischkodierungen in Git-Diffs und Datenbank-Exports sofort sichtbar machen.

📋Verwendungsanleitung

1️⃣
Hochladen oder Einfügen
Laden Sie eine Textdatei hoch oder fügen Sie Textinhalt für die Kodierungsanalyse ein
2️⃣
Kodierung erkennen
Klicken Sie auf Erkennen, um die Kodierung automatisch zu identifizieren, oder geben Sie sie manuell an, falls bekannt
3️⃣
Ergebnisse überprüfen
Überprüfen Sie die erkannte Kodierung, das Vertrauensniveau, das Vorhandensein von BOM und die Textvorschau
4️⃣
Bei Bedarf konvertieren
Wählen Sie die Zielkodierung aus, konvertieren Sie den Text, laden Sie das konvertierte Ergebnis herunter oder kopieren Sie es

📚Technische Einführung

🔤Codierung Standards

Character encodings evolved to Support different Sprachen: ASCII (1963, 7-bit, 128 chars, English). ISO-8859 series (8-bit, 256 chars, regional: -1 Latin, -2 Central European, -5 Cyrillic, -6 Arabic). DBCS (Double-Byte) für Asian Sprachen: GB2312 (1980, 6763 simplified Chinese), GBK (21886 chars, GB2312 extension), Big5 (13060 traditional Chinese), Shift-JIS (Japanese, complex byte rules). Unicode consortium Créé universal encoding: UTF-8 (variable 1-4 bytes, ASCII compatible, web standard), UTF-16 (2 or 4 bytes, Windows/Java Standard, BOM Erforderlich), UTF-32 (fixed 4 bytes, wasteful but simple). Modern systems prefer UTF-8 für storage, UTF-16 für in-memory Traitement.

🔍Erkennung Algorithmen

Encoding detection uses plusieurs techniques: 1) BOM detection: UTF-8 (EF BB BF), UTF-16 LE (FF FE), UTF-16 BE (FE FF), UTF-32 LE (FF FE 00 00). 2) Statistical analysis: character frequency distribution, byte patterns, valid byte sequences. Libraries like chardet (Python), ICU (C++), jschardet (JavaScript) use character n-grams and Sprache models trained on sample texts. 3) Validation: check if bytes fürm valid sequences für encoding (UTF-8 has specific continuation byte rules, GB2312 has defined Code ranges). 4) Heuristics: Datei extension (.txt), HTTP headers (charset), XML declaration (<?xml encoding="">). Confidence Scores combine plusieurs signals. False positives occur mit short texts or rare characters.

🔄Codierung Konvertierung

Konvertierung zwischen encodings requires: 1) Decodieren source bytes zu Unicode code Points Verwendung source Codierung. 2) Codieren code Points zu target Codierung. Challenges: Unmappable characters (nicht alle Unicode chars exist in legacy encodings) - handle mit replacement char (�), HTML entities, oder Fehler. Normalization: Unicode hat plusieurs representations für same character (é kann sein single code Point U+00E9 oder e + combining accent), NFC normalizes zu composed, NFD zu decomposed. BOM handling: hinzufügen für UTF-16/32, Optional für UTF-8 (normalerweise omitted). Line endings: CRLF (Windows) vs LF (Unix) require separate handling. Streaming Konvertierung für groß Fichiers processes chunks mit stateful decoders maintaining context zwischen chunks.

🐛Mojibake und Fixes

Mojibake (文字化け, garbled text) occurs from encoding mismatch: UTF-8 text interpreted as Latin-1 shows à instead of é, Chinese shows � or 中文. Common causes: server sends UTF-8 mitout charset Kopfzeile, editor saves mit wrong encoding, database stores UTF-8 in Latin-1 Spalte. Fixes: 1) Re-decode mit correct encoding: if text is UTF-8 but decoded as Latin-1, re-encode to Latin-1 bytes then decode as UTF-8. 2) Use encoding detection library. 3) Check HTTP headers, HTML meta Tags, XML declarations. Prevention: Always use UTF-8 everywhere, declare encoding explicitly, validate data at boundaries. Ftfy (Python) library automatically fixes mojibake using statistical patterns.

Frequently Asked Questions

Wie zuverlässig ist die Zeichencodierungs-Erkennung?

Der Detektor kombiniert BOM-Erkennung, statistische Analysen und die Validierung gültiger Bytesequenzen, um den wahrscheinlichsten Zeichensatz zu bestimmen. Jede Ausführung liefert auch einen Vertrauenswert, sodass du bei niedrigen Werten manuell nachprüfen kannst.
💬

Kann ich den Text nach der Erkennung konvertieren?

Ja. Sobald die Quellcodierung erkannt wurde, wählst du einen Zielzeichensatz, führst die Umwandlung direkt im Browser aus und kannst das Ergebnis kopieren oder herunterladen – ganz ohne Datei-Hochladen.
🔍

Was bewirkt die Option „BOM hinzufügen oder entfernen“?

Ein BOM (Byte Order Mark) ist eine optionale Signatur am Anfang von UTF-Dateien. Sie hilft manchen Windows-Tools, die Codierung zu erkennen, während man sie in UNIX-Umgebungen meist entfernt. Wechsle die Einstellung je nach Zielplattform.
💡

Warum sehe ich trotz Konvertierung noch Zeichenwirrwarr?

Wenn eine Datei früher mit dem falschen Zeichensatz gespeichert wurde, sind die Bytes eventuell bereits beschädigt. Lade die Originaldatei erneut, kontrolliere die Quellcodierung und bedenke, dass gemischte Codierungen in einer Datei ebenfalls Mojibake erzeugen.
📚

Werden meine Texte hochgeladen oder gespeichert?

Nein. Erkennung und Konvertierung laufen vollständig im Browser, sodass deine Dateien das Gerät nie verlassen.

💡Best Practices

💡

Immer Verwenden UTF-8

Verwenden UTF-8 Codierung überall durch Standard - databases, Fichiers, HTTP headers, HTML meta Tags. UTF-8 ist universal, unterstützt alle languages, backward compatible mit ASCII, und ist die web standard. Declare Codierung explicitly in HTML (<meta charset="UTF-8">) und HTTP headers (Content-Type: text/html; charset=utf-8). ce prevents mojibake und ensures consistent text display across systems.
🔍

Vor der Konvertierung erkennen

Erkennen Sie die Kodierung immer vor dem Konvertierungsversuch, um Datenverlust zu vermeiden. Verwenden Sie Vertrauenswerte von Erkennungsbibliotheken zur Überprüfung der Genauigkeit. Bei mehrdeutigen Fällen (niedrige Vertrauenswerte) prüfen Sie Beispieltexte manuell oder testen Sie mehrere Kodierungen mit visueller Überprüfung. Gehen Sie niemals allein aufgrund der Dateierweiterung oder Herkunft von einer Kodierung aus - validieren Sie immer.
📝

Handle BOM Correctly

Check für BOM (Byte Order Mark) bei Fichier Starten für definitive Codierung Identifikation. UTF-8 BOM (EF BB BF) ist Optional aber helps mit Erkennung. UTF-16/32 requires BOM zu determine byte order (LE/BE). Some systems expect BOM, others reject es - know Ihr target system. Entfernen oder hinzufügen BOM als benötigt während Konvertierung.
🩺

Test Mojibake Fixes

Wann fixing garbled text, identify original und misinterpreted encodings durch pattern analysis. Common mojibake: UTF-8 als Latin-1 (é instead von é), Chinese als ? oder random chars. Re-codieren zu intermediate Codierung, dann decodieren mit korrekt one. Test fixes auf sample data vor Traitement entire Fichiers. Some mojibake ist irreversible if data war bereits corrupted in database.
⚠️

Validieren at Boundaries

Validieren encoding at system boundaries - Fichier reads, HTTP requests, database queries, API calls. Use charset declarations in Alle data transfers. Sanitize and validate Eingabe text to detect invalid byte sequences early. Journal encoding issues pour debugging. Implement fallback strategies pour encoding detection failures. Never mix encodings within single Fichier or database Spalte.

🔗Verwandte Dokumente

🔤RFC 3629 - UTF-8 Specification-UTF-8 encoding fürmat standard
🌏GB18030 Chinese Codierung-Chinese national standard character Codierung
🔧ICU Character Codierung Erkennung-International Components für Unicode detection library
📚Character Codierung Best Practices-W3C guidelines für handling character encodings

User Comments

0 / 2000
Loading...