Carica un file, incolla un testo o usa un esempio pronto per rilevare la codifica (UTF-8, ISO-8859-1, GBK, Big5, Shift-JIS, ecc.) e convertirla con guide localizzate in 16 lingue.
Features
- Rilevamento intelligente: Analizza BOM, pattern di byte e frequenze per proporre le codifiche più probabili
- Conversione immediata: Ricodifica il testo in UTF-8 o in altre codifiche supportate, con opzione per aggiungere o rimuovere il BOM
- Supporto multilingue: Riconosce charset occidentali, CJK (GBK, Big5, Shift-JIS) e famiglie Unicode
- Elaborazione locale: Il contenuto non lascia mai il browser: adatto a log, CSV e dati sensibili
Use Cases
- Migrazione di sistemi legacy: Converti archivi GBK/Big5 in UTF-8 mentre aggiorni piattaforme finanziarie, ERP o pubbliche.
- QA per contenuti globali: I team contenuti/SEO verificano che siti, feed e email multilingue dichiarino il charset corretto.
- Pipeline di ingestione dati: Controlla la codifica di log, esportazioni CSV e input ETL prima di caricarli nel data warehouse o in Spark.
- Debug per sviluppatori: Individua subito conflitti di BOM o codifiche miste nei diff di Git e negli export del database.
Usage Guide
- Importa il contenuto: Trascina un file oppure incolla il testo nell'area di input
- Avvia il rilevamento: Premi “Rileva” per ottenere la codifica proposta e il livello di confidenza
- Converti e scarica: Scegli la codifica di destinazione, applica la conversione e scarica l'output
Technical Details
Heuristics & BOM
Il tool controlla il BOM (EF BB BF, FF FE, FE FF) e verifica sequenze valide per UTF-8 e codifiche multi-byte orientali
Analisi statistica
Usa frequenze di byte e pattern linguistici per stimare la probabilità di charset legacy come ISO-8859-1 o Windows-1252
TextDecoder/TextEncoder
Le conversioni sfruttano le API Web standard, garantendo accuratezza e performance
Frequently Asked Questions
- Quanto è accurato il rilevamento della codifica?
- Il rilevatore combina il rilevamento BOM, l'analisi statistica e la convalida dei modelli di byte per stimare il set di caratteri più probabile. Ogni esecuzione espone anche un punteggio di confidenza in modo da sapere quando è consigliata una revisione manuale aggiuntiva.
- Posso convertire il testo dopo il rilevamento?
- Sì. Una volta identificata una codifica, puoi scegliere qualsiasi set di caratteri di destinazione, convertire il testo interamente nel browser e scaricare o copiare l'output convertito senza caricare file.
- Cosa fa l'opzione Aggiungi o Rimuovi BOM?
- Un BOM (Byte Order Mark) è una firma opzionale all'inizio dei file UTF. L'aggiunta di un BOM aiuta alcuni strumenti Windows a rilevare la codifica, mentre la sua rimozione mantiene i file snelli per gli ambienti UNIX. Attiva l'opzione in base a dove verrà utilizzato il testo.
- Perché vedo ancora caratteri illeggibili dopo la conversione?
- Se il testo è stato decodificato in precedenza con il set di caratteri sbagliato, il danno potrebbe essere già salvato. Prova a ricaricare il file originale, assicurati che sia selezionata la codifica sorgente corretta e converti di nuovo. Le codifiche miste in un singolo file possono anche produrre mojibake.
- Il mio testo viene caricato o memorizzato?
- No. Il rilevamento e la conversione avvengono interamente nel tuo browser. I file non lasciano mai il tuo dispositivo, quindi i documenti riservati rimangono privati.
Related Documentation
- W3C – Codifiche - Guida internazionale alle codifiche e alle best practice per il web
- IANA Charset Registry - Registro ufficiale delle codifiche riconosciute
- Understanding Mojibake - Articolo che spiega cause e soluzioni per il testo corrotto
- ICU Charset Detection - Documentazione della libreria ICU usata da molti tool professionali
- RFC 3629 - Specifiche ufficiali di UTF-8