📄

Estrattore di Testo

Rimuovi HTML, XML o JSON per ottenere testo pulito, normalizza gli spazi bianchi, rimuovi le righe duplicate e copia il risultato con un solo clic.

Contenuto sorgente

mode.auto

Opzioni di pulizia

Conserva le interruzioni di riga

Rifila gli spazi bianchi

Rimuovi righe duplicate

Testo pulito

Caratteri

0

Righe

0

❓Cos'è l'estrazione di testo

L'estrazione di testo converte contenuti strutturati o con molto markup in stringhe pure in modo che gli strumenti a valle, gli indici di ricerca o i riassuntori possano lavorare con input puliti.

✨Caratteristiche principali

🧼

Rilevamento automatico

Sceglie automaticamente la modalità JSON, HTML, XML o testo semplice in base al contenuto incollato.

🧾

Controllo degli spazi bianchi

Decidi se conservare le interruzioni di riga, rifilare gli spazi e comprimere le righe vuote.

♻️

Deduplicare le righe

Rimuovi le frasi ripetute, utile durante l'estrazione di markup dettagliato.

📋

Copia con un clic

Copia il testo pulito direttamente negli appunti per riutilizzarlo.

🎯

Use Cases

TEXT

Text cleanup and editing

Use Text Extractor to normalize, transform, inspect, or prepare text before publishing it in code, documents, tickets, or web content.

DEV

Developer content workflows

Text Extractor helps when preparing sample strings, copied logs, test fixtures, UI labels, documentation snippets, or structured text data.

QA

Review and quality checks

Check text output with Text Extractor before sharing, importing, translating, or using it in product and support workflows.

📋Guida all'uso

1️⃣

Incolla dati di origine

Inserisci HTML, XML, JSON o testo semplice nel pannello di input.

2️⃣

Scegli le opzioni

Seleziona una modalità di analisi o rimani su Auto, quindi regola le impostazioni degli spazi bianchi.

3️⃣

Estrarre e copiare

Fai clic su Estrai per generare testo pulito e Copia per inviarlo agli appunti.

📚Introduzione tecnica

🌐Analisi DOM

L'input HTML e XML viene analizzato tramite DOMParser in modo che rimangano solo nodi di testo significativi.

💾Attraversamento JSON

La modalità JSON attraversa ricorsivamente array e oggetti, raccogliendo ogni valore stringa.

⚙️Normalizzazione

La rifilatura degli spazi bianchi, la deduplicazione e la compressione delle interruzioni di riga vengono eseguite dopo l'estrazione per mantenere pulito l'output.

❓

Frequently Asked Questions

❓

Come decide il parser la modalità Auto?

Cerca parentesi graffe iniziali per indovinare JSON e parentesi angolari per indovinare HTML/XML; altrimenti tratta l'input come testo semplice.

💬

Gli attributi o gli script verranno rimossi?

Sì. L'analisi DOM raccoglie solo nodi di testo, quindi script, stili e attributi vengono ignorati.

🔍

La deduplicazione rispetta l'ordine?

I duplicati vengono rimossi sul posto mantenendo la prima occorrenza di ogni riga.

Frequently Asked Questions

Come decide il parser la modalità Auto?: Cerca parentesi graffe iniziali per indovinare JSON e parentesi angolari per indovinare HTML/XML; altrimenti tratta l'input come testo semplice.
Gli attributi o gli script verranno rimossi?: Sì. L'analisi DOM raccoglie solo nodi di testo, quindi script, stili e attributi vengono ignorati.
La deduplicazione rispetta l'ordine?: I duplicati vengono rimossi sul posto mantenendo la prima occorrenza di ogni riga.

💡How To & Tips

🧩

Verificare il contenuto estratto

Usa la modalità Auto dopo aver copiato HTML da un CMS per vedere cosa otterranno realmente i lettori o gli screen reader.

🧾

Riepiloghi

Deduplicare le righe prima di inserire il testo in riassuntori o pipeline di indicizzazione.

🪪

Conformità

Rifila l'output prima di archiviare i log in modo che i dati sensibili non persistano nei commenti di markup.

🔗Related Documents

📖API DOMParser-Riferimento MDN per l'analisi del markup all'interno del runtime del browser.

🧠JSON.parse-Specifica per decodificare in modo sicuro le stringhe JSON in JavaScript.

🧼Sanificazione del contenuto-Guida OWASP sulla rimozione del markup in testo semplice.

📑Nozioni di base sullo screen reader-Introduzione di Deque su come la tecnologia assistiva legge il contenuto testuale.

📦Esportazioni di testo strutturato-Guida di Algolia sulla preparazione del contenuto per l'indicizzazione.

📝Registro degli aggiornamenti

📌v1.0.251117

v1.0.0Versione iniziale con modalità automatica, opzioni di deduplicazione e aiuto per la copia.(2025-11-17)

📦Componenti consigliati

📦sanitize-htmlSanificatore lato server che può rimuovere i tag preservando il markup sicuro.

🔧heCodificatore/decodificatore di entità HTML affidabile per JavaScript.

User Comments

Loading...