📄
文字提取工具
清除 HTML、XML 或 JSON 標籤,提取純文字,規範化空白,去重行,並一鍵複製結果。
來源內容
mode.auto
清理選項
純文字
字元
0
行
0
❓什麼是文字提取
文字提取將結構化或標記繁重的內容轉換為純字串,以便下游工具、搜尋索引或摘要器可以使用乾淨的輸入。
✨功能特點
🧼
自動檢測
根據貼上的內容自動選擇 JSON、HTML、XML 或純文字模式。
🧾
空白控制
決定是否保留換行符號、修剪空格和折疊空行。
♻️
去重行
刪除重複的句子——在抓取冗長標記時很有用。
📋
一鍵複製
將清理後的文字直接複製到剪貼簿以供重用。
🎯
Use Cases
TEXT
Text cleanup and editing
Use Text Extractor to normalize, transform, inspect, or prepare text before publishing it in code, documents, tickets, or web content.
DEV
Developer content workflows
Text Extractor helps when preparing sample strings, copied logs, test fixtures, UI labels, documentation snippets, or structured text data.
QA
Review and quality checks
Check text output with Text Extractor before sharing, importing, translating, or using it in product and support workflows.
📋使用指南
貼上來源資料
將 HTML、XML、JSON 或純文字放入輸入面板。
選擇選項
選擇解析模式或保持自動,然後調整空白設定。
提取和複製
點擊提取生成純文字,然後複製將其發送到剪貼簿。
📚技術介紹
🌐DOM 解析
HTML 和 XML 輸入透過 DOMParser 解析,因此只保留有意義的文字節點。
💾JSON 遍歷
JSON 模式遞迴遍歷陣列和物件,收集每個字串值。
⚙️規範化
提取後執行空白修剪、去重和換行折疊,以保持輸出整潔。
❓
Frequently Asked Questions
❓
自動模式如何決定解析器?
它查詢前導大括號來猜測 JSON,查詢尖括號來猜測 HTML/XML;否則它將輸入視為純文字。
💬
屬性或指令碼會被刪除嗎?
是的。DOM 解析只收集文字節點,因此指令碼、樣式和屬性被忽略。
🔍
去重是否尊重順序?
重複項被就地刪除,同時保留每行的第一次出現。
💡How To & Tips
🧩
審核抓取內容
從 CMS 複製 HTML 後使用自動模式,檢視讀者或螢幕閱讀器實際會得到什麼。
🧾
摘要
在將文字輸入摘要器或索引管道之前去重行。
🪪
合規性
在儲存日誌之前修剪輸出,以便敏感資料不會在標記註解中停留。
🔗Related Documents
📝更新日誌
📌v1.0.251117v1.0.0初始版本,包含自動模式、去重選項和複製輔助功能。(2025年11月17日)
📦推薦元件
User Comments
Loading...