📄

文本提取工具

清除 HTML、XML 或 JSON 标签,提取纯文本,规范化空白,去重行,并一键复制结果。

源内容
mode.auto
清理选项
纯文本
字符
0
0

什么是文本提取

文本提取将结构化或标记繁重的内容转换为纯字符串,以便下游工具、搜索索引或摘要器可以使用干净的输入。

功能特点

🧼

自动检测

根据粘贴的内容自动选择 JSON、HTML、XML 或纯文本模式。
🧾

空白控制

决定是否保留换行符、修剪空格和折叠空行。
♻️

去重行

删除重复的句子——在抓取冗长标记时很有用。
📋

一键复制

将清理后的文本直接复制到剪贴板以供重用。
🎯

Use Cases

TEXT

Text cleanup and editing

Use Text Extractor to normalize, transform, inspect, or prepare text before publishing it in code, documents, tickets, or web content.
DEV

Developer content workflows

Text Extractor helps when preparing sample strings, copied logs, test fixtures, UI labels, documentation snippets, or structured text data.
QA

Review and quality checks

Check text output with Text Extractor before sharing, importing, translating, or using it in product and support workflows.

📋使用指南

1️⃣
粘贴源数据
将 HTML、XML、JSON 或纯文本放入输入面板。
2️⃣
选择选项
选择解析模式或保持自动,然后调整空白设置。
3️⃣
提取和复制
点击提取生成纯文本,然后复制将其发送到剪贴板。

📚技术介绍

🌐DOM 解析

HTML 和 XML 输入通过 DOMParser 解析,因此只保留有意义的文本节点。

💾JSON 遍历

JSON 模式递归遍历数组和对象,收集每个字符串值。

⚙️规范化

提取后运行空白修剪、去重和换行折叠,以保持输出整洁。

Frequently Asked Questions

自动模式如何决定解析器?

它查找前导大括号来猜测 JSON,查找尖括号来猜测 HTML/XML;否则它将输入视为纯文本。
💬

属性或脚本会被删除吗?

是的。DOM 解析只收集文本节点,因此脚本、样式和属性被忽略。
🔍

去重是否尊重顺序?

重复项被就地删除,同时保留每行的第一次出现。

💡How To & Tips

🧩

审核抓取内容

从 CMS 复制 HTML 后使用自动模式,查看读者或屏幕阅读器实际会得到什么。
🧾

摘要

在将文本输入摘要器或索引管道之前去重行。
🪪

合规性

在存储日志之前修剪输出,以便敏感数据不会在标记注释中停留。

📝更新日志

📌v1.0.251117
v1.0.0初始版本,包含自动模式、去重选项和复制辅助功能。(2025年11月17日)

User Comments

0 / 2000
Loading...