🤖

Robots.txt 生成器

可视化创建 robots.txt 文件,支持搜索引擎模板和爬虫规则配置

模板选择

选择一个模板

自定义注释

爬虫规则

规则 1: *
User-Agent
允许路径
禁止路径

爬取延迟

可选。爬虫请求之间的时间延迟(推荐:1-10 秒)

站点地图

生成的 Robots.txt

什么是 robots.txt 生成器

robots.txt 生成器是一个用于创建 robots.txt 文件的工具,用于控制搜索引擎爬虫如何抓取您的网站。robots.txt 是放置在网站根目录的纯文本文件,为爬虫提供指令。主要功能:多个 User-agent 规则(Googlebot、Bingbot、所有机器人),Disallow/Allow 指令(控制路径访问),Crawl-delay 设置(限制抓取速率),Sitemap 集成(XML 站点地图 URL),通配符支持(*、$),语法验证(错误检查),模板(常见场景),实时预览。关键指令:User-agent(指定机器人:Googlebot、Bingbot、*),Disallow(阻止路径:/admin/、/private/),Allow(例外:/public/),Sitemap(站点地图 URL:https://example.com/sitemap.xml),Crawl-delay(延迟秒数)。使用场景:SEO 优化(抓取预算管理),敏感内容保护(管理页面、私密数据),防止重复(搜索结果、筛选页面),减少服务器负载(限制激进机器人),提交站点地图(更快索引),隐藏开发站点(预备环境)。最佳实践:不要阻止重要内容(SEO 损失),允许 CSS/JS(渲染),包含站点地图(改善索引),测试语法(Google Search Console),保持简单(避免过多规则),定期审查(更新变化)。常见错误:阻止所有内容(Disallow: /),阻止 CSS/JS(渲染问题),使用 robots.txt 作为安全机制(使用身份验证),拼写错误(语法错误),缺少站点地图。工作原理:1)爬虫访问站点,2)首先读取 robots.txt(yoursite.com/robots.txt),3)解析规则(匹配 User-agent),4)仅抓取允许的路径,5)遵守指令(道德机器人)。注意:robots.txt 不是安全机制,是公开可读的。使用身份验证实现真正保护。此工具在浏览器本地生成 robots.txt,不上传数据。

Features

🤖

多用户代理

为不同爬虫配置规则
📝

规则模板

常见场景的预构建模板

语法验证

验证robots.txt语法
📊

预览和导出

预览并下载robots.txt

📋使用指南

1️⃣
选择模板
选择与您网站类型匹配的预设模板,或从允许所有爬虫的模板开始
2️⃣
配置规则
添加爬虫规则,指定 User-agent 和需要允许或禁止的路径
3️⃣
添加 Sitemap
添加您的站点地图 URL,帮助搜索引擎发现您的内容
4️⃣
导出文件
预览生成的内容,然后复制或下载 robots.txt 文件

📚技术介绍

📜机器人排除协议

Robots.txt 遵循机器人排除协议(REP),这是一个在 1994 年开发的标准,为网站所有者提供了与网络爬虫通信的方式。该文件必须放置在根目录并命名为 'robots.txt'。它使用 User-agent、Disallow、Allow、Sitemap 和 Crawl-delay 等指令来控制爬虫行为。

🤖User-Agent 指令

User-agent 指令指定规则适用于哪个爬虫。使用 '*' 将规则应用于所有爬虫。您可以针对特定爬虫如 Googlebot、Bingbot 或 Baiduspider。每个 User-agent 部分可以有多个 Allow 和 Disallow 指令来定义可访问和被阻止的路径。

🚫Allow 和 Disallow 规则

Disallow 指令指定爬虫不应访问的路径,而 Allow 指令(并非所有爬虫都支持)允许访问被禁止区域内的特定路径。路径区分大小写,支持通配符(*)和路径结尾匹配($)。例如,Disallow: /*.pdf$ 阻止所有 PDF 文件。

🗺️Sitemap 声明

Sitemap 指令告诉搜索引擎在哪里找到您的 XML 站点地图文件。允许多个 Sitemap 条目。这有助于搜索引擎更高效地发现和索引您的内容。Sitemap URL 必须是包含协议(http:// 或 https://)的绝对 URL。

常见问题

什么是 robots.txt 文件?

robots.txt 是告诉搜索引擎爬虫(机器人)它们可以抓取网站哪些部分的文件。位置:站点根目录(例如,example.com/robots.txt)。格式:纯文本,逐行指令。关键指令:User-agent(指定机器人),Disallow(阻止路径),Allow(允许路径),Sitemap(站点地图 URL),Crawl-delay(抓取间隔)。目的:控制爬虫流量,隐藏敏感页面(管理、私密),防止重复内容,减少服务器负载。注意:不是安全机制,只是指南。
💬

robots.txt 如何帮助 SEO?

robots.txt 通过以下方式改善 SEO:抓取预算优化(优先重要页面),防止重复内容(阻止低价值页面),减少页面加载(防止不必要的抓取),提交站点地图(更快索引),隐藏管理页面(登录、搜索结果)。最佳实践:不要阻止重要内容,允许 CSS/JS(渲染),测试语法(Google Search Console),包含站点地图。正确的 robots.txt 可将抓取效率提高 30-50%。
🔍

Disallow 和 Allow 有什么区别?

Disallow:指定爬虫不应访问的路径。示例:Disallow: /admin/(阻止管理页面),Disallow: /private/(阻止私有文件夹),Disallow: /*.pdf$(阻止所有 PDF)。Allow:创建 Disallow 规则的例外。示例:Disallow: /private/,Allow: /private/public/(允许子文件夹)。优先级:更具体的规则获胜。通配符:*(任何字符),$(行尾)。建议:只阻止需要的,避免过度阻止。
💡

所有爬虫都遵守 robots.txt 吗?

不,不是所有爬虫都遵守。遵守的机器人:Google、Bing、Yahoo(主要搜索引擎),道德爬虫(商业机器人)。可能忽略:恶意抓取器(忽略),垃圾机器人(忽略指令),黑客(不读取 robots.txt)。robots.txt 是:礼貌协议(不强制),公开可读(任何人都能看到),不是安全措施(使用身份验证)。真正保护:身份验证(需要登录),防火墙(阻止 IP),速率限制(防止滥用)。
📚

如何测试 robots.txt?

测试方法:1)语法检查:使用在线验证器,检查拼写错误(Disallow、User-agent)。2)Google Search Console:robots.txt 测试工具,检查 URL 是否被阻止。3)浏览器测试:访问 yoursite.com/robots.txt,验证正确显示。4)爬虫模拟:使用不同 user-agent 测试,验证规则有效。5)日志监控:跟踪爬虫访问,验证行为符合预期。工具:Google Search Console、Bing Webmaster Tools、robots.txt 验证器。

💡使用方法

1️⃣

选择模板

选择预定义模板:允许所有、阻止所有、自定义。选择符合您使用场景的模板。
2️⃣

配置规则

设置爬虫规则:User-agent(Googlebot、Bingbot、*),Disallow/Allow 路径,Crawl-delay(可选)。
3️⃣

添加站点地图

添加站点地图 URL(例如,https://example.com/sitemap.xml)。可添加多个站点地图。
4️⃣

验证并生成

验证语法。工具生成 robots.txt 文件。预览并编辑。
5️⃣

下载并部署

下载 robots.txt 文件。上传到网站根目录(yoursite.com/robots.txt)。测试并监控。

🔗Related Documents

📖Robots.txt 官方规范-机器人排除协议标准
🔧Google Robots.txt 指南-Google 的 robots.txt 文档
🧪Google Robots.txt 测试工具-测试 robots.txt 文件
📚Bing Robots.txt 帮助-Bing 的 robots.txt 指南
💡Moz Robots.txt 教程-SEO 专家的 robots.txt 指南

📝更新日志

📌v1.11.251102
v1.0.251026创建 Robots.txt 生成器工具;支持 8 种常用框架模板(Next.js、Vue.js、React、WordPress、静态网站、SPA);可视化配置爬虫规则、Allow/Disallow 路径和 Crawl-delay 设置;CodeMirror 编辑器,自动跟随暗色主题;支持多种搜索引擎(Google、Bing、百度、Yandex);Sitemap URL 管理;一键复制和下载功能(2025年10月26日)

User Comments

0 / 2000
Loading...