🤖

Robots.txt 產生器

視覺化建立 robots.txt 檔案,支援搜尋引擎模板和爬蟲規則配置

模板選擇

選擇一個模板

自訂註釋

爬蟲規則

規則 1: *
使用者-Agent
允許路徑
禁止路徑

爬取延遲

可選。爬蟲請求之間的時間延遲(推薦:1-10 秒)

站點地圖

產生的 Robots.txt

什麼是 robots.txt 生成器

robots.txt 生成器是一個用於建立 robots.txt 檔案的工具,用於控制搜尋引擎爬蟲如何抓取您的網站。robots.txt 是放置在網站根目錄的純文字檔案,為爬蟲提供指令。主要功能:多個 使用者-agent 規則(Googlebot、Bingbot、所有機器人),不允許/Allow 指令(控制路徑存取),Crawl-delay 設定(限制抓取速率),Sitemap 整合(XML 站點地圖 URL),萬用字元支援(*、$),語法驗證(錯誤檢查),範本(常見場景),即時預覽。關鍵指令:使用者-agent(指定機器人:Googlebot、Bingbot、*),不允許(阻止路徑:/admin/、/私人/),Allow(例外:/公開/),Sitemap(站點地圖 URL:https://範例.com/sitemap.xml),Crawl-delay(延遲秒數)。使用場景:SEO 優化(抓取預算管理),敏感內容保護(管理頁面、私密資料),防止重複(搜尋結果、篩選頁面),減少伺服器負載(限制激進機器人),提交站點地圖(更快索引),隱藏開發站點(預備環境)。最佳實踐:不要阻止重要內容(SEO 損失),允許 CSS/JS(渲染),包含站點地圖(改善索引),測試語法(Google 搜尋 控制台),保持簡單(避免過多規則),定期審查(更新變化)。常見錯誤:阻止所有內容(不允許: /),阻止 CSS/JS(渲染問題),使用 robots.txt 作為安全機制(使用身份驗證),拼字錯誤(語法錯誤),缺少站點地圖。工作原理:1)爬蟲存取站點,2)首先讀取 robots.txt(yoursite.com/robots.txt),3)解析規則(匹配 使用者-agent),4)僅抓取允許的路徑,5)遵守指令(道德機器人)。注意:robots.txt 不是安全機制,是公開可讀的。使用身份驗證實現真正保護。此工具在瀏覽器本地產生 robots.txt,不上傳資料。

Features

🤖

多使用者代理

為不同爬蟲設定規則
📝

規則範本

常見場景的預先建置範本

語法驗證

驗證robots.txt語法
📊

預覽和匯出

預覽並下載robots.txt

📋使用指南

1️⃣
選擇模板
選擇與您網站類型匹配的預設模板,或從允許所有爬蟲的模板開始
2️⃣
配置規則
新增爬蟲規則,指定 使用者-agent 和需要允許或禁止的路徑
3️⃣
新增 Sitemap
新增您的站點地圖 URL,幫助搜尋引擎發現您的內容
4️⃣
匯出檔案
預覽產生的內容,然後複製或下載 robots.txt 檔案

📚技術介紹

📜機器人排除協定

Robots.txt 遵循機器人排除協定(REP),這是一個在 1994 年開發的標準,為網站所有者提供了與網路爬蟲通訊的方式。該檔案必須放置在根目錄並命名為 'robots.txt'。它使用 使用者-agent、不允許、Allow、Sitemap 和 Crawl-delay 等指令來控制爬蟲行為。

🤖使用者-Agent 指令

使用者-agent 指令指定規則適用於哪個爬蟲。使用 '*' 將規則應用於所有爬蟲。您可以針對特定爬蟲如 Googlebot、Bingbot 或 Baiduspider。每個 使用者-agent 部分可以有多個 Allow 和 不允許 指令來定義可存取和被封鎖的路徑。

🚫Allow 和 不允許 規則

不允許 指令指定爬蟲不應存取的路徑,而 Allow 指令(並非所有爬蟲都支援)允許存取被禁止區域內的特定路徑。路徑區分大小寫,支援萬用字元(*)和路徑結尾配對($)。例如,不允許: /*.pdf$ 封鎖所有 PDF 檔案。

🗺️Sitemap 宣告

Sitemap 指令告訴搜尋引擎在哪裡找到您的 XML 站點地圖檔案。允許多個 Sitemap 條目。這有助於搜尋引擎更高效地發現和索引您的內容。Sitemap URL 必須是包含協定(http:// 或 https://)的絕對 URL。

常見問題

什麼是 robots.txt 檔案?

robots.txt 是告訴搜尋引擎爬蟲(機器人)它們可以抓取網站哪些部分的檔案。位置:站點根目錄(例如,範例.com/robots.txt)。格式:純文字,逐行指令。關鍵指令:使用者-agent(指定機器人),不允許(阻止路徑),Allow(允許路徑),Sitemap(站點地圖 URL),Crawl-delay(抓取間隔)。目的:控制爬蟲流量,隱藏敏感頁面(管理、私密),防止重複內容,減少伺服器負載。注意:不是安全機制,只是指南。
💬

robots.txt 如何幫助 SEO?

robots.txt 透過以下方式改善 SEO:抓取預算優化(優先重要頁面),防止重複內容(阻止低價值頁面),減少頁面載入(防止不必要的抓取),提交站點地圖(更快索引),隱藏管理頁面(登入、搜尋結果)。最佳實踐:不要阻止重要內容,允許 CSS/JS(渲染),測試語法(Google 搜尋 控制台),包含站點地圖。正確的 robots.txt 可將抓取效率提高 30-50%。
🔍

不允許 和 Allow 有什麼區別?

不允許:指定爬蟲不應存取的路徑。範例:不允許: /admin/(阻止管理頁面),不允許: /私人/(阻止私有資料夾),不允許: /*.pdf$(阻止所有 PDF)。Allow:建立 不允許 規則的例外。範例:不允許: /私人/,Allow: /私人/公開/(允許子資料夾)。優先順序:更具體的規則獲勝。萬用字元:*(任何字元),$(行尾)。建議:只阻止需要的,避免過度阻止。
💡

所有爬蟲都遵守 robots.txt 嗎?

不,不是所有爬蟲都遵守。遵守的機器人:Google、Bing、Yahoo(主要搜尋引擎),道德爬蟲(商業機器人)。可能忽略:惡意抓取器(忽略),垃圾機器人(忽略指令),駭客(不讀取 robots.txt)。robots.txt 是:禮貌協定(不強制),公開可讀(任何人都能看到),不是安全措施(使用身份驗證)。真正保護:身份驗證(需要登入),防火牆(阻止 IP),速率限制(防止濫用)。
📚

如何測試 robots.txt?

測試方法:1)語法檢查:使用線上驗證器,檢查拼字錯誤(不允許、使用者-agent)。2)Google 搜尋 控制台:robots.txt 測試工具,檢查 URL 是否被阻止。3)瀏覽器測試:存取 yoursite.com/robots.txt,驗證正確顯示。4)爬蟲模擬:使用不同 使用者-agent 測試,驗證規則有效。5)日誌監控:追蹤爬蟲存取,驗證行為符合預期。工具:Google 搜尋 控制台、Bing Webmaster Tools、robots.txt 驗證器。

💡使用方法

1️⃣

選擇範本

選擇預定義範本:允許所有、阻止所有、自訂。選擇符合您使用場景的範本。
2️⃣

配置規則

設定爬蟲規則:使用者-agent(Googlebot、Bingbot、*),不允許/Allow 路徑,Crawl-delay(可選)。
3️⃣

新增站點地圖

新增站點地圖 URL(例如,https://範例.com/sitemap.xml)。可新增多個站點地圖。
4️⃣

驗證並產生

驗證語法。工具產生 robots.txt 檔案。預覽並編輯。
5️⃣

下載並部署

下載 robots.txt 檔案。上傳到網站根目錄(yoursite.com/robots.txt)。測試並監控。

🔗Related Documents

📖Robots.txt 官方規範-機器人排除協定標準
🔧Google Robots.txt 指南-Google 的 robots.txt 文件
🧪Google Robots.txt 測試工具-測試 robots.txt 檔案
📚Bing Robots.txt 幫助-Bing 的 robots.txt 指南
💡Moz Robots.txt 教學-SEO 專家的 robots.txt 指南

📝更新日誌

📌v1.11.251102
v1.0.251026建立 Robots.txt 產生器工具;支援 8 種常用框架模板(下一步.js、Vue.js、React、WordPress、靜態網站、SPA);視覺化配置爬蟲規則、Allow/不允許 路徑和 Crawl-delay 設定;CodeMirror 編輯器,自動跟隨深色主題;支援多種搜尋引擎(Google、Bing、百度、Yandex);Sitemap URL 管理;一鍵複製和下載功能(2025年10月26日)

User Comments

0 / 2000
Loading...