視覺化建立 robots.txt 檔案,支援搜尋引擎模板和爬蟲規則配置
工具功能
- 多使用者代理: 為不同爬蟲設定規則
- 規則範本: 常見場景的預先建置範本
- 語法驗證: 驗證robots.txt語法
- 預覽和匯出: 預覽並下載robots.txt
使用方法
- 選擇模板: 選擇與您網站類型匹配的預設模板,或從允許所有爬蟲的模板開始
- 配置規則: 新增爬蟲規則,指定 使用者-agent 和需要允許或禁止的路徑
- 新增 Sitemap: 新增您的站點地圖 URL,幫助搜尋引擎發現您的內容
- 匯出檔案: 預覽產生的內容,然後複製或下載 robots.txt 檔案
生成原理
機器人排除協定
Robots.txt 遵循機器人排除協定(REP),這是一個在 1994 年開發的標準,為網站所有者提供了與網路爬蟲通訊的方式。該檔案必須放置在根目錄並命名為 'robots.txt'。它使用 使用者-agent、不允許、Allow、Sitemap 和 Crawl-delay 等指令來控制爬蟲行為。
使用者-Agent 指令
使用者-agent 指令指定規則適用於哪個爬蟲。使用 '*' 將規則應用於所有爬蟲。您可以針對特定爬蟲如 Googlebot、Bingbot 或 Baiduspider。每個 使用者-agent 部分可以有多個 Allow 和 不允許 指令來定義可存取和被封鎖的路徑。
Allow 和 不允許 規則
不允許 指令指定爬蟲不應存取的路徑,而 Allow 指令(並非所有爬蟲都支援)允許存取被禁止區域內的特定路徑。路徑區分大小寫,支援萬用字元(*)和路徑結尾配對($)。例如,不允許: /*.pdf$ 封鎖所有 PDF 檔案。
常見問題
- 什麼是 robots.txt 檔案?
- robots.txt 是告訴搜尋引擎爬蟲(機器人)它們可以抓取網站哪些部分的檔案。位置:站點根目錄(例如,範例.com/robots.txt)。格式:純文字,逐行指令。關鍵指令:使用者-agent(指定機器人),不允許(阻止路徑),Allow(允許路徑),Sitemap(站點地圖 URL),Crawl-delay(抓取間隔)。目的:控制爬蟲流量,隱藏敏感頁面(管理、私密),防止重複內容,減少伺服器負載。注意:不是安全機制,只是指南。
- robots.txt 如何幫助 SEO?
- robots.txt 透過以下方式改善 SEO:抓取預算優化(優先重要頁面),防止重複內容(阻止低價值頁面),減少頁面載入(防止不必要的抓取),提交站點地圖(更快索引),隱藏管理頁面(登入、搜尋結果)。最佳實踐:不要阻止重要內容,允許 CSS/JS(渲染),測試語法(Google 搜尋 控制台),包含站點地圖。正確的 robots.txt 可將抓取效率提高 30-50%。
- 不允許 和 Allow 有什麼區別?
- 不允許:指定爬蟲不應存取的路徑。範例:不允許: /admin/(阻止管理頁面),不允許: /私人/(阻止私有資料夾),不允許: /*.pdf$(阻止所有 PDF)。Allow:建立 不允許 規則的例外。範例:不允許: /私人/,Allow: /私人/公開/(允許子資料夾)。優先順序:更具體的規則獲勝。萬用字元:*(任何字元),$(行尾)。建議:只阻止需要的,避免過度阻止。
- 所有爬蟲都遵守 robots.txt 嗎?
- 不,不是所有爬蟲都遵守。遵守的機器人:Google、Bing、Yahoo(主要搜尋引擎),道德爬蟲(商業機器人)。可能忽略:惡意抓取器(忽略),垃圾機器人(忽略指令),駭客(不讀取 robots.txt)。robots.txt 是:禮貌協定(不強制),公開可讀(任何人都能看到),不是安全措施(使用身份驗證)。真正保護:身份驗證(需要登入),防火牆(阻止 IP),速率限制(防止濫用)。
- 如何測試 robots.txt?
- 測試方法:1)語法檢查:使用線上驗證器,檢查拼字錯誤(不允許、使用者-agent)。2)Google 搜尋 控制台:robots.txt 測試工具,檢查 URL 是否被阻止。3)瀏覽器測試:存取 yoursite.com/robots.txt,驗證正確顯示。4)爬蟲模擬:使用不同 使用者-agent 測試,驗證規則有效。5)日誌監控:追蹤爬蟲存取,驗證行為符合預期。工具:Google 搜尋 控制台、Bing Webmaster Tools、robots.txt 驗證器。
相關文件
- Robots.txt 官方規範 - 機器人排除協定標準
- Google Robots.txt 指南 - Google 的 robots.txt 文件
- Google Robots.txt 測試工具 - 測試 robots.txt 檔案
- Bing Robots.txt 幫助 - Bing 的 robots.txt 指南
- Moz Robots.txt 教學 - SEO 專家的 robots.txt 指南