🤖

Robots.txt Generator

Tạo robots.txt trực quan với mẫu tìm kiếm phổ biến và bộ quy tắc crawler

Chọn mẫu

Chọn một mẫu

Ghi chú tùy chỉnh

Quy tắc crawler

Quy tắc 1: *
User-Agent
Cho phép
Chặn

Crawl-delay

giâyTùy chọn. Khoảng thời gian giữa các lượt crawl (khuyến nghị 1-10 giây)

Sitemap

Nội dung robots.txt

Robots.txt Generator là gì

Robots.txt Generator giúp tạo Tệp robots.txt kiểm soát cách crawler truy cập website. Tệp phải đặt tại thư mục gốc (example.com/robots.txt) và gồm các chỉ thị: User-agent (định danh bot), Disallow/Allow (chặn/cho phép đường dẫn), Sitemap (khai báo XML sitemap), Crawl-delay (giới hạn tốc độ). Ứng dụng: tối ưu crawl budget, bảo vệ trang nhạy cảm, tránh nội dung trùng lặp, giảm tải server và khai báo sitemap để index nhanh. Lưu ý: robots.txt không phải cơ chế bảo mật vì ai cũng xem được, hãy dùng xác thực nếu cần ẩn nội dung. Công cụ tạo Tệp hoàn toàn trên trình duyệt, không Tải lên dữ liệu.

Tính năng

🤖

Quy tắc theo định danh trình duyệt

Thiết lập riêng cho Googlebot, Bingbot, Baiduspider hoặc tất cả bot
📝

Mẫu cấu hình

Mẫu sẵn cho SPA, Tiếp theo.js, WordPress, site tĩnh...

Kiểm tra cú pháp

Tự động phát hiện lỗi cú pháp, đường dẫn và từ khóa
📊

Xem trước & xuất Tệp

Xem realtime, sao chép hoặc tải robots.txt chỉ với một cú nhấp

📋Hướng dẫn sử dụng

1️⃣
Chọn mẫu
Chọn mẫu phù hợp hoặc bắt đầu với mẫu cho phép tất cả
2️⃣
Cấu hình quy tắc
Thêm User-agent, đường dẫn được phép/chặn và Crawl-delay nếu cần
3️⃣
Khai báo Sitemap
Thêm URL sitemap để bot nhanh chóng khám phá nội dung
4️⃣
Xuất Tệp
Kiểm tra nội dung rồi sao chép hoặc tải về Tệp robots.txt

📚Giới thiệu kỹ thuật

📜Giao thức Robots Exclusion

REP ra đời năm 1994 cho phép quản trị viên hướng dẫn bot. Tệp phải đặt tại root, tên đúng "robots.txt" và dùng các chỉ thị User-agent, Disallow, Allow, Sitemap, Crawl-delay.

🤖Chỉ thị User-Agent

Xác định bot áp dụng (Googlebot, Bingbot, *...). Mỗi khối User-agent có thể có nhiều dòng Allow/Disallow để kiểm soát từng đường dẫn.

🚫Allow & Disallow

Disallow chặn đường dẫn, Allow cho phép ngoại lệ trong vùng bị chặn. Hỗ trợ wildcard * và ký hiệu kết thúc $. Ví dụ: Disallow: /*.pdf$ chặn mọi Tệp PDF.

🗺️Khai báo Sitemap

Khai báo URL sitemap (dạng tuyệt đối) để bot lập chỉ mục hiệu quả hơn. Có thể khai báo nhiều sitemap cho site lớn.

Câu hỏi thường gặp

robots.txt là gì?

Tệp văn bản tại domain/robots.txt hướng dẫn crawler phần nào được phép truy cập. Chứa các chỉ thị User-agent, Disallow, Allow, Sitemap, Crawl-delay. Mục đích: điều phối crawl, giảm trùng lặp, hạn chế tải server. Không phải phương thức bảo mật.
💬

robots.txt hỗ trợ SEO thế nào?

Giúp ưu tiên ngân sách crawl, chặn trang ít giá trị, giảm tài nguyên cho trang nội bộ, khai báo sitemap để index nhanh và tránh nội dung trùng lặp. Luôn cho phép CSS/JS để kết quả render chính xác.
🔍

Khác biệt giữa Disallow và Allow?

Disallow chặn đường dẫn, Allow tạo ngoại lệ cho đường dẫn con. Ưu tiên: quy tắc cụ thể hơn thắng. Wildcard * đại diện mọi ký tự, $ đánh dấu cuối chuỗi.
💡

Bot có luôn tuân thủ robots.txt không?

Các bot lớn (Google, Bing...) tuân thủ, nhưng crawler xấu/spam có thể bỏ qua. robots.txt là giao thức thiện chí, không thay thế cho bảo mật hoặc xác thực.
📚

Kiểm tra robots.txt như thế nào?

Dùng Google Tìm kiếm Console (Robots Testing Tool), Bing Webmaster, validator trực tuyến, truy cập trực tiếp domain/robots.txt và theo dõi log máy chủ để chắc chắn bot hoạt động đúng.

💡Quy trình sử dụng

1️⃣

Chọn mẫu

Chọn mẫu phù hợp (cho phép/chặn toàn bộ hoặc framework cụ thể).
2️⃣

Thiết lập quy tắc

Thêm User-agent, đường dẫn Allow/Disallow và Crawl-delay (nếu cần).
3️⃣

Khai báo Sitemap

Thêm URL sitemap ví dụ https://example.com/sitemap.xml (có thể nhiều sitemap).
4️⃣

Kiểm tra & sinh Tệp

Kiểm tra cú pháp, xem Xem trước và điều chỉnh nếu cần.
5️⃣

Tải xuống & triển khai

Tải Tệp về, đặt tại thư mục gốc website rồi kiểm tra bằng công cụ chính thức.

🔗Related Documents

User Comments

0 / 2000
Loading...