Tạo robots.txt trực quan với mẫu tìm kiếm phổ biến và bộ quy tắc crawler
Features
- Quy tắc theo định danh trình duyệt: Thiết lập riêng cho Googlebot, Bingbot, Baiduspider hoặc tất cả bot
- Mẫu cấu hình: Mẫu sẵn cho SPA, Tiếp theo.js, WordPress, site tĩnh...
- Kiểm tra cú pháp: Tự động phát hiện lỗi cú pháp, đường dẫn và từ khóa
- Xem trước & xuất Tệp: Xem realtime, sao chép hoặc tải robots.txt chỉ với một cú nhấp
Usage Guide
- Chọn mẫu: Chọn mẫu phù hợp hoặc bắt đầu với mẫu cho phép tất cả
- Cấu hình quy tắc: Thêm User-agent, đường dẫn được phép/chặn và Crawl-delay nếu cần
- Khai báo Sitemap: Thêm URL sitemap để bot nhanh chóng khám phá nội dung
- Xuất Tệp: Kiểm tra nội dung rồi sao chép hoặc tải về Tệp robots.txt
Technical Details
Giao thức Robots Exclusion
REP ra đời năm 1994 cho phép quản trị viên hướng dẫn bot. Tệp phải đặt tại root, tên đúng "robots.txt" và dùng các chỉ thị User-agent, Disallow, Allow, Sitemap, Crawl-delay.
Chỉ thị User-Agent
Xác định bot áp dụng (Googlebot, Bingbot, *...). Mỗi khối User-agent có thể có nhiều dòng Allow/Disallow để kiểm soát từng đường dẫn.
Allow & Disallow
Disallow chặn đường dẫn, Allow cho phép ngoại lệ trong vùng bị chặn. Hỗ trợ wildcard * và ký hiệu kết thúc $. Ví dụ: Disallow: /*.pdf$ chặn mọi Tệp PDF.
Frequently Asked Questions
- robots.txt là gì?
- Tệp văn bản tại domain/robots.txt hướng dẫn crawler phần nào được phép truy cập. Chứa các chỉ thị User-agent, Disallow, Allow, Sitemap, Crawl-delay. Mục đích: điều phối crawl, giảm trùng lặp, hạn chế tải server. Không phải phương thức bảo mật.
- robots.txt hỗ trợ SEO thế nào?
- Giúp ưu tiên ngân sách crawl, chặn trang ít giá trị, giảm tài nguyên cho trang nội bộ, khai báo sitemap để index nhanh và tránh nội dung trùng lặp. Luôn cho phép CSS/JS để kết quả render chính xác.
- Khác biệt giữa Disallow và Allow?
- Disallow chặn đường dẫn, Allow tạo ngoại lệ cho đường dẫn con. Ưu tiên: quy tắc cụ thể hơn thắng. Wildcard * đại diện mọi ký tự, $ đánh dấu cuối chuỗi.
- Bot có luôn tuân thủ robots.txt không?
- Các bot lớn (Google, Bing...) tuân thủ, nhưng crawler xấu/spam có thể bỏ qua. robots.txt là giao thức thiện chí, không thay thế cho bảo mật hoặc xác thực.
- Kiểm tra robots.txt như thế nào?
- Dùng Google Tìm kiếm Console (Robots Testing Tool), Bing Webmaster, validator trực tuyến, truy cập trực tiếp domain/robots.txt và theo dõi log máy chủ để chắc chắn bot hoạt động đúng.
Related Documentation
- Robots.txt cơ bản - Tài liệu chính thức về robots.txt
- Google Tìm kiếm Central - Hướng dẫn robots.txt từ Google
- Robots Testing Tool - Công cụ kiểm tra robots.txt của Google
- Bing Webmaster - Tạo robots.txt cho Bing
- Moz - Robots.txt - thực hành tốt nhất tối ưu robots.txt