Crea file robots.txt personalizzati con template, regole per user-agent, disallow/allow, crawl-delay e dichiarazioni sitemap.
Features
- Regole multi crawler: Configura direttive dedicate per Googlebot, Bingbot, Yandex o per tutti i bot usando il wildcard `*`.
- Template pronti: Seleziona scenari comuni (WordPress, SPA, Next.js) e adatta velocemente le regole di base.
- Gestione crawl budget: Imposta Allow/Disallow granulari, aggiungi crawl-delay e integra le sitemap per migliorare l'indicizzazione.
- Validazione sintassi: Il file viene controllato per direttive non supportate, duplicati e percorsi non coerenti.
Usage Guide
- Scegli un template: Parti da un modello adatto al tuo CMS o seleziona "Permetti tutti" per creare regole da zero.
- Definisci le regole: Per ciascun user-agent imposta i percorsi Allow/Disallow e un eventuale crawl-delay.
- Aggiungi sitemap: Inserisci gli URL delle sitemap XML per favorire la scansione completa del sito.
- Esporta e testa: Copia o scarica il file e caricalo nella root del dominio. Verifica con Search Console e altri validator.
Technical Details
Specifiche robots.txt
Basato sul Robots Exclusion Protocol supportato da Google, Bing e altri motori. Le direttive sono case-insensitive e commentabili.
Priorità delle regole
Le direttive più specifiche prevalgono su quelle generiche. L'ordine importa quando si usano wildcard e Allow per creare eccezioni.
Crawl-delay
Supportato da Bing e Yandex. Google non lo considera, ma rispetta la velocità impostata in Search Console e l'ottimizzazione automatica.
Frequently Asked Questions
- Cosa succede se blocco tutto il sito?
- Usando `Disallow: /` impedisci la scansione completa e Google potrebbe rimuovere le pagine dall'indice. È consigliato solo per ambienti di staging protetti.
- A cosa serve Allow se ho già Disallow?
- `Allow` crea eccezioni a regole generiche. Ad esempio, puoi bloccare `/private/` ma consentire `/private/landing/` per pagine specifiche.
- Robots.txt protegge i dati sensibili?
- No. Il file è pubblico e i crawler malevoli possono ignorarlo. Per proteggere risorse usa autenticazione o restrizioni server.
- Posso avere più file robots.txt?
- No, i crawler cercano esclusivamente `https://tuodominio/robots.txt`. Inserisci tutte le regole in un unico file e aggiorna quando necessario.
Related Documentation
- Robots Exclusion Protocol - Specifiche ufficiali su robots.txt e sintassi delle direttive
- Google Search Central - Guida su come Google interpreta robots.txt, errori comuni e debug
- Robots Tester - Strumento di Google Search Console per testare e convalidare il file
- Bing Webmaster Guidelines - Indicazioni specifiche di Bing su robots.txt e crawling
- Moz – robots.txt - Approfondimento SEO su quando bloccare o consentire contenuti