🤖

Generatore robots.txt

Crea file robots.txt personalizzati con template, regole per user-agent, disallow/allow, crawl-delay e dichiarazioni sitemap.

Seleziona template

Scegli un template

Commenti personalizzati

Regole per crawler

Regola 1: *
User-agent
Percorsi Allow
Percorsi Disallow

Crawl-delay

secondsOpzionale. Consigliato tra 1 e 10 secondi per evitare sovraccarichi.

Sitemap

robots.txt generato

Perché il file robots.txt è importante

robots.txt indirizza i crawler verso le pagine rilevanti, evita sprechi di crawl budget e protegge aree che non devono essere indicizzate. È uno strumento fondamentale per la salute SEO e la gestione delle risorse server.

Funzionalità principali

🤖

Regole multi crawler

Configura direttive dedicate per Googlebot, Bingbot, Yandex o per tutti i bot usando il wildcard `*`.
🧰

Template pronti

Seleziona scenari comuni (WordPress, SPA, Next.js) e adatta velocemente le regole di base.
📊

Gestione crawl budget

Imposta Allow/Disallow granulari, aggiungi crawl-delay e integra le sitemap per migliorare l'indicizzazione.

Validazione sintassi

Il file viene controllato per direttive non supportate, duplicati e percorsi non coerenti.

📋Guida rapida

1️⃣
Scegli un template
Parti da un modello adatto al tuo CMS o seleziona "Permetti tutti" per creare regole da zero.
2️⃣
Definisci le regole
Per ciascun user-agent imposta i percorsi Allow/Disallow e un eventuale crawl-delay.
3️⃣
Aggiungi sitemap
Inserisci gli URL delle sitemap XML per favorire la scansione completa del sito.
4️⃣
Esporta e testa
Copia o scarica il file e caricalo nella root del dominio. Verifica con Search Console e altri validator.

📚Approfondimento tecnico

📄Specifiche robots.txt

Basato sul Robots Exclusion Protocol supportato da Google, Bing e altri motori. Le direttive sono case-insensitive e commentabili.

🧭Priorità delle regole

Le direttive più specifiche prevalgono su quelle generiche. L'ordine importa quando si usano wildcard e Allow per creare eccezioni.

⏱️Crawl-delay

Supportato da Bing e Yandex. Google non lo considera, ma rispetta la velocità impostata in Search Console e l'ottimizzazione automatica.

🌐Sitemap

Includere l'URL completo della sitemap accelera l'indicizzazione e facilita il discovery di nuove pagine.

Domande frequenti

Cosa succede se blocco tutto il sito?

Usando `Disallow: /` impedisci la scansione completa e Google potrebbe rimuovere le pagine dall'indice. È consigliato solo per ambienti di staging protetti.
💬

A cosa serve Allow se ho già Disallow?

`Allow` crea eccezioni a regole generiche. Ad esempio, puoi bloccare `/private/` ma consentire `/private/landing/` per pagine specifiche.
🔍

Robots.txt protegge i dati sensibili?

No. Il file è pubblico e i crawler malevoli possono ignorarlo. Per proteggere risorse usa autenticazione o restrizioni server.
💡

Posso avere più file robots.txt?

No, i crawler cercano esclusivamente `https://tuodominio/robots.txt`. Inserisci tutte le regole in un unico file e aggiorna quando necessario.

💡Suggerimenti pratici

🕷️

Evita blocchi critici

Non disattivare l'accesso a CSS/JS necessari al rendering: Google potrebbe penalizzare la pagina.
🛡️

Non usarlo per la sicurezza

I percorsi vietati sono visibili a chiunque. Per contenuti sensibili usa autenticazione o regole server.
📆

Aggiorna periodicamente

Rivedi il file a ogni redesign o rilascio di nuove sezioni per evitare disallineamenti.
🧪

Valida dopo il deploy

Testa le regole con Google Search Console e Bing Webmaster Tools per assicurarti che i crawler le rispettino.

User Comments

0 / 2000
Loading...