Punti salienti
- Robots.txt è un potente strumento per gestire il comportamento dei motori di ricerca sui siti web.
- Robots.txt Non consentire tutto impedisce a tutti i motori di ricerca di eseguire la scansione del tuo sito.
- L’uso scorretto dei robots.txt può danneggiare la SEO e rallentare la reindicizzazione dopo le modifiche.
- Per la sicurezza o il contenuto privato, utilizzare la protezione con password anziché basarsi sulla direttiva Disallow.
- Il controllo regolare robots.txt file garantisce che sia ottimizzato per la visibilità sui motori di ricerca.
Introduzione
Un noto marchio di e-commerce si è trovato una volta in un incubo SEO. Da un giorno all’altro, le sue pagine sono scomparse dai risultati di ricerca di Google, portando a un improvviso calo del traffico organico e delle entrate.
Dopo ore di frenetica risoluzione dei problemi, il colpevole è stato scoperto: un robots.txt fuori luogo non consentire a tutti. Questa riga aveva effettivamente bloccato i motori di ricerca dalla scansione dell’intero sito, rendendolo invisibile ai potenziali clienti.
La direttiva robots.txt Disallow all è uno strumento potente. Ma se usato in modo errato, può sabotare le classifiche di ricerca, rallentare la reindicizzazione e causare danni significativi alla SEO.
Quindi, cosa fa esattamente Disallow all? Quando dovrebbe essere usato o evitato? In questo articolo, esploreremo tutto ciò che riguarda robots.txt Non consentire tutto.
Che cos’è un file robots.txt?
Un file robots.txt è un file di testo normale che si trova nella directory principale del dominio principale del tuo sito web. Decide in quali motori di ricerca entrano i bot e quali aree possono esplorare o registrare. Questo file segue il protocollo di esclusione dei robot, noto anche come Robots Exclusion Standard. Si tratta di un insieme di linee guida che i diversi motori di ricerca seguono durante la scansione dei siti web.
Senza un file robots.txt ben configurato, i bot di Google possono vagare liberamente, indicizzando tutto. Può includere pagine che non vuoi includere nei risultati di ricerca, come pagine di amministrazione, contenuti duplicati o ambienti di test.
Nota: Google applica un limite di dimensione di 500 KiB per i file robots.txt. Qualsiasi contenuto che superi la dimensione massima del file viene ignorato.
Puoi creare e modificare il tuo file robots.txt utilizzando il plug-in Yoast SEO o i file del server del tuo sito web. Google Search Console offre anche informazioni utili per gestire facilmente robots.txt file.
Leggi anche: Come escludere Google dall’indicizzazione Aggiungi al carrello la pagina WordPress utilizzando Yoast SEO
Esempi di funzionamento dei file robots.txt
Robots.txt ha regole diverse a seconda di quanto accesso vuoi dare ai bot dei motori di ricerca. Di seguito sono riportati alcuni esempi comuni:
Esempio 1: Consentire a tutti i bot di accedere all’intero sito web
User-agent: *
Disallow:
Cosa fa:
- Lo “User-agent: *” significa che tutti i bot dei motori di ricerca (Googlebot, Bingbot, ecc.) possono accedere al sito.
- Il campo “Disallow vuoto” significa che non ci sono restrizioni e che i bot possono eseguire la scansione di tutto.
Quando usarlo: Se desideri la piena visibilità sui motori di ricerca per l’intero sito web.
Esempio 2: Impedire a tutti i bot di accedere a una directory specifica
User-agent: *
Disallow: /private-directory/
Cosa fa: Impedisce a tutti i bot dei motori di ricerca di accedere a qualsiasi cosa all’interno di ‘/private-directory/’.
Quando usarlo: Se vuoi nascondere aree sensibili come pannelli di amministrazione o dati riservati.
Esempio 3: consentire a Googlebot e impedire ad altri utenti di accedere a una directory
User-agent: Googlebot
Disallow: /images/
User-agent: *
Disallow: /private-directory/
Cosa fa:
- Googlebot non riesce ad accedere alla directory /images/.
- Tutti gli altri bot non possono accedere a /private-directory/.
Quando usarlo: Se vuoi controllare l’accesso per bot specifici, ad esempio consentire a Google di eseguire la scansione di alcune parti del tuo sito bloccandone altre.
Esempio 4: Specifica della posizione della Sitemap XML
User-agent: *
Disallow:
Sitemap: https://www.[yourwebsitename].com/sitemap.xml
Cosa fa:
- Consente l’accesso completo ai bot dei motori di ricerca.
- Indica ai motori di ricerca dove trovare la Sitemap XML, aiutandoli a indicizzare le pagine in modo efficiente.
Quando usarlo: Se vuoi che i motori di ricerca trovino e scansionino facilmente la tua sitemap.
Leggi anche: Come creare una mappa del sito WordPress
Differenza tra robots.txt e meta robot e X-Robots-Tag
Sebbene robots.txt, i meta robot e gli X-robot controllino il modo in cui i motori di ricerca interagiscono con i tuoi contenuti, hanno scopi diversi.
- Robots.txt: Impedisce la scansione, ma le pagine potrebbero comunque essere visualizzate nei risultati di ricerca se collegate altrove.
- Meta robots tag: Influenza direttamente l’indicizzazione e la scansione delle singole pagine.
- X-Robots-Tag: Controlla l’indicizzazione di file non HTML come PDF, immagini e video.
Caratteristica | Robots.txt | Meta tag robots | X-Robots-Tag |
Ubicazione | Directory principale (/robots.txt) | di una pagina web | Risposta dell’intestazione HTTP |
Controlli | Intere sezioni di un sito | Indicizzazione e scansione di pagine specifiche | Indicizzazione di file non HTML |
Esempio | Non consentire: /private/ | X-Robots-Tag: noindex | |
Impatto sulla SEO | Impedisce la scansione dei bot, ma non impedisce l’indicizzazione se collegati altrove | Impedisce che una pagina venga indicizzata e visualizzata nei risultati di ricerca | Garantisce che i file non HTML non vengano indicizzati |
Miglior caso d’uso | Blocca i motori di ricerca da intere directory | Impedire la visualizzazione di pagine specifiche nei risultati di ricerca | Controllare l’indicizzazione di PDF, immagini e altri file |
6 Sintassi robots.txt comune
Capire robots.txt è più facile quando si conoscono le sue regole di base. Queste semplici regole aiutano a gestire il modo in cui i bot dei motori di ricerca lavorano con il tuo sito web:
- User-agent: Questa regola indica a quale bot o crawler sono rivolte le seguenti linee guida.
- Proibire: Questa regola indica ai bot di non visitare file, cartelle o pagine specifiche del tuo sito che potrebbero includere determinate espressioni regolari.
- Permettere: Questa regola consente ai bot di eseguire la scansione di determinati file, cartelle o pagine.
- Mappa del sito: Questa regola indirizza i motori di ricerca alla posizione XML della Sitemap del tuo sito web.
- Ritardo di scansione: Questa regola chiede ai bot di eseguire la scansione del tuo sito più lentamente. Ma non tutti i motori di ricerca seguono questa regola.
- Noindex: Questa regola richiede ai bot di non indicizzare alcune pagine o parti del tuo sito. Tuttavia, il supporto di Google per la regola noindex in robots.txt è incoerente.
1. Direttiva user-agent
La regola ‘User-agent’ è importante per il tuo file robots.txt. Mostra a quale bot o crawler si applicano le regole. Ogni motore di ricerca ha un nome univoco chiamato “user agent”. Ad esempio, il web crawler di Google si chiama “Googlebot”.
Se vuoi scegliere come target solo Googlebot, scrivi:
User-agent: Googlebot
È possibile digitare separatamente diversi interpreti, ognuno con le proprie regole. Puoi anche utilizzare il carattere jolly ‘*’ per fare in modo che le regole si applichino a tutti gli agenti utente.
2. Non consentire robots.txt direttiva
La regola “Non consentire” è molto importante per decidere quali parti del tuo sito web devono essere nascoste ai motori di ricerca. Questa regola indica ai bot dei motori di ricerca di non esaminare determinati file, cartelle o pagine del tuo sito.
Blocco di una directory
Ad esempio, puoi utilizzare la regola “Non consentire” per impedire ai bot di entrare nell’area di amministrazione del tuo sito web:
User-agent: *
Disallow: /admin/
In questo modo tutti gli URL che iniziano con ‘/admin/’ saranno lontani da tutti i bot dei motori di ricerca.
Utilizzo dei caratteri jolly
User-agent: *
Disallow: /*.pdf$
Con il carattere jolly ‘*’, puoi bloccare tutti i file PDF sul tuo sito web. Ricordati di controllare il tuo file robots.txt dopo aver apportato modifiche per assicurarti di non bloccare parti importanti del sito.
3. Consenti direttiva
“Non consentire” blocca l’accesso a determinate aree di un sito Web, mentre la direttiva “Consenti” può fare eccezioni in queste aree bloccate. Funziona insieme a ‘Disallow’ per consentire l’accesso a file o pagine specifici anche quando un’intera directory è bloccata.
Pensa a una directory che contiene immagini. Se vuoi che Google Immagini veda un’immagine speciale in quella directory, ecco come puoi farlo:
User-agent: Googlebot-Image
Allow: /images/featured-image.jpg
User-agent: *
Disallow: /images/
In questo caso, consenti prima a Googlebot-Image di accedere a “featured-image.jpg”. Quindi, impedisci a tutti gli altri bot di vedere la directory ‘/images/’.
4. Direttiva Sitemap
La direttiva “Sitemap” indica ai motori di ricerca dove trovare la tua sitemap XML. Una sitemap XML è un file che mostra tutte le pagine chiave del tuo sito. In questo modo è più facile per i motori di ricerca eseguire la scansione e l’indicizzazione dei contenuti.
Aggiungere la Sitemap al file robots.txt è facile:
Sitemap: https://www.[yourwebsitename].com/sitemap.xml
Assicurati di cambiare ‘https://www. [yourwebsitename].com/sitemap.xml” all’URL della Sitemap reale. Puoi inviare la tua sitemap utilizzando Google Search Console. Ma inserirlo nel tuo file robots.txt garantisce che tutti i motori di ricerca possano trovarlo.
5. Direttiva Crawl-delay
La direttiva “Crawl-delay” controlla la velocità con cui i motori di ricerca eseguono la scansione del tuo sito web. Il suo obiettivo principale è evitare che il tuo server web diventi troppo occupato quando molti bot tentano di accedere alle pagine contemporaneamente.
Il tempo di “Crawl-delay” è misurato in secondi. Ad esempio, questo codice indica a Bingbot di attendere 10 secondi prima di generare un’altra richiesta:
User-agent: Bingbot
Crawl-delay: 10
Fai attenzione quando imposti i ritardi di scansione. Un ritardo troppo lungo può danneggiare l’indicizzazione e il posizionamento del tuo sito web. Ciò è particolarmente vero se il tuo sito ha molte pagine e viene aggiornato regolarmente.
Nota: Il crawler di Google, Googlebot, non segue questa direttiva. Ma puoi regolare la velocità di scansione tramite Google Search Console per evitare il sovraccarico del server.
Leggi anche: Come verificare la proprietà del sito Web su Google Search Console
6. Direttiva Noindex
Il comando ‘noindex’ impedisce ai motori di ricerca di memorizzare pagine specifiche del tuo sito web. Ma ora, Google non supporta ufficialmente questa regola.
Alcuni test dimostrano che il ‘noindex’ in robots.txt può ancora funzionare. Ma non è una buona idea dipendere solo da questo metodo. Invece, puoi utilizzare i tag meta robots o l’intestazione HTTP X-Robots-Tag, per un migliore controllo sull’indicizzazione.
Perché robots.txt è importante per la SEO?
Un file robots.txt ben configurato è uno strumento potente per la SEO. Questo file influisce sul modo in cui Google e altri motori di ricerca trovano, navigano e registrano i contenuti del tuo sito web. A sua volta, influisce sul modo in cui il tuo sito viene visto e classificato.
1. Ottimizza il crawl budget
Il crawl budget è il numero di pagine che Googlebot indicizzerà sul tuo sito web in un determinato periodo di tempo. Se ottimizzi bene il tuo crawl budget, Google si concentrerà sui tuoi contenuti importanti.
Puoi utilizzare robots.txt per impedire a Google di visitare pagine non necessarie e dedicare più tempo ai tuoi contenuti di valore.
2. Blocca le pagine duplicate e non pubbliche
I contenuti duplicati sono un problema comune che può danneggiare la tua SEO. Confonde i motori di ricerca e indebolisce l’autorità del tuo sito web.
Utilizzando robots.txt, puoi bloccare l’accesso alle pagine duplicate, come le versioni PDF o i contenuti precedenti. In questo modo, i motori di ricerca possono concentrarsi sulle versioni originali e più importanti delle tue pagine.
Leggi anche: Che cos’è il contenuto duplicato: come individuarlo e prevenirlo
3. Nascondi le risorse
Nascondere i file CSS o JavaScript dai motori di ricerca può sembrare una buona idea per gestire il budget di scansione del tuo sito web. Ma non lo è.
I motori di ricerca utilizzano questi file per visualizzare correttamente le tue pagine e capire come funziona il tuo sito web. Se blocchi questi file, i motori di ricerca potrebbero avere difficoltà a valutare l’esperienza utente del tuo sito web. Questo danneggia le tue classifiche di ricerca.
Come utilizzare robots.txt non consentire tutto per i motori di ricerca
Puoi controllare il file robots.txt del tuo sito semplicemente aggiungendo “robots.txt” alla fine di un URL. Ad esempio, https://www.bluehost.com/robots.txt. Controlliamo come configurare il file robots.txt utilizzando Bluehost File Manager:
1. Accedi al File Manager
- Accedi al tuo account manager Bluehost.
- Vai alla scheda “Hosting” nel menu a sinistra.
- Fai clic su “File Manager” nella sezione “Collegamenti rapidi”.
2. Individua il file robots.txt
- Nel “File Manager”, apri la directory “public_html”, che contiene i file del tuo sito web.
- Cerca il nome del file ‘robots.txt’ in questa directory.
3. Crea il file robots.txt (se non esiste)
Se il file robots.txt non è presente, è possibile crearlo. Ecco come:
- Fai clic sul pulsante “+ File” nell’angolo in alto a sinistra.
- Assegna al nuovo file il nome “robots.txt”. Assicurarsi che sia posizionato nella directory ‘/public_html’.
4. Modifica il file robots.txt
- Fare clic con il pulsante destro del mouse sul file “robots.txt” e selezionare “Modifica”.
- Si aprirà un editor di testo che ti consentirà di aggiungere o modificare le direttive.
5. Configura robots.txt per non consentire i motori di ricerca
Per controllare il modo in cui i motori di ricerca interagiscono con il tuo sito, puoi aggiungere direttive specifiche al file robots.txt. Di seguito sono riportate alcune configurazioni comuni:
- “Non consentire a tutti” i motori di ricerca di accedere all’intero sito: Per impedire a tutti i bot dei motori di ricerca di eseguire la scansione di qualsiasi parte del tuo sito, aggiungi le seguenti righe:
User-agent: *
Disallow: /
Questo dice a tutti gli user agent (indicati dall’asterisco *) di non accedere a nessuna pagina del tuo sito.
- Disattiva l’autorizzazione di motori di ricerca specifici da una cartella specifica: Se si desidera impedire al bot di un determinato motore di ricerca di eseguire la scansione di una directory specifica, specificare lo user-agent del bot e la directory:
User-agent: Googlebot
Disallow: /example-subfolder/
Questo esempio impedisce al bot di Google di accedere alla directory /example-subfolder/.
- “Non consentire tutti” i bot da directory specifiche: Per bloccare tutti i bot da determinate directory, elencali come segue:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Questa configurazione impedisce a tutti gli agenti utente di accedere alle directory /cgi-bin/, /tmp/ e /junk/.
Considerazioni importanti prima di utilizzare robots.txt Non consentire tutto
È importante come e quando usi “Non consentire tutto” nel tuo file robots.txt, poiché può influire seriamente sulla SEO del tuo sito. Ecco alcune cose da tenere a mente prima di utilizzare robots.txt Non consentire tutto.
1. Scopo del robots.txt file
Prima di modificare il file robots.txt, è necessario sapere a cosa serve. Il file robots.txt non è pensato per essere uno strumento di sicurezza o per nascondere il tuo sito web da qualsiasi minaccia. Se disponi di contenuti sensibili, è meglio utilizzare metodi più efficaci come la protezione con password invece di utilizzare solo robots.txt.
2. Impatto sulla presenza nell’indice
L’utilizzo di robots.txt Disallow all può influire seriamente sul modo in cui il tuo sito web viene visualizzato nei motori di ricerca. Quando impedisci ai bot dei motori di ricerca di visitare il tuo sito, alla fine rimuoveranno le tue pagine dal loro indice. Di conseguenza, il traffico proveniente dalla Ricerca Google diminuirà drasticamente.
3. Impatto sulla link equity
La link equity (o link juice) è molto importante per posizionarsi bene nella SEO. Quando i siti web affidabili si collegano alle tue pagine, condividono parte della loro autorità. Ma se usi robots.txt Disallow all per bloccare i bot dei motori di ricerca, interrompi anche il flusso di link equity.
4. Rischio di accessibilità pubblica
Robots.txt file sono accessibili pubblicamente. Chiunque può vedere quale parte del tuo sito web è vietata ai motori di ricerca. Per una maggiore sicurezza, utilizza l’autenticazione lato server, i firewall, i metodi di blocco IP o posiziona i contenuti sensibili in directory protette.
5. Evita errori di sintassi
Un piccolo errore di sintassi nel file robots.txt può causare una ricerca per indicizzazione involontaria. Ciò potrebbe impedire ai motori di ricerca di accedere a pagine importanti o non riuscire a bloccare aree indesiderate.
Per evitare ciò, controlla sempre la sintassi e la struttura prima di implementare le modifiche. Puoi anche utilizzare un correttore di sintassi online o strumenti di test per identificare eventuali errori.
6. Testare robots.txt file
Test regolari aiutano a confermare che non stai inavvertitamente bloccando contenuti essenziali o lasciando sezioni importanti del tuo sito non protette. Inoltre, garantisce che il tuo file robots.txt rimanga una parte efficace della strategia SEO del tuo sito web.
Leggi anche: Come ottimizzare i contenuti per la SEO su WordPress
Pensieri finali
Padroneggiare robots.txt è un’abilità chiave per i proprietari di siti Web e i SEO. Quando capisci come funziona, puoi aiutare i motori di ricerca a trovare i tuoi contenuti importanti. Questo può portare a una migliore visibilità, a un posizionamento più elevato nei risultati di ricerca e a un aumento del traffico organico.
Ma usa robots.txt Non consentire tutto con molta attenzione. Può avere effetti importanti sulla tua SEO a lungo termine. Seguendo le best practice, controllando spesso il file robots.txt e tenendo il passo con gli aggiornamenti dei motori di ricerca, puoi sfruttare al meglio robots.txt. Questo ti aiuterà a ottimizzare il tuo sito web per il successo.
Domande frequenti
“Non consentire tutto” in robots.txt impedisce a tutti i bot dei motori di ricerca di eseguire la scansione di qualsiasi parte del tuo sito.
Robots.txt aiuta i web crawler a capire quali pagine indicizzare. Ciò influisce sulla tua visibilità sulla Ricerca Google e sul tuo posizionamento.
L’utilizzo di robots.txt Disallow all può rimuovere le tue pagine dai risultati di ricerca, causando perdita di traffico e danni SEO che richiedono tempo per riprendersi.
Sì, l’utilizzo di “Non consentire tutto” può danneggiare la tua SEO. Può rendere il tuo sito difficile da trovare su Google e influire sulla tua visibilità in Google Search Console.
Per annullare la direttiva “Non consentire tutti”:
1. Rimuovere ‘Disallow: /’ dal file robots.txt.
2. Invia il file robots.txt aggiornato in Google Search Console.
3. Invia nuovamente la sitemap XML per aiutare i motori di ricerca a riscoprire le pagine più velocemente.
4. Monitora Google Search Console per verificare la presenza di errori di scansione.
No, robots.txt non consentire tutto non è un buon modo per proteggere i contenuti privati. È meglio utilizzare opzioni di sicurezza avanzate, come le password, per le informazioni sensibili.
Controlla e aggiorna il file robots.txt dopo aver riprogettato il tuo sito web, spostato i contenuti o apportato modifiche sostanziali al layout del tuo sito. Assicurati che corrisponda alla tua attuale strategia SEO e che la tua sitemap XML sia collegata correttamente.