Punti salienti

  • Robots.txt è un potente strumento per gestire il comportamento dei motori di ricerca sui siti web.
  • Robots.txt Non consentire tutto impedisce a tutti i motori di ricerca di eseguire la scansione del tuo sito.
  • L’uso scorretto dei robots.txt può danneggiare la SEO e rallentare la reindicizzazione dopo le modifiche.
  • Per la sicurezza o il contenuto privato, utilizzare la protezione con password anziché basarsi sulla direttiva Disallow.
  • Il controllo regolare robots.txt file garantisce che sia ottimizzato per la visibilità sui motori di ricerca.

Introduzione

Un noto marchio di e-commerce si è trovato una volta in un incubo SEO. Da un giorno all’altro, le sue pagine sono scomparse dai risultati di ricerca di Google, portando a un improvviso calo del traffico organico e delle entrate.

Dopo ore di frenetica risoluzione dei problemi, il colpevole è stato scoperto: un robots.txt fuori luogo non consentire a tutti. Questa riga aveva effettivamente bloccato i motori di ricerca dalla scansione dell’intero sito, rendendolo invisibile ai potenziali clienti.

La direttiva robots.txt Disallow all è uno strumento potente. Ma se usato in modo errato, può sabotare le classifiche di ricerca, rallentare la reindicizzazione e causare danni significativi alla SEO.

Quindi, cosa fa esattamente Disallow all? Quando dovrebbe essere usato o evitato? In questo articolo, esploreremo tutto ciò che riguarda robots.txt Non consentire tutto.

Che cos’è un file robots.txt?

Un file robots.txt è un file di testo normale che si trova nella directory principale del dominio principale del tuo sito web. Decide in quali motori di ricerca entrano i bot e quali aree possono esplorare o registrare. Questo file segue il protocollo di esclusione dei robot, noto anche come Robots Exclusion Standard. Si tratta di un insieme di linee guida che i diversi motori di ricerca seguono durante la scansione dei siti web.

Senza un file robots.txt ben configurato, i bot di Google possono vagare liberamente, indicizzando tutto. Può includere pagine che non vuoi includere nei risultati di ricerca, come pagine di amministrazione, contenuti duplicati o ambienti di test.

Nota: Google applica un limite di dimensione di 500 KiB per i file robots.txt. Qualsiasi contenuto che superi la dimensione massima del file viene ignorato.

Puoi creare e modificare il tuo file robots.txt utilizzando il plug-in Yoast SEO o i file del server del tuo sito web. Google Search Console offre anche informazioni utili per gestire facilmente robots.txt file.

Leggi anche: Come escludere Google dall’indicizzazione Aggiungi al carrello la pagina WordPress utilizzando Yoast SEO

Esempi di funzionamento dei file robots.txt

Robots.txt ha regole diverse a seconda di quanto accesso vuoi dare ai bot dei motori di ricerca. Di seguito sono riportati alcuni esempi comuni:

Esempio 1: Consentire a tutti i bot di accedere all’intero sito web

User-agent: *
Disallow:

Cosa fa:

  • Lo “User-agent: *” significa che tutti i bot dei motori di ricerca (Googlebot, Bingbot, ecc.) possono accedere al sito.
  • Il campo “Disallow vuoto” significa che non ci sono restrizioni e che i bot possono eseguire la scansione di tutto.

Quando usarlo: Se desideri la piena visibilità sui motori di ricerca per l’intero sito web.

Esempio 2: Impedire a tutti i bot di accedere a una directory specifica

User-agent: *   
Disallow: /private-directory/

Cosa fa: Impedisce a tutti i bot dei motori di ricerca di accedere a qualsiasi cosa all’interno di ‘/private-directory/’.

Quando usarlo: Se vuoi nascondere aree sensibili come pannelli di amministrazione o dati riservati.

Esempio 3: consentire a Googlebot e impedire ad altri utenti di accedere a una directory

User-agent: Googlebot
Disallow: /images/
User-agent: * 
Disallow: /private-directory/

Cosa fa:

  • Googlebot non riesce ad accedere alla directory /images/.
  • Tutti gli altri bot non possono accedere a /private-directory/.

Quando usarlo: Se vuoi controllare l’accesso per bot specifici, ad esempio consentire a Google di eseguire la scansione di alcune parti del tuo sito bloccandone altre.

Esempio 4: Specifica della posizione della Sitemap XML

User-agent: *   
Disallow:    
Sitemap: https://www.[yourwebsitename].com/sitemap.xml

Cosa fa:

  • Consente l’accesso completo ai bot dei motori di ricerca.
  • Indica ai motori di ricerca dove trovare la Sitemap XML, aiutandoli a indicizzare le pagine in modo efficiente.

Quando usarlo: Se vuoi che i motori di ricerca trovino e scansionino facilmente la tua sitemap.

Leggi anche: Come creare una mappa del sito WordPress

Differenza tra robots.txt e meta robot e X-Robots-Tag

Sebbene robots.txt, i meta robot e gli X-robot controllino il modo in cui i motori di ricerca interagiscono con i tuoi contenuti, hanno scopi diversi.

  • Robots.txt: Impedisce la scansione, ma le pagine potrebbero comunque essere visualizzate nei risultati di ricerca se collegate altrove.
  • Meta robots tag: Influenza direttamente l’indicizzazione e la scansione delle singole pagine.
  • X-Robots-Tag: Controlla l’indicizzazione di file non HTML come PDF, immagini e video.
Caratteristica Robots.txt Meta tag robots X-Robots-Tag
Ubicazione Directory principale (/robots.txt) di una pagina web Risposta dell’intestazione HTTP
Controlli Intere sezioni di un sito Indicizzazione e scansione di pagine specifiche Indicizzazione di file non HTML
Esempio Non consentire: /private/ X-Robots-Tag: noindex
Impatto sulla SEO Impedisce la scansione dei bot, ma non impedisce l’indicizzazione se collegati altrove Impedisce che una pagina venga indicizzata e visualizzata nei risultati di ricerca Garantisce che i file non HTML non vengano indicizzati
Miglior caso d’uso Blocca i motori di ricerca da intere directory Impedire la visualizzazione di pagine specifiche nei risultati di ricerca Controllare l’indicizzazione di PDF, immagini e altri file

6 Sintassi robots.txt comune

Capire robots.txt è più facile quando si conoscono le sue regole di base. Queste semplici regole aiutano a gestire il modo in cui i bot dei motori di ricerca lavorano con il tuo sito web:

  • User-agent: Questa regola indica a quale bot o crawler sono rivolte le seguenti linee guida.
  • Proibire: Questa regola indica ai bot di non visitare file, cartelle o pagine specifiche del tuo sito che potrebbero includere determinate espressioni regolari.
  • Permettere: Questa regola consente ai bot di eseguire la scansione di determinati file, cartelle o pagine.
  • Mappa del sito: Questa regola indirizza i motori di ricerca alla posizione XML della Sitemap del tuo sito web.
  • Ritardo di scansione: Questa regola chiede ai bot di eseguire la scansione del tuo sito più lentamente. Ma non tutti i motori di ricerca seguono questa regola.
  • Noindex: Questa regola richiede ai bot di non indicizzare alcune pagine o parti del tuo sito. Tuttavia, il supporto di Google per la regola noindex in robots.txt è incoerente.

1. Direttiva user-agent

La regola ‘User-agent’ è importante per il tuo file robots.txt. Mostra a quale bot o crawler si applicano le regole. Ogni motore di ricerca ha un nome univoco chiamato “user agent”. Ad esempio, il web crawler di Google si chiama “Googlebot”.

Se vuoi scegliere come target solo Googlebot, scrivi:

User-agent: Googlebot

È possibile digitare separatamente diversi interpreti, ognuno con le proprie regole. Puoi anche utilizzare il carattere jolly ‘*’ per fare in modo che le regole si applichino a tutti gli agenti utente.

2. Non consentire robots.txt direttiva

La regola “Non consentire” è molto importante per decidere quali parti del tuo sito web devono essere nascoste ai motori di ricerca. Questa regola indica ai bot dei motori di ricerca di non esaminare determinati file, cartelle o pagine del tuo sito.

Blocco di una directory

Ad esempio, puoi utilizzare la regola “Non consentire” per impedire ai bot di entrare nell’area di amministrazione del tuo sito web:

User-agent: *
Disallow: /admin/

In questo modo tutti gli URL che iniziano con ‘/admin/’ saranno lontani da tutti i bot dei motori di ricerca.

Utilizzo dei caratteri jolly

User-agent: *
Disallow: /*.pdf$

Con il carattere jolly ‘*’, puoi bloccare tutti i file PDF sul tuo sito web. Ricordati di controllare il tuo file robots.txt dopo aver apportato modifiche per assicurarti di non bloccare parti importanti del sito.

3. Consenti direttiva

“Non consentire” blocca l’accesso a determinate aree di un sito Web, mentre la direttiva “Consenti” può fare eccezioni in queste aree bloccate. Funziona insieme a ‘Disallow’ per consentire l’accesso a file o pagine specifici anche quando un’intera directory è bloccata.

Pensa a una directory che contiene immagini. Se vuoi che Google Immagini veda un’immagine speciale in quella directory, ecco come puoi farlo:

User-agent: Googlebot-Image
Allow: /images/featured-image.jpg
User-agent: *
Disallow: /images/

In questo caso, consenti prima a Googlebot-Image di accedere a “featured-image.jpg”. Quindi, impedisci a tutti gli altri bot di vedere la directory ‘/images/’.

4. Direttiva Sitemap

La direttiva “Sitemap” indica ai motori di ricerca dove trovare la tua sitemap XML. Una sitemap XML è un file che mostra tutte le pagine chiave del tuo sito. In questo modo è più facile per i motori di ricerca eseguire la scansione e l’indicizzazione dei contenuti.

Aggiungere la Sitemap al file robots.txt è facile:

Sitemap: https://www.[yourwebsitename].com/sitemap.xml

Assicurati di cambiare ‘https://www. [yourwebsitename].com/sitemap.xml” all’URL della Sitemap reale. Puoi inviare la tua sitemap utilizzando Google Search Console. Ma inserirlo nel tuo file robots.txt garantisce che tutti i motori di ricerca possano trovarlo.

5. Direttiva Crawl-delay

La direttiva “Crawl-delay” controlla la velocità con cui i motori di ricerca eseguono la scansione del tuo sito web. Il suo obiettivo principale è evitare che il tuo server web diventi troppo occupato quando molti bot tentano di accedere alle pagine contemporaneamente.

Il tempo di “Crawl-delay” è misurato in secondi. Ad esempio, questo codice indica a Bingbot di attendere 10 secondi prima di generare un’altra richiesta:

User-agent: Bingbot
Crawl-delay: 10

Fai attenzione quando imposti i ritardi di scansione. Un ritardo troppo lungo può danneggiare l’indicizzazione e il posizionamento del tuo sito web. Ciò è particolarmente vero se il tuo sito ha molte pagine e viene aggiornato regolarmente.

Nota: Il crawler di Google, Googlebot, non segue questa direttiva. Ma puoi regolare la velocità di scansione tramite Google Search Console per evitare il sovraccarico del server.

Leggi anche: Come verificare la proprietà del sito Web su Google Search Console

6. Direttiva Noindex

Il comando ‘noindex’ impedisce ai motori di ricerca di memorizzare pagine specifiche del tuo sito web. Ma ora, Google non supporta ufficialmente questa regola.

Alcuni test dimostrano che il ‘noindex’ in robots.txt può ancora funzionare. Ma non è una buona idea dipendere solo da questo metodo. Invece, puoi utilizzare i tag meta robots o l’intestazione HTTP X-Robots-Tag, per un migliore controllo sull’indicizzazione.

Perché robots.txt è importante per la SEO?

Un file robots.txt ben configurato è uno strumento potente per la SEO. Questo file influisce sul modo in cui Google e altri motori di ricerca trovano, navigano e registrano i contenuti del tuo sito web. A sua volta, influisce sul modo in cui il tuo sito viene visto e classificato.

1. Ottimizza il crawl budget

Il crawl budget è il numero di pagine che Googlebot indicizzerà sul tuo sito web in un determinato periodo di tempo. Se ottimizzi bene il tuo crawl budget, Google si concentrerà sui tuoi contenuti importanti.

Puoi utilizzare robots.txt per impedire a Google di visitare pagine non necessarie e dedicare più tempo ai tuoi contenuti di valore.

2. Blocca le pagine duplicate e non pubbliche

I contenuti duplicati sono un problema comune che può danneggiare la tua SEO. Confonde i motori di ricerca e indebolisce l’autorità del tuo sito web.

Utilizzando robots.txt, puoi bloccare l’accesso alle pagine duplicate, come le versioni PDF o i contenuti precedenti. In questo modo, i motori di ricerca possono concentrarsi sulle versioni originali e più importanti delle tue pagine.

Leggi anche: Che cos’è il contenuto duplicato: come individuarlo e prevenirlo

3. Nascondi le risorse

Nascondere i file CSS o JavaScript dai motori di ricerca può sembrare una buona idea per gestire il budget di scansione del tuo sito web. Ma non lo è.

I motori di ricerca utilizzano questi file per visualizzare correttamente le tue pagine e capire come funziona il tuo sito web. Se blocchi questi file, i motori di ricerca potrebbero avere difficoltà a valutare l’esperienza utente del tuo sito web. Questo danneggia le tue classifiche di ricerca.

Come utilizzare robots.txt non consentire tutto per i motori di ricerca

Puoi controllare il file robots.txt del tuo sito semplicemente aggiungendo “robots.txt” alla fine di un URL. Ad esempio, https://www.bluehost.com/robots.txt. Controlliamo come configurare il file robots.txt utilizzando Bluehost File Manager:

1. Accedi al File Manager

  • Accedi al tuo account manager Bluehost.
  • Vai alla scheda “Hosting” nel menu a sinistra.
  • Fai clic su “File Manager” nella sezione “Collegamenti rapidi”.
accedere al gestore dei file

2. Individua il file robots.txt

  • Nel “File Manager”, apri la directory “public_html”, che contiene i file del tuo sito web.
Accesso public_html
  • Cerca il nome del file ‘robots.txt’ in questa directory.
Individua robots.txt

3. Crea il file robots.txt (se non esiste)

Se il file robots.txt non è presente, è possibile crearlo. Ecco come:

  • Fai clic sul pulsante “+ File” nell’angolo in alto a sinistra.
  • Assegna al nuovo file il nome “robots.txt”. Assicurarsi che sia posizionato nella directory ‘/public_html’.
Assegna un nome al nuovo file

4. Modifica il file robots.txt

  • Fare clic con il pulsante destro del mouse sul file “robots.txt” e selezionare “Modifica”.
Modifica robots.txt file
  • Si aprirà un editor di testo che ti consentirà di aggiungere o modificare le direttive.
robots.txt editor di file

5. Configura robots.txt per non consentire i motori di ricerca

Per controllare il modo in cui i motori di ricerca interagiscono con il tuo sito, puoi aggiungere direttive specifiche al file robots.txt. Di seguito sono riportate alcune configurazioni comuni:

  • “Non consentire a tutti” i motori di ricerca di accedere all’intero sito: Per impedire a tutti i bot dei motori di ricerca di eseguire la scansione di qualsiasi parte del tuo sito, aggiungi le seguenti righe:
User-agent: *
Disallow: /

Questo dice a tutti gli user agent (indicati dall’asterisco *) di non accedere a nessuna pagina del tuo sito.

  • Disattiva l’autorizzazione di motori di ricerca specifici da una cartella specifica: Se si desidera impedire al bot di un determinato motore di ricerca di eseguire la scansione di una directory specifica, specificare lo user-agent del bot e la directory:
User-agent: Googlebot   
Disallow: /example-subfolder/

Questo esempio impedisce al bot di Google di accedere alla directory /example-subfolder/.

  • “Non consentire tutti” i bot da directory specifiche: Per bloccare tutti i bot da determinate directory, elencali come segue:
User-agent: *   
Disallow: /cgi-bin/   
Disallow: /tmp/   
Disallow: /junk/

Questa configurazione impedisce a tutti gli agenti utente di accedere alle directory /cgi-bin/, /tmp/ e /junk/.

Considerazioni importanti prima di utilizzare robots.txt Non consentire tutto

È importante come e quando usi “Non consentire tutto” nel tuo file robots.txt, poiché può influire seriamente sulla SEO del tuo sito. Ecco alcune cose da tenere a mente prima di utilizzare robots.txt Non consentire tutto.

1. Scopo del robots.txt file

Prima di modificare il file robots.txt, è necessario sapere a cosa serve. Il file robots.txt non è pensato per essere uno strumento di sicurezza o per nascondere il tuo sito web da qualsiasi minaccia. Se disponi di contenuti sensibili, è meglio utilizzare metodi più efficaci come la protezione con password invece di utilizzare solo robots.txt.

2. Impatto sulla presenza nell’indice

L’utilizzo di robots.txt Disallow all può influire seriamente sul modo in cui il tuo sito web viene visualizzato nei motori di ricerca. Quando impedisci ai bot dei motori di ricerca di visitare il tuo sito, alla fine rimuoveranno le tue pagine dal loro indice. Di conseguenza, il traffico proveniente dalla Ricerca Google diminuirà drasticamente.

La link equity (o link juice) è molto importante per posizionarsi bene nella SEO. Quando i siti web affidabili si collegano alle tue pagine, condividono parte della loro autorità. Ma se usi robots.txt Disallow all per bloccare i bot dei motori di ricerca, interrompi anche il flusso di link equity.

4. Rischio di accessibilità pubblica

Robots.txt file sono accessibili pubblicamente. Chiunque può vedere quale parte del tuo sito web è vietata ai motori di ricerca. Per una maggiore sicurezza, utilizza l’autenticazione lato server, i firewall, i metodi di blocco IP o posiziona i contenuti sensibili in directory protette.

5. Evita errori di sintassi

Un piccolo errore di sintassi nel file robots.txt può causare una ricerca per indicizzazione involontaria. Ciò potrebbe impedire ai motori di ricerca di accedere a pagine importanti o non riuscire a bloccare aree indesiderate.

Per evitare ciò, controlla sempre la sintassi e la struttura prima di implementare le modifiche. Puoi anche utilizzare un correttore di sintassi online o strumenti di test per identificare eventuali errori.

6. Testare robots.txt file

Test regolari aiutano a confermare che non stai inavvertitamente bloccando contenuti essenziali o lasciando sezioni importanti del tuo sito non protette. Inoltre, garantisce che il tuo file robots.txt rimanga una parte efficace della strategia SEO del tuo sito web.

Leggi anche: Come ottimizzare i contenuti per la SEO su WordPress

Pensieri finali

Padroneggiare robots.txt è un’abilità chiave per i proprietari di siti Web e i SEO. Quando capisci come funziona, puoi aiutare i motori di ricerca a trovare i tuoi contenuti importanti. Questo può portare a una migliore visibilità, a un posizionamento più elevato nei risultati di ricerca e a un aumento del traffico organico.

Ma usa robots.txt Non consentire tutto con molta attenzione. Può avere effetti importanti sulla tua SEO a lungo termine. Seguendo le best practice, controllando spesso il file robots.txt e tenendo il passo con gli aggiornamenti dei motori di ricerca, puoi sfruttare al meglio robots.txt. Questo ti aiuterà a ottimizzare il tuo sito web per il successo.

Domande frequenti

Cosa fa “Non consentire tutto” in robots.txt?

“Non consentire tutto” in robots.txt impedisce a tutti i bot dei motori di ricerca di eseguire la scansione di qualsiasi parte del tuo sito.

Quanto è importante robots.txt per la SEO?

Robots.txt aiuta i web crawler a capire quali pagine indicizzare. Ciò influisce sulla tua visibilità sulla Ricerca Google e sul tuo posizionamento.

Quali sono i rischi dell’utilizzo di robots.txt Non consentire tutti?

L’utilizzo di robots.txt Disallow all può rimuovere le tue pagine dai risultati di ricerca, causando perdita di traffico e danni SEO che richiedono tempo per riprendersi.

L’opzione “Non consentire tutto” può influire negativamente sulla SEO del mio sito?

Sì, l’utilizzo di “Non consentire tutto” può danneggiare la tua SEO. Può rendere il tuo sito difficile da trovare su Google e influire sulla tua visibilità in Google Search Console.

Come posso invertire gli effetti di “Non consentire tutto” sul mio sito web?

Per annullare la direttiva “Non consentire tutti”:
1. Rimuovere ‘Disallow: /’ dal file robots.txt.
2. Invia il file robots.txt aggiornato in Google Search Console.
3. Invia nuovamente la sitemap XML per aiutare i motori di ricerca a riscoprire le pagine più velocemente.
4. Monitora Google Search Console per verificare la presenza di errori di scansione.

“Non consentire tutto” è il modo migliore per proteggere i contenuti privati dai motori di ricerca?

No, robots.txt non consentire tutto non è un buon modo per proteggere i contenuti privati. È meglio utilizzare opzioni di sicurezza avanzate, come le password, per le informazioni sensibili.

Con quale frequenza devo aggiornare il mio file robots.txt?

Controlla e aggiorna il file robots.txt dopo aver riprogettato il tuo sito web, spostato i contenuti o apportato modifiche sostanziali al layout del tuo sito. Assicurati che corrisponda alla tua attuale strategia SEO e che la tua sitemap XML sia collegata correttamente.

  • Jyoti is a storyteller at heart, weaving words that make tech and eCommerce feel less like a maze and more like an adventure. With a cup of chai in one hand and curiosity in the other, Jyoti turns complex ideas into conversations you actually want to have.

Scopri di più su Linee guida editoriali di Bluehost

Longest running WordPress.org recommended host.

Save up to 75% on hosting for WordPress websites and online stores. Try risk-free with our 30-day money-back guarantee.

Scrivi un commento

Fino al 75% di sconto sull'hosting per siti Web WordPress e negozi online