Come creare un file robots.txt efficace per un’indicizzazione “mirata”

Alcuni lo usano, altri no e la maggior parte non sa neanche cosa sia. Di cosa stiamo parlando? Si tratta del file robots.txt.

A detta di molti (me compreso) questo file e’ molto importante per una corretta indicizzazione su Google e su altri motori di ricerca. Per chi non lo conoscesse, questo file e’ situato nella root del vostro sito e fornisce ai vari spider (googlebot etc) indicazioni essenziali per l’indicizzazione del vostro sito internet.

Molte volte infatti si ha l’esigenza di non far indicizzare alcune pagine o sezioni del vostro sito. Ecco un esempio pratico:

Poniamo caso che il vostro sito disponga di una pagina “Contattaci” dove al suo interno e’ presente una breve descrizione dell’azienda e un form di contatti online. Indicizzare questa pagina sarebbe, in termini brutali, un suicidio. Vediamo perche’:

  • In primo luogo, data la scarsita’ di testo, si andrebbe quasi sicuramente incontro a una penalizzazione di Keyword Suffering ovvero eccesso di densita’ di parole ricorrenti in tutta la pagina.
  • Inoltre, che beneficio potremmo avere a indicizzare una pagina contenente un semplice form di invio informazioni?  Molto spesso infatti un potenziale cliente/visitatore che entra direttamente dalla pagina del form contatti tramite google, molto probabilmente non sa neanche cosa stiate vendendo, o che argomenti trattiate nel vostro sito (questo perche’ non e’ passato dalla home page).
  • Nel caso di CMS come Joomla o WordPress bisogna necessariamente escludere cartelle inutili ai fini dell’indicizzazione come “administrator” o ” moduli” o “wp-admin”.
  • Nel caso di programmazione invece e’ sempre buona norma escludere le cartelle “cgi-bin” e eventuali directory come “booking online” o “prenotazioni”, se non escludiamo questi sistemi di gestione in php, potremmo incorrere a un’indicizzazione errata e ad esempio, negli strumenti per webmaster di google potremmo trovare : gen, febbraio, marzo etc al posto di Hotel 3 stelle, Residence sul mare etc. Questo e’ dovuto al fatto che Google, non trovando un file txt utile, ha indicizzato TUTTO il contenuto del sito, che ha di fatto portato a un abbassamento della SERP e a un’analisi del testo e delle parole chiave del sito errata.

Nel caso non vogliate creare un file robots.txt nella root del sito, potete in alternativa aggiungere il seguente meta-tag:

<meta name="robots" content="INDEX,FOLLOW" />

sotto il tag title in ogni pagina del sito impostando: INDEX,FOLLOW se volete indicizzare il documento; oppure NOINDEX,NOFOLLOW se non volete indicizzare.

  • Creiamo insieme un file robots.txt

Per prima cosa si deve dividere il file impostando tutti gli spider che vogliamo “amministrare” in questo modo:

User-agent: googlebot

A seguire impostiamo le cartelle o le pagine che non vogliamo far indicizzare:

Disallow: /bozza1/
[..]

Ricopiamo il tutto cambiando lo spider di ricerca:

User-agent: slurp #yahoo spider
Disallow: /pdf/
Disallow: /cgi-bin/
[...]

Come avete notato l’asterisco e’ un commento, e’ importante lasciare lo spazio dai due punti allo slash della cartella da escudere.

  • Robots.txt di esempio definitivo

User-agent: googlebot
Disallow: /alloggio1/
Disallow: /alloggio4/
Disallow: /alloggio7/
Disallow: /banner/
Disallow: /bozza1/
Disallow: /bozza2/
Disallow: /bozza3/
Disallow: /bozza4/
Disallow: /contattaci/
Disallow: /css3_ie/
Disallow: /pdf/
Disallow: /cgi-bin/

User-agent: slurp
Disallow: /alloggio1/
Disallow: /alloggio4/
Disallow: /alloggio7/
Disallow: /banner/
Disallow: /bozza1/
Disallow: /bozza2/
Disallow: /bozza3/
Disallow: /bozza4/
Disallow: /css3_ie/
Disallow: /pdf/
Disallow: /cgi-bin/

Nota. Posiziona il file robots.txt nella root del sito.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Up Next:

Tutorial Jquery: effetto fade al passaggio del mouse applicato alle immagini

Tutorial Jquery: effetto fade al passaggio del mouse applicato alle immagini