Alcuni lo usano, altri no e la maggior parte non sa neanche cosa sia. Di cosa stiamo parlando? Si tratta del file robots.txt.
A detta di molti (me compreso) questo file e’ molto importante per una corretta indicizzazione su Google e su altri motori di ricerca. Per chi non lo conoscesse, questo file e’ situato nella root del vostro sito e fornisce ai vari spider (googlebot etc) indicazioni essenziali per l’indicizzazione del vostro sito internet.
Molte volte infatti si ha l’esigenza di non far indicizzare alcune pagine o sezioni del vostro sito. Ecco un esempio pratico:
Poniamo caso che il vostro sito disponga di una pagina “Contattaci” dove al suo interno e’ presente una breve descrizione dell’azienda e un form di contatti online. Indicizzare questa pagina sarebbe, in termini brutali, un suicidio. Vediamo perche’:
- In primo luogo, data la scarsita’ di testo, si andrebbe quasi sicuramente incontro a una penalizzazione di Keyword Suffering ovvero eccesso di densita’ di parole ricorrenti in tutta la pagina.
- Inoltre, che beneficio potremmo avere a indicizzare una pagina contenente un semplice form di invio informazioni? Molto spesso infatti un potenziale cliente/visitatore che entra direttamente dalla pagina del form contatti tramite google, molto probabilmente non sa neanche cosa stiate vendendo, o che argomenti trattiate nel vostro sito (questo perche’ non e’ passato dalla home page).
- Nel caso di CMS come Joomla o WordPress bisogna necessariamente escludere cartelle inutili ai fini dell’indicizzazione come “administrator” o ” moduli” o “wp-admin”.
- Nel caso di programmazione invece e’ sempre buona norma escludere le cartelle “cgi-bin” e eventuali directory come “booking online” o “prenotazioni”, se non escludiamo questi sistemi di gestione in php, potremmo incorrere a un’indicizzazione errata e ad esempio, negli strumenti per webmaster di google potremmo trovare : gen, febbraio, marzo etc al posto di Hotel 3 stelle, Residence sul mare etc. Questo e’ dovuto al fatto che Google, non trovando un file txt utile, ha indicizzato TUTTO il contenuto del sito, che ha di fatto portato a un abbassamento della SERP e a un’analisi del testo e delle parole chiave del sito errata.
Nel caso non vogliate creare un file robots.txt nella root del sito, potete in alternativa aggiungere il seguente meta-tag:
<meta name="robots" content="INDEX,FOLLOW" />
sotto il tag title in ogni pagina del sito impostando: INDEX,FOLLOW se volete indicizzare il documento; oppure NOINDEX,NOFOLLOW se non volete indicizzare.
-
Creiamo insieme un file robots.txt
Per prima cosa si deve dividere il file impostando tutti gli spider che vogliamo “amministrare” in questo modo:
User-agent: googlebot
A seguire impostiamo le cartelle o le pagine che non vogliamo far indicizzare:
Disallow: /bozza1/ [..]
Ricopiamo il tutto cambiando lo spider di ricerca:
User-agent: slurp #yahoo spider Disallow: /pdf/ Disallow: /cgi-bin/ [...]
Come avete notato l’asterisco e’ un commento, e’ importante lasciare lo spazio dai due punti allo slash della cartella da escudere.
-
Robots.txt di esempio definitivo
User-agent: googlebot Disallow: /alloggio1/ Disallow: /alloggio4/ Disallow: /alloggio7/ Disallow: /banner/ Disallow: /bozza1/ Disallow: /bozza2/ Disallow: /bozza3/ Disallow: /bozza4/ Disallow: /contattaci/ Disallow: /css3_ie/ Disallow: /pdf/ Disallow: /cgi-bin/ User-agent: slurp Disallow: /alloggio1/ Disallow: /alloggio4/ Disallow: /alloggio7/ Disallow: /banner/ Disallow: /bozza1/ Disallow: /bozza2/ Disallow: /bozza3/ Disallow: /bozza4/ Disallow: /css3_ie/ Disallow: /pdf/ Disallow: /cgi-bin/
Nota. Posiziona il file robots.txt nella root del sito.
Thanx, forse potevi aggiungere quancosina in più….
grazie molto utile …