Una breve guida alla scoperta di due file molto importanti per l'indicizzazione del tuo sito: robots.txt e sitemap
Il file robots.txt e la sitemap sono strumenti che danno ai motori di ricerca informazioni su come indicizzare le pagine di un sito. Sentiamo spesso parlare di questi file, ma di cosa si tratta realmente? E a cosa servono?
La sitemap esplicita a Google la gerarchia delle pagine di un sito, aiutando i crawler a comprendere l’organizzazione dei contenuti.
Il file robots.txt, invece, fornisce ai crawler dei motori di ricerca informazioni atte principalmente ad impedire l'indicizzazione di determinati contenuti che è necessario avere sul sito ma non si desidera mostrare tra i risultati di ricerca (ad esempio la pagina della privacy policy o quella di login).
Vuoi saperne di più? Leggi le nostre indicazioni per sfruttare al meglio le potenzialità di sitemap e robots.txt.
La sitemap
Anche senza sitemap, i crawler di Google riescono a trovare la maggior parte dei contenuti di un sito (a patto che questi siano collegati in modo corretto attraverso un appropriato sistema di link interni). Tuttavia, aggiungere la mappa del sito aiuta i bot ad eseguire una scansione più efficiente, soprattutto in presenza di una delle seguenti caratteristiche:
- Il sito è molto grande. Nuovi contenuti su siti ricchi di pagine potrebbero essere trascurati dai crawler di Google. In questo caso la sitemap è necessaria, se non fondamentale.
- Il sito è nuovo e riceve pochi link in entrata. Dato che i motori di ricerca scansionano il web passando da un link all’altro, la scarsa quantità di link che puntano al tuo sito rappresenta un motivo ragionevole per creare subito una sitemap e migliorare l’indicizzazione dei contenuti.
- Le pagine del sito non sono collegate in maniera ottimale. È importante dunque assicurarsi che le pagine meno linkate siano elencate all’interno della sitemap, così che possano essere scansionate ed indicizzate dai bot.
Le sitemap possono essere realizzate in diversi formati, sebbene uno dei più comunemente utilizzati sia la versione *.xml (anche perché si tratta di uno dei formati raccomandati all'interno della Search Console di Google, da cui monitorare lo stato d'indicizzazione del proprio sito).
Attraverso la sitemap è possibile dare maggiore risalto a pagine ritenute più importanti di altre. Grazie all’uso di alcuni meta dati potrai indicare la frequenza con cui una pagina viene aggiornata, oppure la priorità di crawling che un particolare URL ha rispetto ad altri del sito (ad esempio, di solito alla homepage è assegnato un valore di <priority> corrispondente a 1.00). Se ti interessa conoscere tutti gli elementi che contribuiscono a formare una sitemap, ti consigliamo di visitare questa pagina dedicata proprio al protocollo Sitemap.
Vediamo come appare parte della sitemap di Instilla:
E il tuo sito dispone di una sitemap? Se ancora non ne hai una, hai diverse possibilità per realizzarla. Se usi Wordpress puoi semplicemente affidarti al popolare plugin Yoast SEO che, a seguito di una configurazione praticamente immediata, realizza in automatico una mappa dei contenuti del tuo sito; in alternativa puoi affidarti a uno dei numerosi tool presenti online, come ad esempio Google Sitemap Generator.
Se hai già verificato la tua piattaforma tramite la Search Console di Google, caricare la sitemap richiederà solo pochi minuti del tuo tempo. A questo link troverai tutte le istruzioni necessarie per procedere con il caricamento della sitemap sul tuo sito.
ATTENZIONE! Inviare una sitemap a Google non garantisce che tutti gli URL vengano immediatamente indicizzati. Di sicuro si tratta di uno strumento utile a migliorare i processi di crawling, tuttavia è possibile che alcune pagine necessitino di più tempo per entrare a far parte dell'indice di Google (e senza dubbio occorrerà ancora più tempo prima che queste arrivino a posizionarsi con la SEO).
Il file robots.txt
Robots.txt è un semplice file di testo che suggerisce ai motori le pagine da non mostrare nei risultati di ricerca, perché di scarso valore per chi effettua ricerche su Google (come la pagina della privacy o il log-in al sito).
È importante tenere a mente che chiunque può visualizzare il file robots.txt (basta scrivere “robots.txt” in fondo all’URL del sito). Per questo motivo è meglio evitare di inserirvi nomi di pagine contenenti informazioni che si desidera tenere riservate.
Il file robots.txt standard utilizza tre comandi: “user-agent”, “disallow” e “allow":
1. User-agent indica i bot dei motori di ricerca. L’elenco che include la maggior parte dei “user-agent” è il Web Robots Database, che puoi consultare qui: http://www.robotstxt.org/db.html.
2. Disallow è un comando indirizzato ai “user-agent”, ai quali viene impedita la scansione di determinati URL (come dicevamo prima, si può utilizzare per le privacy policy, la pagina di log-in del sito, ecc.).
3. Allow serve per suggerire ai bot dei motori di ricerca di scansionare le child directory presenti all’interno di parent directory a cui è stato assegnato il comando “disallow”.
Puoi realizzare il tuo file robots.txt personalizzato utilizzando la seguente sintassi:
User-agent: [nome del bot a cui applicare le regole successive; il simbolo dell’asterisco permette di selezionare tutti i bot]
Disallow: [URL che vuoi bloccare]
Allow: [URL di cui autorizzi la scansione, nonostante sia presente in una parent directory bloccata]
Una volta creato il file, dovrai caricarlo nella directory principale del tuo dominio. Anche in questo caso riportiamo le istruzioni dettagliate di Google su come creare e caricare il file robots.txt.
All’interno della Search Console, Google ti dà la possibilità di verificare la correttezza del file che hai caricato: è sufficiente andare nella sezione “Robots.txt tester” e verificare la presenza di errori.
Inserisci l'URL della sitemap nel file robots.txt
Oltre ad inviare la sitemap attraverso la Search Console, puoi anche scegliere di mettere la sitemap a disposizione di Google inserendone l'URL all'interno del file robots.txt. Basta inserire, in un punto qualsiasi del file, il percorso della sitemap come nel seguente esempio:
Sitemap: http://example.com/sitemap_location.xml