| | I motori di ricerca |
CMS e indicizzazione
Nel corso della mia modesta esperienza, anch'io ho creato un
CMS, che tra l'altro ha il difetto (o il pregio) di
portare la dinamicità all'estremo: tutte le pagine di tutti i siti amministrati, quindi migliaia di pagine, sono create da
un unico file (non un unico file per azienda, ma un unico file per tutto il sistema). In parole povere, qualunque pagina
di qualunque sito si chiama allo stesso modo, default.asp, e passa di volta in volta in tutti i suoi link, cioè
a se stessa, tre parametri: il nome della cartella (che contiene solo immagini), l'ID dell'azienda, la sigla
del template utilizzato.
Ma un altro fattore interviene a complicare le cose: per poter essere visualizzate correttamente nel dominio di partenza,
che può anche risiedere in un server diverso, le pagine generate devono essere un frame all'interno di un
frameset
composto di due frames: il sito e un frame è invisibile. Date queste premesse, parlare di indicizzazione può
diventare una chimera.
Vedremo in altra sede la soluzione adottata e le alternative possibili. Per ora, ci interessa un secondo particolare interessante.
La guida in linea di questo CMS non poteva che essere, a sua volta, un sito web, anch'esso costruito dinamicamente con
il CMS stesso. A differenza delle aziende, che hanno un solo template e, salvo rari casi, non lo cambiano più dopo
la pubblicazione del sito, questa guida in linea possiede per definizione ben 120 templates, che è, possibile sfogliare
uno ad uno e vedere in azione, per poter scegliere la veste grafica del proprio sito.
Questo è ciò che fanno effettivamente gli utenti.
Ma questo è ciò che fanno anche i motori di ricerca. Quindi, teoricamente, un motore di ricerca trova il link,
apre il sito della guida, lo indicizza, e passa al link successivo: come risultato, si trova davanti 120 siti identici.
Sarebbe possibile evitarlo: è sufficiente inserire un
tag meta robots condizionale, che permette
di indicizzare un solo sito,
corrispondente ad esempio al primo template della serie. Non l'ho fatto, e sono rimasto in attesa per alcuni mesi, per
vedere il risultato. Il sito si compone attualmente di n.43 pagine dinamiche (il loro numero oscilla quasi quotidianamente).
Ogni motore richiede una sintassi diversa per estrarre le pagine indicizzate:
| site:www.<nomedelsito> inurl:www.<nomedelsito> |
| site:www.<nomedelsito> |
| site:www.<nomedelsito> |
Ecco in dettaglio il risultato:
|
Risultano indicizzate n.45 pagine per un template, n.36 pagine per un altro template. I templates non sembrano seguire
una logica di successione: si tratta rispettivamente del template n.110 e del template n.6 |
|
Nessuna pagina indicizzata |
|
Indicizzata solo la homepage del sito, in 20 differenti templates. |
Le informazioni più attendibili sembrano quindi essere quelle fornite da Google: esiste un sito di N pagine, in
più di una versione. Nel caso di Google, sembra non esserci nessuna difficoltà a risolvere con successo
i link passati come querystring.
L'analisi fa emergere comunque una forte differenza di comportamento dei tre principali
motori di ricerca, e l'inattendibilità dell'indicizzazione di siti dinamici contenenti
query particolarmente ostiche.
Suggerimento:
qual è il modo più rapido per controllare se una pagina è indicizzata? Semplice, basta prelevare
una porzione di testo sufficientemente lunga (7-8 parole) e incollarla nella textbox del motore di ricerca - preferibilmente tra
virgolette: la pagina deve apparire come unico risultato della ricerca. Se invece di una pagina ne appaiono due o più
significa che qualcuno ha copiato. In questo caso, è bene sapere che ciò va a detrimento di entrambe le
pagine, quella che ha copiato, ma anche quella il cui testo è stato prelevato abusivamente.
|