www.ivanobambini.it 
Nome utente:
Password:
Nuovo utente

Check your website
HOME | chi sono | portfolio | altro | dove sono | contatti | links |

pointer
I motori di ricerca
-Breve storia
-Come funzionano
-Siti dinamici, Flash, frames
-CMS e indicizzazione
-Spam e guerra agli spammer
-Sull'attendibilita'
-Segnalare un sito
pointer
La professione SEO
-SEO, cosa significa
-Costruire una campagna SEO
-WEB directory e SEO
-Gli algoritmi dei motori
-Keyword density
-Link popularity
-Doorway pages e Cloaking
pointer
Il PageRank di Google
-Introduzione
-Come funziona il PageRank
-Come si calcola il PageRank
-PageRank e struttura dei link
-Conclusioni
pointer
Strumenti utili
-Cosa vedono gli spider
-Risorse e servizi online
-Webmaster tools
-Esempio di analisi di siti web
-Glossario
pointerI motori di ricerca

CMS e indicizzazione

Nel corso della mia modesta esperienza, anch'io ho creato un CMS, che tra l'altro ha il difetto (o il pregio) di portare la dinamicità all'estremo: tutte le pagine di tutti i siti amministrati, quindi migliaia di pagine, sono create da un unico file (non un unico file per azienda, ma un unico file per tutto il sistema). In parole povere, qualunque pagina di qualunque sito si chiama allo stesso modo, default.asp, e passa di volta in volta in tutti i suoi link, cioè a se stessa, tre parametri: il nome della cartella (che contiene solo immagini), l'ID dell'azienda, la sigla del template utilizzato.

Ma un altro fattore interviene a complicare le cose: per poter essere visualizzate correttamente nel dominio di partenza, che può anche risiedere in un server diverso, le pagine generate devono essere un frame all'interno di un frameset composto di due frames: il sito e un frame è invisibile. Date queste premesse, parlare di indicizzazione può diventare una chimera.

Vedremo in altra sede la soluzione adottata e le alternative possibili. Per ora, ci interessa un secondo particolare interessante. La guida in linea di questo CMS non poteva che essere, a sua volta, un sito web, anch'esso costruito dinamicamente con il CMS stesso. A differenza delle aziende, che hanno un solo template e, salvo rari casi, non lo cambiano più dopo la pubblicazione del sito, questa guida in linea possiede per definizione ben 120 templates, che è, possibile sfogliare uno ad uno e vedere in azione, per poter scegliere la veste grafica del proprio sito.

Questo è ciò che fanno effettivamente gli utenti. Ma questo è ciò che fanno anche i motori di ricerca. Quindi, teoricamente, un motore di ricerca trova il link, apre il sito della guida, lo indicizza, e passa al link successivo: come risultato, si trova davanti 120 siti identici.

Sarebbe possibile evitarlo: è sufficiente inserire un tag meta robots condizionale, che permette di indicizzare un solo sito, corrispondente ad esempio al primo template della serie. Non l'ho fatto, e sono rimasto in attesa per alcuni mesi, per vedere il risultato. Il sito si compone attualmente di n.43 pagine dinamiche (il loro numero oscilla quasi quotidianamente). Ogni motore richiede una sintassi diversa per estrarre le pagine indicizzate:
site:www.<nomedelsito> inurl:www.<nomedelsito>
site:www.<nomedelsito>
site:www.<nomedelsito>
Ecco in dettaglio il risultato:
Risultano indicizzate n.45 pagine per un template, n.36 pagine per un altro template. I templates non sembrano seguire una logica di successione: si tratta rispettivamente del template n.110 e del template n.6
Nessuna pagina indicizzata
Indicizzata solo la homepage del sito, in 20 differenti templates.
Le informazioni più attendibili sembrano quindi essere quelle fornite da Google: esiste un sito di N pagine, in più di una versione. Nel caso di Google, sembra non esserci nessuna difficoltà a risolvere con successo i link passati come querystring.

L'analisi fa emergere comunque una forte differenza di comportamento dei tre principali motori di ricerca, e l'inattendibilità dell'indicizzazione di siti dinamici contenenti query particolarmente ostiche.

Suggerimento: qual è il modo più rapido per controllare se una pagina è indicizzata? Semplice, basta prelevare una porzione di testo sufficientemente lunga (7-8 parole) e incollarla nella textbox del motore di ricerca - preferibilmente tra virgolette: la pagina deve apparire come unico risultato della ricerca. Se invece di una pagina ne appaiono due o più significa che qualcuno ha copiato. In questo caso, è bene sapere che ciò va a detrimento di entrambe le pagine, quella che ha copiato, ma anche quella il cui testo è stato prelevato abusivamente.


Inizio pagina Inizio pagina
[HOME] [chi sono] [portfolio] [altro] [dove sono] [contatti] [links]

Ultimo aggiornamento pagina: 15/02/2007 09:25:44