I motori di ricerca

Come funzionano

Definizione

I motori di ricerca sono siti web provvisti di programmi in grado di orientare gli utenti a reperire informazioni. La richiesta di informazioni avviene attraverso una casella di testo dove digitare la parola o la frase da cercare. In alcuni casi (Google, All The Web, Altavista), la homepage del motore di ricerca contiene questa casella e poco altro. In altri casi (Yahoo, MSN) insieme al motore c'è un vero e proprio portale. Ricevuta questa frase, il motore interroga il proprio database per verificare quanti e quali documenti la contengono, e restituisce come risultato un elenco cliccabile dei documenti stessi, in ordine di rilevanza.

Il problema principale di questa ricerca automatica è la possibilità che, a fronte di una richiesta di tipo troppo generico, il motore restituisca un elenco interminabile di indirizzi, all'interno dei quali diventa difficile districarsi. L'enorme quantità di documenti presenti nel web e la possibilità di accedervi indipendentemente dalla loro collocazione fisica rappresenta indubbiamente una ricchezza, ma al tempo stesso rende molto difficile trovare esattamente ciò che si cerca. Per questo motivo la ricerca semplice può essere raffinata da ulteriori strumenti che consentono di collegare tra loro le parole con vari operatori logici, oppure di restringere il campo dei risultati con veri e propri filtri, che trasformano la richiesta in una vera e propria domanda (query).

Come si vede, si tratta di un meccanismo complesso, affidato da un lato alla precisione del software dei motori stessi, dall'altro all'abilità dell'utente di sfruttare tutte le funzionalità di questo software. Inoltre, a questo si aggiunge l'abilità di chi ha creato i documenti e ha organizzato il proprio sito web in modo da focalizzare le singole pagine su argomenti specifici, riuscendo ad evidenziare adeguatamente, attraverso l'uso di parole chiave (keywords), l'argomento trattato e i suoi approfondimenti. In realtà si tratta anche in questo caso di una materia complessa, tale da giustificare una professione apposita, che è poi l'argomento principale di questo sito.

Erroneamente, però, si usa il termine motori di ricerca anche per definire altri oggetti che hanno un funzionamento leggermente diverso. La prima differenza da tenere presente è quella tra motori basati sugli spider (crawler based) e directory compilate da esseri umani. In alcuni casi le due soluzioni sono ibride. Un motore di ricerca basato sugli spider acquisisce e cataloga i dati sempre alla stessa maniera. Come poi questi dati vengono manipolati per costruire le classifiche, dipende dai software utilizzati e dai metodi che questi privilegiano: per questo motivo, una ricerca può produrre risultati anche molto diversi da motore a motore.

Sfortunatamente, questi software non sono esseri umani, non hanno cioè l'abilità intuitiva che può avere un venditore, di capire ciò che l'acquirente vuole a prescindere da quello che chiede a voce: il loro unico modo di intervenire si basa sulla parola o sulle parole digitate. Cosa fanno questi software per produrre una classifica in ordine di rilevanza? Essi seguono un insieme di regole, conosciute come algoritmi. Il funzionamento concreto di questi algoritmi è noto nella sua interezza solo all'azienda e al gruppo di sviluppatori che lo hanno prodotto, ed è tenuto gelosamente segreto. Tuttavia, osservando i risultati, è possibile individuare i fattori che principalmente concorrono a stilare le classifiche. Essi possono essere suddivisi in due gruppi:

Frequnza e posizione della parole chiave

Naturalmente, se il metodo della frequenza non avesse un filtro, un limite superiore oltre il quale il testo viene riconosciuto come SPAM, cioè un tentativo di conquistare posizioni indebite, sarebbe fin troppo facile. Ma non è solo la presenza di questo filtro a suggerire di non abusare: il risultato sarebbe comunque un testo poco leggibile al visitatore, che si accorgerebbe facilmente del sotterfugio, e ciò, invece di produrre un risultato positivo, finirebbe per diffondere un'immagine negativa del sito.

Comunque sia, questo limite esiste, e varia da un motore di ricerca all'altro. E' ad esempio molto basso per Google, stimato intorno al 5%: se una parola chiave supera il 5% del testo complessivo della pagina, la parola è considerata SPAM e nella migliore delle ipotesi viene esclusa dai risultati rilevanti o retrocessa. MSN è conosciuto come il più tollerante, con un limite massimo stimato al 10%. In ogni caso, una parola chiave non deve superare il tetto massimo del 5%. La tecnica di affollare una pagina di parole chiave è detta keyword stuffing.

Non tutti inoltre concordano sull'efficacia della keyword density nel determinare la rilevanza di una pagina: alcuni sostengono che la ripetizione di una keyword è un parametro molto secondario, da tenere presente unicamente per non oltrepassare il suo limite superiore. Personalmente, condivido: per esperienza, è molto meglio curare che una parola chiave sia ben presente su TAG diversi. Molto importante il TITLE della pagina, ma anche le intestazioni H1 H2 ecc, il grassetto, il testo degli anchor links. Inoltre, data l'nflazione crescente e la ricerca sempre più affannosa di parole appetibili, è realistico puntare su un'unica frase chiave per pagina, composta almeno di due parole. E' importante che essa sia posizionata il più possibile prossima all'inizio dei paragrafi e alla fine, e preferibilmente nella parte superiore della pagina.

Criteri off-page

Gli spider dei motori di ricerca intercettano quasi quotidianamente gli sforzi dei webmaster a riscrivere e modificare le loro pagine nel tentativo di correre dietro un migliore posizionamento o di aggiustare le posizioni con l'insorgere di sempre nuovi concorrenti. Questa competizione continua finisce per snaturare il corretto uso delle ricerce, e ha spinto progressivamnete all'affermarsi dei criteri off-page. I criteri off-page sono quelli che non si basano sul contenuto della pagina, ma su ciò che pensano di quella pagina gli altri siti web. Sono perciò un altro versante, speculare a quello dei criteri on-page, che invece si basano sul testo effettivo della pagina.

I criteri off-page sono più difficilmente controllabili dai webmaster e si basano sostanzialmente sulla struttura dei link e sul loro peso. Google ne ha fatto la sua carta vincente. In aggiunta, ai criteri off-page possono essere applicate analisi più sofisticate, capaci di rintracciare più facilmente tentativi di gonfiare artificiosamente il valore di una pagina con link fittizi costruiti a tavolino o acquistati anzichè guadagnati sul campo. Queste analisi sofisticate sono in grado inoltre di discernere quali di questi link sono in grado di generare click e quindi di attrarre visitatori.