| | Il PageRank di Google |
Come funziona il PageRank
PageRank (dal nome di Larry Page, uno dei fondatori di Google insieme a Serge Brin) è uno dei metodi
utilizzati da Google per determinare l'importanza e la rilevanza di un sito. E' solo uno dei metodi, insieme ad
altri che cambiano continuamente.
Il PageRank di una pagina può essere visualizzato dai browser che hanno installato la toolbar di Google.
Il PageRank di un sito coincide (ma non sempre) con il
PageRank della homepage, e si suppone, se i link interni al
sito hanno una logica, che la homepage abbia sempre un
PageRank più alto delle altre pagine.
Il PageRank va da zero a dieci, ma non si tratta di una scala lineare, bensì logaritmica: zero indica da zero a 10, 1 indica
da 10 a 100, 2 indica da 100 a 1000 e così via.
In realtà non sappiamo con precisione il valore effettivo dei gradini di questa scala, anche perché il
limite massimo di 10 cambia ogni mese, in concomitanza con l'aggiornamento degli indici. Questa scala logaritmica
è quindi una mera esemplificazione per mostrare che ogni salto di gradino comporta difficoltà esponenziali.
E' inoltre opportuno sapere che il valore riportato nella toolbar di Google talvolta è errato: il fatto è
documentato da varie parti.
Quando una pagina Web viene riprodotta nel browser, si suppone che la toolbar di Google, se installata, recuperi l'URL della pagina e sopprima
tutti i caratteri dopo la barra /. Se il PageRank della pagina al livello superiore esiste, esso viene recuperato e
mostrato come il PageRank della pagina corrente-1, altrimenti la toolbar sale di un livello, recupera il
PageRank e
questa volta sottrae 2. Se non trova il PageRank neppure a questo livello, risale ancora e così via,
fino a raggiungere la root. Se non è possibile trovare un PageRank da mostrare, allora la barra appare grigia.
E' opportuno specificare che una pagina con PageRank uguale a zero è una cosa diversa da una pagina con
la barra grigia. Nel primo caso, significa che la pagina è stata rintracciata da Google, ma non è stata
ancora indicizzata, oppure non contiene testo che possa essere indicizzato (ad esempio, una pagina in
Flash). Nel
secondo caso, la pagina non è stata ancora rintracciata da Google, oppure è stata estromessa dall'indice
per motivi che vedremo altrove. In presenza della barra grigia, è presumibile che essa sia tale per tutto il
sito. Se il proprio browser mostra SEMPRE la barra grigia, per tutti i siti, siamo invece in presenza di qualche firewall
o qualche limitazione dovuta alla configurazione della rete nella quale si trova il computer. In questo caso, è
necessario ricorrere a quei siti che calcolano il PageRank in diretta. Ce ne sono centinaia, alcuni di essi sono in grado
anche di azzardare previsioni per il futuro. Ecco alcuni indirizzi:
Il PageRank non ha nulla a che vedere con i contenuti o la lunghezza della pagina, nè con la lingua.
Ma allora che cos'è il PageRank?
Il PageRank è un VOTO. E chi dà questo voto?
La risposta è semplice: le altre pagine in giro per il web. Queste stabiliscono quanto è importante la
pagina nel momento in cui decidono di attribuirle un link, di consigliarla cioè ai propri lettori.
Un link a una pagina conta come un voto di supporto, ma se non c'è nessun link, ciò non equivale
a un voto contrario, ma a un'astensione.
Nelle pubblicazioni di Google, il PageRank è definito in questo modo:
- Partiamo dall'assunto che la pagina A possiede T1... Tn pagine che puntano ad essa
- Il parametro d è un fattore che può essere impostato da zero a uno, di solito 0,85
- C(A) è il numero di link in uscita dalla pagina A
- Il PageRank della pagina A è calcolato come segue:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
La somma di tutti i PageRank di tutte le pagine web è uguale a 1.
Ciò significa che le pagine che detengono un PageRank alto hanno questo privilegio grazie alle tante pagine
che hanno un PageRank uguale a zero o minore di uno.
Il PageRank è calcolato usando un algoritmo iterativo.
PR(Tn)
Ogni pagina ha nozione della propria importanza. Questa è PR(T1) per la prima pagina, fino a PR(Tn)
per l'ultima pagina.
C(Tn)
Ogni pagina dispensa i suoi voti tramite i link in uscita. Il numero dei voti della pagina 1 è C(T1) fino a C(Tn)
PR(Tn)/C(Tn)
Così, se la tua pagina A ha link in ingresso da n pagine, il valore dei voti della pagina A sarà PR(Tn)/C(Tn)
Tutte queste frazioni si aggiungono ma, per impedire che le altre pagine abbiano troppa influenza, questo valore viene normalizzato
al ribasso moltiplicandolo per 0,85 (il fattore d)
(1 - d)
la somma del PageRank di tutte le pagine web sarà 1, il che significa che se una pagina non ha link in ingresso, avrà
pur sempre un piccolo PageRank di 0,15
|