8
2007
Topologia del web
Questo articolo è stato pubblicato 4 anni 2 mesi 30 giorni giorni fa quindi alcuni contenuti o informazioni presenti in esso potrebbero non essere più validi. Questo sito non è responsabile per eventuali errori causati da questo problema.Avevo letto questa cosa qualche anno fa su una rivista (mi sembra H&C) e rimasi colpito dalla cosa. Di che si tratta? Di uno studio fatto da altavista qualche anno fa (2002) riguardante la struttura del web, basandosi sui link tra le pagine web.
Qualche giorno fa ho ripensato a questa cosa e mi sono messo a cercare sul web trovando qualche articolo a riguardo:
- [1] molto lungo, con analisi approfondite e molti grafici. non l’ho letto ;)
- [2] versione pdf del precedente;
- [3] articolo più semplice e con tabelle esplicative.
Ma lo scopo dell’articolo non è farvi un’elenco di link. Vediamo questa struttura e descriviamola un po’.

Possiamo subito notare che la forma è una sorta di papillon: un core centrale, due zone laterali grosse e alcune componenti “esterne”. Vediamole in dettaglio: innanzitutto, come ho detto prima, la struttura si basa sui link, quindi ci sono delle pagine fortemente connesse tra loro (strongly connected component), che sono le pagine più famose per i motori di ricerca, perché formano un grafo connesso. Ci sono poi le due aree laterali a forma di ali che rappresentano la zona di ingresso e la zona di uscita. Significa che nella zona in ci sono tutte quelle pagine che hanno link verso le pagine del core ma dalle quali non si può tornare indietro, nella zona out, invece, ci sono tutte quelle pagine linkate dalle pagine del core e dalle quali non si può uscire.
Ma la parte singolare non è questa centrale bensì le altre componenti:
- la parte chiamata tendrils (in italiano viticci) indica pagine isolate che sono collegate solo in un verso con quelle delle zone in e out;
- il tubo che si vede in basso rappresente le pagine che permettono di arrivare dalle pagine della zona in a quelle della zona out, senza passare per il core;
- infine è interessante notare che esistono delle componenti completamente sconnesse dal resto, pagine irraggiungibili per i motori di ricerca e quindi difficoltose da raggiungere anche per gli utenti. Si può accedere a queste pagine solo se si conosce l’indirizzo diretto.
Chiaramente i dati sull’immagine sopra saranno datati, si potrebbe però riportare il tutto in percentuale per avere un’idea di come si suddividono le pagine e a questo proposito vi rimando all’articolo n° 3 linkato in precedenza.

An article by





