Geography of the Web

Lo sviluppo di algoritmi in grado di associare ad una pagina web delle informazioni di tipo geografico, quali ad esempio la provenienza della pagina, o l'eventuale destinazione della pagina alla fruizione in una determinata zona
geografica, può dare la possibilità di sfruttare tali informazioni per attività quali analisi di mercato localizzate, raccolta di dati statistici, o rendere più efficaci applicazioni come i motori di ricerca per i contenuti online.
Per questo negli ultimi anni sono state studiate e proposte diverse tecniche per stimare vari tipi di informazioni geografiche (in generale, il cosiddetto contesto geografico) relative ai contenuti pubblicati sul web.
Il contesto geografico delle pagine web è un concetto che in letteratura è stato interpretato in diversi modi. Spesso, infatti, viene considerato come il luogo o l'area geografica a cui si riferisce il contenuto della pagina, altre volte come l'area geografica di appartenenza dei destinatari a cui l'autore si rivolge, altre volte come l'origine della pagina web stessa.
Poiché una delle tecniche più studiate si basa sulla ricerca di luoghi geografici menzionati all'interno della pagina, spesso non viene fatta una distinzione tra le suddette accezioni e i risultati possono essere ambigui.
L'attività di ricerca sulla Web Geography del centro NEXA ha l'obiettivo di stimare il paese da cui una pagina web ha avuto origine, senza utilizzare riferimenti a luoghi geografici eventualmente presenti all'interno del contenuto testuale. La stima viene effettuata per mezzo di algoritmi di apprendimento automatico che modellano, con un approccio probabilistico, la
provenienza delle pagine web da una determinata nazione a partire da alcune informazioni quali, ad esempio, la lingua utilizzata, la codifica dei caratteri utilizzati per il testo, la posizione del server che ospita il sito, combinando l'apporto di ciascuna caratteristica.
Un approccio di questo tipo necessita di una grande numero di pagine a cui sia già stata associata la nazione di appartenenza, in modo da estrarne un modello affidabile per la classificazione di nuovi contenuti web. Poiché la
costruzione manuale di un dataset sufficientemente grande risulterebbe proibitiva è stata sfruttata la larga diffusione di pagine web rilasciate con licenze Creative Commons localizzate. Tali licenze, infatti, se facenti riferimento a una specifica giurisdizione, forniscono l'informazione sul paese di provenienza di una pagina web. Questo ha reso possibile, mediante un web crawler appositamente sviluppato, di raccogliere un dataset sufficientemente grande e generare il modello probabilistico. Allo stato attuale della nostra attività di ricerca il modello ottenuto è caratterizzato da un'accuratezza dell'81% circa.

Pagine ed articoli relativi al progetto:
http://nexa.polito.it/category/topic/web-geography




In recent years the problem of inferring geographical information contained in web pages in order to determine the geographic context of their content gained increasing attention. Knowledge of this information may be useful in many
fields, ranging from localized market analysis, statistics on content production, and more efficient content search and retrieval.
For the above reasons, new techniques aimed at estimating the geographic context of contents published on the web have been proposed in recent years.
However, the geographic context of web pages is a broadly defined concept which has been used in the past to indicate, e.g., the locations (if any) referred by the page content, the geographic area of the target audience, and lastly the location where the content originated.
One of the most studied and applied methods relies on geographical references present in the textual content, often without taking into consideration the differences between the context interpretations described above, thus leading to ambiguous results.
Our research activity on Web Geography focuses on estimating the country of origin of a content without exploiting the presence of explicit geographical references in the textual content. Estimation is performed by means of a Machine Learning algorithm which learns a probabilistic model of the correspondence between the country of origin of a web page and some features such as, for example, the page language, the characters encoding, the physical position of the server hosting the web site.
However, a potentially huge training set of hand-labeled web pages is needed to learn a reliable model for classification of unseen pages. Hand labeling of such a dataset is unfeasible, so we exploit the large diffusion of web pages licensed under localized Creative Commons licenses, thus allowing to automatically collect the necessary dataset by means of an ad-hoc designed web crawler. To date, our models can determine the geographic context of a web page with an accuracy of about 81%.

Related pages and articles:
http://nexa.polito.it/category/topic/web-geography

geography_01.png