Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre 6

Classification des utilisateurs

Une fois les fichiers Logs nettoyés et structurés dans une base des données, il est possible d'appliquer les méthodes de fouille des données pour la classification des utilisateurs. Cette classification est effectuée en deux étapes. La première étape consiste à classifier les pages du site visitées par les internautes de manière à ne garder dans la base que les requêtes aux pages présentant un contenu intéressant aux visiteurs. La seconde étape consiste à classifier les visiteurs du site Web en se servant de la base de requêtes aux pages intéressantes.

6.1 Classification des pages

On distingue deux types de pages : les pages de contenu et les pages de navigation, appelées aussi pages auxiliaires. Les pages auxiliaires sont utilisées pour faciliter la navigation de l'utilisateur sur le site. Les pages de contenu sont les pages qui présentent l'information recherchée par l'internaute. Cependant une page de contenu pour un internaute peut être une page de navigation pour un autre. Comme nous cherchons à comprendre le comportement de l'internaute vis-à-vis du site visité, en particulier les motifs de sa visite, nous ne considérons que les pages de contenu. Le problème qui se pose dans ce cas est comment distinguer les pages de contenu des pages de navigation. Notre approche consiste à reconstruire la topologie du site Web à partir des requêtes enregistrées dans les fichiers Logs et définir des variables servant à la caractérisation des pages et leur classification.

6.1.1 Reconstruction de la topologie du site

La première étape consiste à indexer les pages du site Web pour faciliter leur manipulation. L'exemple suivant illustre cette étape.

FIG. 6.1 : Exemple de visite

FIG. 6.2 : Indexation des pages de la visite

Une fois les pages visitées par les internautes indexées, un arbre est construit. La racine de l'arbre est le premier referrer non externe dans le ...chier log. Pour chaque requête, si le referrer ou l'URL demandée n'est pas dans l'arbre, un noeud représentant la page est crée. Pour chaque couple de noeuds, si l'un est le referrer de l'autre alors un lien entre les deux noeuds est établi. Il en résulte la construction d'un graphe représentant la structure des hyperliens.

FIG. 6.3 : Arbre du site

6.1.2 Matrice d'hyperliens

L'arbre représentant la topologie du site Web peut être traduit par une matrice. Cette représentation matricielle présente l'avantage de simpli...er la représentation sous forme d'arbre qui devient incompréhensible dans le cas où le nombre de liens entre les pages est élevé. Chaque ligne de la matrice correspond à un noeud de l'arbre et représente une page du site. Il en est de même pour chaque colonne. Ainsi, s'il existe N pages différentes visitées par les internautes, la matrice d'hyperliens sera de dimension (N, N). Chaque entrée (i,j) de la matrice prend la valeur 1 si l'utilisateur a visité la page j à partir de la page i (présence d'un lien direct entre les deux pages) et la valeur 0 sinon. Cette matrice est utilisée pour calculer le nombre d'inlinks (nombre d'hyperliens qui mènent à la page en question à partir des autres pages) et le nombre d'outlinks (nombre d'hyperliens dans la page qui mènent vers d'autres pages). En effet, le nombre d'inlinks est le total sur les lignes alors que le nombre d'outlinks est le total sur les colonnes.

FIG. 6.4 : Matrice d'hyperliens

Toutefois, il ne faut pas oublier que certaines pages du site ne sont pas visitées par les internautes et que certains liens dans les pages visitées ne sont pas utilisés. Ces pages et hyperliens ne sont pas considérés dans cette représentation matricielle qui ne prend que les accès enregistrés dans les fichiers Logs.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Le doute est le commencement de la sagesse" Aristote