WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Application du processus de fouille de données d'usage du web sur les fichiers logs du site cubba

( Télécharger le fichier original )
par Nabila Merzoug et Hanane Bessa
Centre universitaire de Bordj Bou Arréridj Algérie - Ingénieur en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 5

Classification des pages et d'internautes du

site CUBBA

1. Introduction

Dans ce chapitre, nous avons donné une série de résultats d'expérimentation et leurs interprétations que nous utilisons dans deux types de fouille : d'une part, les classes de pages regroupant les pages dont les contenus sont sémantiquement proche, et d'autre part, de définir les classes d'utilisateurs dont l'objectif est de trouver des groupes d'internautes ayant des modèles de navigation similaires.

Cependant ce chapitre n'a pas pour intention de décrire les techniques de classifications présentées avec plus de détail dans le chapitre 1. Il présent plutôt comment ces techniques sont appliquées dans le domaine du fouille d'usage du Web.

2. Classification des pages

La classification des pages a pour objectif de distinguer les pages de contenu présentant l'information recherchée par l'internaute des pages de navigation utilisée pour faciliter la navigation de l'utilisateur sur le site de manière à ne garder dans la base que les requêtes aux pages présentant un contenu intéressant aux visiteurs. Notre approche consiste à définir des variables servant à la caractérisation des pages et les utiliser pour la classification des pages.

2.1. Variables statistiques pour la caractérisation des pages

Afin de caractériser les pages visitées par les internautes, les variables suivantes sont définies pour chaque page :

N0

variable

Signification

1

NV

Nombre de Visites effectuées à chaque page.

2

NI

Nombre des Inlinks qui mènent à la page en question à partir des autres

pages.

3

NO

Nombre des Outlinks dans la page qui mènent vers d'autres pages

4

DM

Durée Moyenne par page de visite de chaque page

TAB 5.1. Variables statistiques décrivant les pages.

l'indexation des pages du site Web pour faciliter leur manipulation et la construction de deux matrices : matrice d'hyperliens et matrice d'accès.

a. 0 DtIiFIRdADFFgs

Cette matrice est utilisée pour déterminer le nombre de visites effectuées par les internautes à chaque page. Chaque entrée (i, j) de la matrice représente le nombre de visites effectuées de la page i à la page j. Si cette entrée est égale à zéro alors la page j n'a jamais été visitée à partir de la page i.

Exemple :

 
 

A

B

C

D

E

F

G

SOM

A

0

42

14

29

17

9

0

111

B

0

1

19

2

3

1

0

26

C

0

0

1

12

3

1

0

17

D

0

3

2

0

11

6

0

22

E

0

4

0

5

1

12

0

21

F

0

0

1

1

4

0

14

20

G

0

0

0

0

0

3

0

3

TAB 5.2. Matrice d'accès.

b. 0 DtIiFIRdAN, slims

Cette matrice est utilisée pour calculer le nombre d'inlinks et le nombre d'outlinks. En effet, le nombre d'inlinks est le total sur les lignes alors que le nombre d'outlinks est le total sur les colonnes. Chaque ligne de la matrice correspond à une page du site. Il en est de même pour chaque colonne. Ainsi, s'il existe N pages différentes visitées par les internautes, la matrice d'hyperliens sera de dimension (N, N). Chaque entrée (i, j) de la matrice prend la valeur 1 si l'utilisateur a visité la page j à partir de la page i et la valeur 0 sinon.

Toutefois, il ne faut pas oublier que certaines pages du site ne sont pas visitées par les internautes et que certains liens dans les pages visitées ne sont pas utilisés. Ces pages et hyperliens ne sont pas considérés dans cette représentation matricielle qui ne prend que les accès enregistrés dans les fichiers Logs.

120,00%

100,00%

40,00%

80,00%

60,00%

20,00%

0,00%

0 1 2 3 4 5

% cumulated

% cumulated

Exemple

 
 
 

A

B

C

D

E

F

G

inlinks

A

1

1

0

0

1

0

1

4

B

1

1

0

0

1

1

0

4

C

1

1

0

1

1

1

1

6

D

1

0

1

1

0

0

0

3

E

1

1

1

0

1

1

0

5

F

1

1

0

1

1

0

1

5

G

1

0

1

1

0

0

1

4

outlinks

7

5

3

4

5

3

4

31

TAB 5.3. Matrice d'hyperlien.

2.2. Application de l'Analyse en Composantes Principale (ACP)

A partir de l'application de l'Analyse en composante principale sur l'ensemble des variables du tableau « TAB 5.1 » qui participe à la construction des axes, On a gardé selon le critère « valeur du pourcentage » les deux premiers axes qui représentent à 83 % près l'allure du nuage initial (FIG 5.1).

a. La projection des variables sur les axes factoriels

FIG 5.2. Projection des variables sur les axes factoriels.

+ Interprétation

duree

Le premier axe traduit bien un effet de visite, il oppose les pages ayant une valeur importante de « NI, NO et NV », ces dernières sont corrélées positivement avec le premier axe. Le second axe était plus associé à la DM des visites.

b. la projection des individus sur les axes factoriels

FIG 5.3. Projection des individus sur les axes factoriels. ? Interprétation

d1

La popularité de l'ACP repose en grande partie sur les représentations graphiques qu'elle propose. Elles nous permettent d'apprécier visuellement les proximités entre les

p _

individus. Dans notre cas, nous projetons les individus dans le plan factoriel. Nous voulons

p1

associer les individus aux classes.

À partir de la représentation obtenue (FIG 4.3) le contenu du site peut être divisé en quatre classes dont les pages dans chaque classe sont sémantiquement proches.

x

Pour aboutir à un meilleur résultat, nous avons recourt à la combinaison de l'ACP avec

rp d

p

l'une des méthodes de partitionnement k-means. Les axes factoriels obtenus sont utilisés

i

p13 o l

y

comme des variables d'entrée pour le k-means.

q g

k j m

10

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle