WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Application du processus de fouille de données d'usage du web sur les fichiers logs du site cubba

( Télécharger le fichier original )
par Nabila Merzoug et Hanane Bessa
Centre universitaire de Bordj Bou Arréridj Algérie - Ingénieur en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.2.1. Classification hiérarchique ascendante (CAH)

a. Classification des variables

La classification ascendante hiérarchique(CAH) des variables permet d'agréger au fur et à mesure les groupes de variables qui portent les mêmes informations (redondantes corrélées), et dissocier les variables qui expriment des informations complémentaires au sens de la minimisation de la perte d'inertie à chaque étape. La classification de variable à pour but de :

+ mieux comprendre ce qui rassemble ou distingue les groupes. + Réduction du nombre de variables.

La classification des variables « DureeTotale, MDuree, P_Repetitions, Nb Requêtes, P_RequêtesOK », Pour la distance euclidienne et l'agrégation selon la méthode de Ward, donne le dendrogramme suivant :

FIG 5.5. Dendrogramme de classification CAH des variables

Nous avions vu dans le dendrogramme que les partitions en 3 ou 4 classes semblent les plus appropriées dans cette classification. Pour acquérir le nombre de classe adéquat : on s'appuie sur la courbe d'évolution de la variation de l'inertie intraclasse en fonction du nombre de classes. Le premier coude apparus correspond de trois classes de variable.

inertie intra classe

4

0

6

5

3

2

1

0 2 4 6

classe

inertie intra classe

FIG 5.6. La courbe de la variation de l'inertie intraclasse

On voit sur le dendrogramme, trois groupes bien distincts de variables : d'une part DureeTotal MDuree, d'autre part P_Repetition P _Requête OK et le troisième groupe est représenté par Nb Requêtes.

b. Classification des individus

Le graphique de la figure « FIG 5.7 » exhibe un aperçu de La classification des individus basée sur le résultat des classes obtenues de la classification des variables.

FIG 5.7. Dendrogramme de classification CAH des individus

A partir d'un premier regard sur ce graphique, l'on imagine aisément les difficultés rencontrées par les analystes à la recherche de nombre de classes significatives. Le choix ici est basé sur l'indice du saut le plus élevé.

La classification en deux classes a été ignorée alors qu'elle correspond au saut le plus élevé, cela est naturel car à l'usage on constate que cette subdivision en deux classes proposera toujours le saut le plus élevé, ce qui est normal dans le sens où il s'agit là de la première subdivision possible de l'ensemble de données, la dispersion dans les deux groupes produits chute mécaniquement sans que cela corresponde forcément, dans la plupart des cas, à un partitionnement intéressant. Dans le cas présent, le partitionnement en quatre classes se démarque fortement des autres.

+ Interprétation statistique des classes

Ce travail a aboutit à la découverte de quatre groupes d'utilisateurs du site du CUBBA à savoir :

FIG 5.8. Résultat de classification des navigations

40

60

50

30

20

10

0

classe1 classe2 classe3 classe4

pourcentage

FIG 5.9. Interprétation statistique des classes des individus.

1' Classe 1: Groupe d'internautes composées de navigations dont le nombre de requête très important.

1' Classe 2: Groupe d'internautes composées de navigations dont La durée de chaque navigation et moyenne de la durée sont très élevées en comparaison avec les autres classes.

v' Classe 3: Groupe d'internautes composées de navigations dont toutes ces valeurs de variables sont faibles.

1' Classe 4: Groupe d'internautes composées de navigations dont pourcentage de répétitions de requête de chaque navigation et Pourcentage de requêtes réussies sont élevées.

+ Interprétation sémantique des classes

Dans le cadre de ce mémoire, on ne s'intéresse pas uniquement à l'interprétation statistique des classes, mais aussi et surtout à l'interprétation sémantique. En d'autres termes, nous cherchons à comprendre ce qui se passe dans le site afin d'identifier les informations pouvant être extraites une fois toutes les navigations classées dans des classes, à savoir :

1' chaque classe rassemble des navigations appartenant à des individus ayant visité de

pages similaires et qui partagent ainsi les mêmes préférences.

1' Les Profils d'usages permettent de créer des catégories de navigations dans les fichiers log. ils sont une manière simple de grouper les pages du site pour une meilleure analyse. Ces profils sont très intuitifs et peuvent être facilement extraites à partir de la

60

50

40

30

20

10

0

classe1

classe2

classe3

classe4

profil1

profil2

profil3

profil1
profil2
profil3

classification des pages. Chaque classe de page possède un profil différent des autres profils .dans notre expérimentation on possède tois profils :

> le premier profil est celui de pages hybrides pour les internautes ayant un centre d'intérêt les activités de recherche des unités et laboratoires de recherche.

> le deuxième profil est celui des pages de contenus dont l'objectif des internautes les activités des institutions universitaires et le téléchargement des cours.

> le dernier profil représente les internautes ayant pour objectif la découverte du site et qui ont visité les pages de références.

v' Les classes ayant un effectif important correspondent aux profils d'usage le plus populaires.

v' Les classes ayant un faible effectif correspondent aux profils d'usage minoritaires.

Ces informations sont très intuitives et peuvent être facilement extraites à partir d'une simple analyse sur la partition de données.

Afin de mieux connaître les profils les plus typiques de comportement d'internaute, nous avons eu recours à l'interprétation des classes par les profils.

Résultat

La composition des classes en fonction des profils des utilisateurs montrent bien que les classes trouvées ne se détachent pas visiblement les unes des autres. Ce résultat reflète un comportement assez homogène chez l'ensemble des utilisateurs indépendamment de leurs profils.

4. 2 Xlil ENiP SlA)P 'nlalion

L'outil d'implémentation utilisé dans ce chapitre est: TANAGRA version 1.4.33.

TANAGRA est un logiciel gratuit de data mining destiné à l'enseignement et à la recherche, diffusé sur internet. Il implémente une série de méthodes de fouilles de données issues du domaine de la statistique exploratoire, de l'apprentissage automatique et des bases de données.

v Son premier objectif est d'offrir aux étudiants et aux chercheurs d'autres domaines (médecine, bioinformatique, marketing, etc.) une plate-forme facile d'accès, respectant les standards des logiciels actuels, notamment en matière d'interface et de mode de fonctionnement, il doit etre possible d'utiliser le logiciel pour mener des études sur des données réelles.

v Le second objectif est de proposer aux enseignants une plate-forme entièrement fonctionnelle, le logiciel peut servir d'appui pédagogique pour les illustrations et le traitement des jeux de données en cours ou en TD.

v Enfin, le troisième objectif est de proposer aux chercheurs une architecture leur facilitant l'implémentation des techniques qu'ils veulent étudier, de comparer les performances de ces algorithmes. TANAGRA se comporte alors plus comme une plate-forme d'expérimentation.

Point très important à nos yeux, la disponibilité du code source est un gage de crédibilité scientifique, elle assure la reproductibilité des expérimentations publiées, et surtout, elle permet la comparaison et la vérification des implémentations.

Le site de diffusion du logiciel7 a été mis en ligne en janvier 2004, il compte en moyenne une vingtaine de visiteurs par jour. TANAGRA est également référencé par les principaux portails de l'ECD.

7 ( http://eric.univ-lyon2.fr/~ricco/tanagra)

5. Conclusion

L'expérience de fouille de donnée a pour but de valider ou d'invalider l'existence d'un comportement typique des utilisateurs selon leur profil. Les différentes classes qui peuvent être éventuellement identifiés présentent chacune un intérêt pour une catégorie différente d'utilisateurs. Ceci permet une bonne vision de l'ensemble des utilisateurs.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Qui vit sans folie n'est pas si sage qu'il croit."   La Rochefoucault