Application du processus de fouille de données d'usage du web sur les fichiers logs du site cubba

( Télécharger le fichier original )
par Nabila Merzoug et Hanane Bessa
Centre universitaire de Bordj Bou Arréridj Algérie - Ingénieur en informatique 2009

sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

REMERCIEMENTS

Nos sinceres remerciements s'adressent à Allah le tout Puissant pour son aide et son guide qui nous a permis de réaliser ce travail.

Ce travail a été réalisé sous la direction du Mr. ZOUACHE Djaafer notre promoteur, que nous tenons à lui adresser notre égard pendant la période de réalisation de ce mémoire, et pour ses conseils judicieux qui nous ont servi de guide tout au long de notre travail.

Nos remerciements vont également Mr. LAALAMI Fatih,

Mr .BENAMEUR Ziani, tous les enseignants du département d'informatique et aux membres de jury qui ont acceptés de juger ce modeste travail.

Enfin, nos sinceres remerciements s'adressent à tous ceux qui

nous ont aidés de prés ou de loin à réaliser notre travail.

Depuis la création du Web, il a connu un accroissement important d'une manière phénoménale grace à l'augmentation colossale du nombre de documents mis en ligne et des nouvelles informations ajoutées chaque jour. En réalité, les usagers d'un site Web apprécieront davantage la manière dont cette information est présentée au sein du site alors que les créateurs des sites Web intéressés par la fidélisation des internautes fréquentant leurs sites et cherchant à attirer de nouveaux visiteurs, ont besoin d'analyser le comportement des internautes afin d'extraire des patrons d'accès au Web en vue d'une amélioration et une personnalisation des sites. En effet, une grande quantité de données peut être récupérée suite à la navigation d'un utilisateur sur un site. La taille sans cesse croissante de celles-ci et leur diversité ne permet toutefois pas à l'être humain de traiter de manière manuelle cette information.

L'accumulation de données a motivé le développement d'un nouveau champ de recherche : l'Extraction de Connaissances dans les bases de Données (ECD). L'ECD est un processus itératif et interactif d'analyse d'un grand ensemble de données brutes afin d'en extraire des connaissances exploitables par un utilisateur-analyste qui y joue un rôle central [24].

Ce processus est itératif car les résultats d'une étape peuvent remettre en cause les traitements effectués durant les étapes précédentes, et il est interactif car la qualité des résultats obtenus dépend en grande partie de l'intervention des utilisateurs finaux. Le processus d'ECD se déroule en trois étapes [25] :

La première étape décrit le prétraitement de données qui consiste à nettoyer et à mettre en forme les données (sélection des données, élimination des doublons, élimination des valeurs aberrantes, gestion des valeurs manquantes, transformation des variables, création de nouvelles variables, etc.).

La fouille de données (data mining) représente la deuxième étape du processus, c'est l'étape motrice de l'ECD qui consiste à identifier les motifs qui structurent les données, ou produire des modèles explicatifs ou prédictifs des données.

La dernière étape présente le post-traitement qui met en forme et évalue les résultats obtenus (appelés connaissances), et à les faire interpréter et valider par l'utilisateur.

Description du problème

L'approche que nous présentons : est une étude de cas en fouille de données d'usage de web qui consiste à analyser les données (les fichiers log ou bien le journal des connexion) enregistrer au niveau du serveur de site web de CUBBA¹ afin de transformer ces données en des connaissances utiles pour l'identification d'éventuels comportements typiques d'internautes selon leur profil, s'est déroulée en trois étapes :

Elle consiste dans un premier temps à un prétraitement des données qui servent à la récupération et la concaténation des fichiers log afin que les requêtes soient organisées en navigations.

Des paramètres introduits à partir des statistiques sur les accès aux pages sont utilisés pour la catégorisation des pages Web afin de sauvegarder les pages de contenu et d'éliminer les pages auxiliaires qui ne présentent aucun intérét, c'est la classification des pages qui est basée sur deux méthodes hybrides à savoir l'analyse en composante principale et le clustering k_means.ces pages de contenu permettent l'extraction des profils.

À partir des résultats obtenus des deux étapes précédentes, un regroupement des utilisateurs basés sur la classification ascendante hiérarchie sont appliqués aux bases de navigations afin de valider l'existence de comportements particuliers chez les utilisateurs selon leur profil.

L'une des motivations principales de ce travail est qu'il n'existe pas, à notre connaissance, des travaux similaires déjà réalisés dans les institutions universitaires algériennes. Pour ce faire, Il nous faut récupérer et analyser les données concernant les requêtes des utilisateurs stockées dans les fichiers log du serveur.

1 Centre Universitaire de Bordj Bou Arreridj

Organisation de mémoire

Pour conclure cette introduction, le présent mémoire est réparti en deux grandes parties.

La première partie défini un état de l'art contenant les chapitres 1, 2 et 3. La deuxième partie contient les deux derniers chapitres présentent une série de résultats d'expérimentation. Les chapitres sont organisés de la façon suivante :

Dans le premier chapitre, on présente les différentes étapes du processus de la fouille de données d'usage du Web et un ensemble de concept utilisés dans ce domaine ainsi ces différentes applications.

Dans le deuxième chapitre, on parle sur le prétraitement des données qui décrit la première étape de processus de la fouille d'usage du web, en présentant les différentes heuristiques de prétraitement afin d'obtenir des données structurées et prétes à l'application des méthodes de fouille des données.

Dans le troisième chapitre , on définie les différentes techniques de la fouille d'usage du web, précisément une méthode factorielle et deux autres de la classification non supervisée exploitées dans le présent mémoire, à savoir les méthodes hiérarchiques et les méthodes de partitionnement.

Le quatrième chapitre décrit l'implémentation de prétraitement de données réelles (les fichiers log de centre universitaire de Bordj Bou Arreridj) ainsi les différents outils utilisés.

Le dernier chapitre exprime l'application de l'ensemble des techniques d'analyse de fouille d'usage du web sur les fichiers log structurés et prétraités.

Enfin nous concluons le mémoire on posant quelques perspectives pour continuer ce travail.

Première partie

sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Nous devons apprendre à vivre ensemble comme des frères sinon nous allons mourir tous ensemble comme des idiots" Martin Luther King