Traitement et exploration du fichier Log du serveur web pour l'extraction des connaissances

( Télécharger le fichier original )
par Nassim et Mohamed ELARBi etTAHAR DJEBBAR
Université Hassiba Benbouali Chlef - licence en informatique 2008

sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Rapport d'avancement « Juin 2009 »

Etudiant : ELARBI Nassim & TAHAR DJEBBAR Mohamed.

Encadreur : Mr Nassim DENNOUNI

Année universitaire : 2008/2009.

Titre du mémoire:

« Traitement et exploration du fichier Log du serveur web pour l'extraction des connaissances »

Mise en contexte

Au cours de ces dernières années, avec la croissance exponentielle du nombre des documents en ligne et des nouvelles pages chaque jour, le Web est devenu la principale source d'information. Ce développement a entraîné une croissance rapide de l'activité sur le Web, et une explosion des données résultant de cette activité. En effet, le nombre des utilisateurs d'Internet dans le monde a atteint 74.4 millions au mois d'Octobre 2005¹, ce qui correspond à un taux de pénétration de 14.6% et le nombre de sites Web a atteint 70.39 millions au mois d'Août 2005, soit une augmentation de 2.8 millions par rapport au mois de juillet selon l'enquête de Netcraft². Pour analyser ce nouveau type de données, sont apparues de nouvelles méthodes d'analyse regroupées sous le terme «Web Mining» dont les trois axes de développement actuels sont le Web Content Mining (WCM) qui s'intéresse à l'analyse du contenu des pages Web, le Web Structure Mining (WSM), qui s'intéresse à l'étude des liens entre les sites Web et le Web Usage Mining (WUM) qui s'intéresse à l'étude de l'usage du Web.

Cette dernière branche du Web Mining (Web Usage Mining) qui se définit comme étant l'application du processus d'Extraction des Connaissances à partir de bases de Données (ECD) aux données issues des fichiers Logs HTTP est devenue une pratique de plus en plus courante et indispensable.

Problématiques de recherche

Notre problématique consiste à réaliser un outil pour aider les créateurs des sites Web à fidéliser les internautes fréquentant leurs sites et à attirer de nouveaux visiteurs en analysant le fichier log relatif à leurs sites WEB afin d'améliorer et de personnaliser l'utilisation des sites. Nous voulions au début utiliser le fichier Log relatif au site Web de notre université mais nous avons constaté qu'il n'est pas assez riche pour faire une bonne analyse de comportement des utilisateurs, pour cela nous avons choisi le site www.coolfilesearch.com.

Objectifs

L'objectif principal de notre travail est la conception et la réalisation d'un prototype de logiciel utile au Webmaster d'un site Web pour collecter l'ensemble des connaissances issues du fichier LOG relatif au site web qu'il gère et répondre aux besoins des visiteurs du site en vue d'une amélioration ou une personnalisation nécessaire à bonne utilisation du contenu du site web.

Notre contribution réside principalement dans les points suivants :

1- faire une étude sur la structure des différents fichiers log existant.

2- Une structuration des données dans une BD conçue selon le diagramme de classe UML et au diagramme des cas d'utilisation UML.

3- Se connecter à la BD pour l'exploiter comme suit :

3.1. Collecter des connaissances sur les visiteurs comme :

§ Le pourcentage des visiteurs.

3.2- Analyser les connaissances sur les pages visitées par les internautes :

§ Les pages les plus et les moins consultées (pages populaire et pages impopulaire).

§ Les combinaisons des pages consultées.

3.3- Définir la catégorie du site.

Organisation de notre mémoire

Notre travail s'organise autour de deux parties principales :

A. Partie théorique :

Cette partie permet de faire un tour d'horizon sur les différents concepts théoriques liés à notre travail. Pour cela, elle apparait à travers ces trois chapitres :

Le premier chapitre est consacré à une introduction sur le Web Mining et le Web Usage Mining.

Dans le deuxième chapitre, on va s'intéresser de prés à la structure d'un fichier log.

Et enfin dans le dernier chapitre, on va présenter quelques notions relatives au diagramme de classe UML et au diagramme des cas d'utilisation UML.

B. Partie pratique :

Dans cette partie, on vise à expliquer les différentes étapes nécessaires à la mise en oeuvre de notre projet. Pour cela, nous l'avons organisé en deux chapitres :

Dans le premier chapitre, nous allons faire une conception en utilisant le langage UML en s'appuyant sur le digramme des cas d'utilisation UML pour l'identification des besoins des utilisateurs et sur le diagramme de classe UML pour représenter issue de notre fichier LOG.

Dans le deuxième chapitre, nous proposons plusieurs choix techniques pour la réalisation de notre travail, ensuite nous présentons les différentes étapes nécessaires à l'implémentation de notre conception comme (le prétraitement, le nettoyage, l'exploration et l'analyse du fichier log) et enfin nous décrivons l'environnement de développement en illustrant quelques interfaces de notre logiciel.

sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Tu supportes des injustices; Consoles-toi, le vrai malheur est d'en faire" Démocrite