WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp

Home | Publier un mémoire | Une page au hasard

Memoire Online >

Informatique et Télécommunications

Traitement et exploration du fichier Log du serveur web pour l'extraction des connaissances

( Télécharger le fichier original )
par Nassim et Mohamed ELARBi etTAHAR DJEBBAR
Université Hassiba Benbouali Chlef - licence en informatique 2008

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Rapport d'avancement « Juin 2009 »

Etudiant : ELARBI Nassim & TAHAR DJEBBAR Mohamed.

Encadreur : Mr Nassim DENNOUNI

Année universitaire : 2008/2009.

Titre du mémoire:

« Traitement et exploration du fichier Log du serveur web pour l'extraction des connaissances »

Mise en contexte

Au cours de ces dernières années, avec la croissance exponentielle du nombre des documents en ligne et des nouvelles pages chaque jour, le Web est devenu la principale source d'information. Ce développement a entraîné une croissance rapide de l'activité sur le Web, et une explosion des données résultant de cette activité. En effet, le nombre des utilisateurs d'Internet dans le monde a atteint 74.4 millions au mois d'Octobre 2005¹, ce qui correspond à un taux de pénétration de 14.6% et le nombre de sites Web a atteint 70.39 millions au mois d'Août 2005, soit une augmentation de 2.8 millions par rapport au mois de juillet selon l'enquête de Netcraft². Pour analyser ce nouveau type de données, sont apparues de nouvelles méthodes d'analyse regroupées sous le terme «Web Mining» dont les trois axes de développement actuels sont le Web Content Mining (WCM) qui s'intéresse à l'analyse du contenu des pages Web, le Web Structure Mining (WSM), qui s'intéresse à l'étude des liens entre les sites Web et le Web Usage Mining (WUM) qui s'intéresse à l'étude de l'usage du Web.

Cette dernière branche du Web Mining (Web Usage Mining) qui se définit comme étant l'application du processus d'Extraction des Connaissances à partir de bases de Données (ECD) aux données issues des fichiers Logs HTTP est devenue une pratique de plus en plus courante et indispensable.

Problématiques de recherche

Notre problématique consiste à réaliser un outil pour aider les créateurs des sites Web à fidéliser les internautes fréquentant leurs sites et à attirer de nouveaux visiteurs en analysant le fichier log relatif à leurs sites WEB afin d'améliorer et de personnaliser l'utilisation des sites. Nous voulions au début utiliser le fichier Log relatif au site Web de notre université mais nous avons constaté qu'il n'est pas assez riche pour faire une bonne analyse de comportement des utilisateurs, pour cela nous avons choisi le site www.coolfilesearch.com.

Objectifs

L'objectif principal de notre travail est la conception et la réalisation d'un prototype de logiciel utile au Webmaster d'un site Web pour collecter l'ensemble des connaissances issues du fichier LOG relatif au site web qu'il gère et répondre aux besoins des visiteurs du site en vue d'une amélioration ou une personnalisation nécessaire à bonne utilisation du contenu du site web.

Notre contribution réside principalement dans les points suivants :

1- faire une étude sur la structure des différents fichiers log existant.

2- Une structuration des données dans une BD conçue selon le diagramme de classe UML et au diagramme des cas d'utilisation UML.

3- Se connecter à la BD pour l'exploiter comme suit :

3.1. Collecter des connaissances sur les visiteurs comme :

§ Le pourcentage des visiteurs.

3.2- Analyser les connaissances sur les pages visitées par les internautes :

§ Les pages les plus et les moins consultées (pages populaire et pages impopulaire).

§ Les combinaisons des pages consultées.

3.3- Définir la catégorie du site.

Organisation de notre mémoire

Notre travail s'organise autour de deux parties principales :

A. Partie théorique :

Cette partie permet de faire un tour d'horizon sur les différents concepts théoriques liés à notre travail. Pour cela, elle apparait à travers ces trois chapitres :

Le premier chapitre est consacré à une introduction sur le Web Mining et le Web Usage Mining.

Dans le deuxième chapitre, on va s'intéresser de prés à la structure d'un fichier log.

Et enfin dans le dernier chapitre, on va présenter quelques notions relatives au diagramme de classe UML et au diagramme des cas d'utilisation UML.

B. Partie pratique :

Dans cette partie, on vise à expliquer les différentes étapes nécessaires à la mise en oeuvre de notre projet. Pour cela, nous l'avons organisé en deux chapitres :

Dans le premier chapitre, nous allons faire une conception en utilisant le langage UML en s'appuyant sur le digramme des cas d'utilisation UML pour l'identification des besoins des utilisateurs et sur le diagramme de classe UML pour représenter issue de notre fichier LOG.

Dans le deuxième chapitre, nous proposons plusieurs choix techniques pour la réalisation de notre travail, ensuite nous présentons les différentes étapes nécessaires à l'implémentation de notre conception comme (le prétraitement, le nettoyage, l'exploration et l'analyse du fichier log) et enfin nous décrivons l'environnement de développement en illustrant quelques interfaces de notre logiciel.

Partie théorique :

Chapitre 1 : Web Mining

Introduction

Dans ce chapitre, nous présentons des techniques pour extraire des connaissances comme le «Web Mining» et le «web Usage Mining».

1- Le Web Mining :

Le Web Mining, défini comme l'application des techniques du Data Mining aux données du Web (documents, structure des pages, des liens...), Grâce à l'évolution constante des technologies informatiques, s'est développé à la fin des années 1990 afin d'extraire des informations pertinentes sur l'activité des internautes sur le Web.

Le Web Mining sert à l'extraction d'informations pertinentes et de connaissances réparties dans la volumineuse source de données qu'est Internet.

L'optimisation des systèmes d'informations, principalement dans le domaine du e-commerce, est aussi une tâche importante réalisée à l'aide du Web Mining.

- Web Mining est un domaine de recherche pluridisciplinaire, associant :

· Data Mining .

· Machine d'apprentissage.

· Récupération des informations.

· Traitement des langues naturelles.

· Multimédia.

· Statistiques.

Le Web Mining poursuit deux principaux objectifs:

1. L'amélioration et la valorisation des sites Web : L'analyse et la compréhension du comportement des internautes sur les sites Web permettent de valoriser le contenu des sites en améliorant l'organisation et les performances des sites.

2. La personnalisation: Les techniques de Data Mining appliquées aux données collectées sur le Web permettent d'extraire des informations intéressantes relatives à l'utilisation du site par les internautes. L'analyse de ces informations permet de personnaliser le contenu proposé aux internautes en tenant compte de leurs préférences et de leur profil.

1-1 Processus du Web Mining :

Le processus du Web Mining se déroule en trois étapes :

1. Collecte des données sur l'utilisateur,

2. Utilisation de ces données à des fins de personnalisation,

3. Présentation à l'utilisateur d'un contenu ciblé.

Figure 1 : Processus du Web Mining

1-2 Données du Web et leurs sources :

Les données utilisées dans le Web Mining sont classifiées en quatre types :

- Données relatives au contenu : données contenues dans les pages Web (textes, graphiques),

- Données relatives à la structure : données décrivant l'organisation du contenu (structure de la page, structure inter-page),

- Données relatives à l'usage: données fournissant des informations sur l'usage telles que les adresses IP, la date et le temps des requêtes,

- Données relatives au profil de l'utilisateur : données fournissant des informations démographiques sur les utilisateurs du site Web.

Ces données sont généralement stockées dans un Data-Warehouse, appelé data-Webhouse, dont l'objectif de construction est de collecter des données propres à la fréquentation des sites Web afin d'analyser les comportements de navigation. Les principales sources des données permettant d'alimenter les Data-Webhouses sont :

- Les fichiers Logs du serveur Web: il s'agit du journal des connexions qui
conserve une trace des requêtes et des opérations traitées par le serveur.

- Les bases de données clients : ce sont les sources des données des entreprises.

- Les cookies (ou Témoins) : ce sont des fichiers que le serveur d'un site Web glisse au sein du disque dur de l'internaute le plus souvent à son insu (fichiers temporaires ou dossier Cookies) afin de stocker de l'information et mémoriser ses visites. Il permet, par exemple de l'identifier lorsqu'il revient visiter un site régulièrement.

1.3- Terminologie :

La compréhension du processus du Web Mining nécessite la définition de certains termes qui se répèteront tout au long de cette mémoire :

- Une vue de page (ou « page diffusée») est le chargement complet d'une page Web suite à une action de l'utilisateur sur la page (un clic).

- Une session utilisateur est l'ensemble des requêtes explicites effectuées par l'utilisateur durant la période d'analyse.

- Une visite est un sous-ensemble des vues de pages consécutives d'une session durant une connexion. On parle aussi de « navigation». La pratique courante considère qu'une absence de consultation de nouvelles pages sur le site dans un délai excédant 30 minutes met fin à la visite.

- La notion de « visiteur» est à comprendre au sens d'individu. On appelle ainsi « nombre de visiteurs» le nombre d'individus ayant consulté le site pendant une période donnée.

- Un épisode est un sous-ensemble de clics d'une visite pour la réalisation d'un objectif. Il s'agit d'une phase de la navigation.

- Un motif de navigation est un usage du site par ses utilisateurs.

Plusieurs problèmes se posent lors d'une étude de Web Mining:

- Le stockage des données requiert de très grands espaces. Il nécessite souvent une machine spécifique.

- L'architecture des sites évolue régulièrement. Par conséquent, il est parfois difficile d'opérer des comparaisons entre les différentes périodes d'analyse.

- La situation géographique des visiteurs est déterminée à partir des extensions des adresses (.fr, .uk, .com,). Cependant une adresse se terminant par .com n'est pas forcément localisée aux Etats-Unis car cette extension est également devenue une extension commerciale.

Figure 2 : Terminologie.

1-4- Axes de développement du Web Mining:

Les trois axes de développement du Web Mining sont : le Web Content Mining, le Web Structure Mining et le Web Usage Mining.

1.4.1- Web Content Mining (WCM)

Le Web Content Mining (WCM) consiste en une analyse textuelle avancée intégrant l'étude des liens hypertextes et la structure sémantique des pages Web. Ainsi, les techniques de description, de classification et d'analyse de chaînes de caractères du Text Mining sont très utiles pour traiter la partie textuelle des pages. Le WCM s'intéresse également aux images. Il permet, par exemple, de quantifier les images et les zones de texte, pour chaque page. Ainsi par l'analyse conjointe de la fréquentation des pages, il est possible de déterminer si les pages contenant plus d'images sont plus visitées que les pages contenant plus de texte.

1.4.2- Web Structure Mining (WSM)

Il s'agit d'une analyse de la structure du Web i.e. de l'architecture et des liens qui existent entre les différents sites. L'analyse des chemins parcourus permet, par exemple, de déterminer combien de pages consultent les internautes en moyenne et ainsi d'adapter l'arborescence du site pour que les pages les plus recherchées soient dans les premières pages du site. De même, la recherche des associations entre les pages consultées permet d'améliorer l'ergonomie du site par création de nouveaux liens.

1.4.3- Web Usage Mining (WUM)

Cette dernière branche du Web Mining consiste à analyser le comportement de l'utilisateur à travers sa navigation, notamment l'ensemble des clics effectués sur le site (on parle d'analyse du clickstream). Cette approche permet de mesurer l'audience et la performance d'un site Web (combien de temps passé par page, combien de visites, à quel moment, qui est l'utilisateur, quelle est la fréquence de ses consultations,..). L'intérêt du WUM est d'enrichir les sources de données de l'entreprise (bases de données clients, bases marketing,...) par les données brutes du clickstream afin d'affiner les profils clients ainsi que les modèles comportementaux.

1.4.4- Comparaison des trois catégories du Web Mining :

Figure 3 : Comparaison des trois catégories du Web Mining .

1.5- Les défis du Web Mining :

· Grande quantité de l'information, mais facile d'accès.

· Couverture de l'information est très large et varié.

· C'est la première source de recherche d'information dans toutes sortes de sujets, presque tout le monde (par exemple la météo, les actualités, les produits, vocabulaire, etc.).

· Comprend tous les types de l'information structurée (tableaux, texte, image, audio, image, etc..).

· Semi-structurées avec code HTML dans les liens hypertexte entre les pages d'un site Web et dans les différents sites sont disponibles.

· L'information est redondante (même élément d'information ou de ses variantes apparaissent avec différentes URL).

1.6- Le Web Mining le pour et le contre :

1.6.1 - Le pour :

Web Mining essentiellement présente de nombreux avantages de cette technologie qui rend attrayant pour les sociétés, compris les organismes gouvernementaux. Cette technologie a permis de faire e-Commerce marketing personnalisées, ce qui finit par des résultats plus élevés dans les volumes d'échanges.

Les organismes gouvernementaux utilisent cette technologie pour classer les menaces et la lutte contre le terrorisme. La capacité de prévision de la demande de l'exploitation minière peuvent avantages de la société par l'identification des activités criminelles. Les entreprises peuvent établir de meilleures relations avec la clientèle en leur offrant exactement ce dont ils ont besoin. Les entreprises peuvent comprendre les besoins de la clientèle et mieux ils peuvent réagir plus rapidement aux besoins des clients. Les entreprises peuvent trouver, attirer et retenir les clients, ils peuvent économiser sur les coûts de production en utilisant la connaissance acquise des besoins des clients. Ils peuvent augmenter la rentabilité de la cible de tarification basée sur les profils créés. Ils peuvent même trouver le client qui pourrait à défaut d'un concurrent de l'entreprise va essayer de garder le client en fournissant à des offres promotionnelles spécifiques du client, réduisant ainsi le risque de perdre un client.

1.6.2 - Le contre :

Web Mining la technologie elle-même ne crée pas de problèmes, mais cette technologie, lorsqu'elle est utilisée sur des données de nature personnelle pourraient causer des préoccupations. La plupart des critiques concernant la question éthique web Mining est l'invasion de la vie privée. Protection de la vie privée est considérée comme perdu quand l'information concernant un individu sont obtenus, utilisés ou diffusés, en particulier si cela se produit sans leur connaissance ou le consentement. Les données obtenues seront analysées et regroupées sous forme de profils, les données seront rendues anonymes avant le regroupement, afin que personne ne puisse être relié directement à un profil. Mais généralement les profils de groupe sont utilisés comme si elles sont les profils personnels. Ainsi, ces applications de personnaliser les utilisateurs en juger par leurs clics de souris. De-individualisation, peut être définie comme une tendance de juger et de traiter les gens sur la base des caractéristiques de groupe plutôt que sur leurs propres caractéristiques et les mérites.
Une autre préoccupation importante est que les sociétés de collecte des données dans un but précis pourrait utiliser les données pour un tout autre but, et ce essentiellement viole les intérêts de l'utilisateur. La tendance croissante de la vente de données à caractère personnel comme un encourage les propriétaires de sites de commerce des données personnelles obtenues à partir de leur site. Cette tendance a augmenté la quantité de données d'être capturés et commercialisés de plus en plus la probabilité d'une invasion de la vie privée. Les entreprises qui achètent ces données sont tenus rendre anonymes et ces sociétés sont considérées comme les auteurs de toutes les modes de libération de l'exploitation minière

Et en suite on va présenter e thème du Web usage Mining, en raison de la difficulté d'approfondir des connaissances dans une science comprenant autant de types d'application. Dans les nombreuses pages Web que j'ai explorées.

2- Web Usage Mining :

On peut définit le WUM comme étant l'application du processus d'Extraction des connaissances à partir de bases de Données (ECD) aux données issues des fichiers Logs HTTP afin d'extraire des modèles comportementaux d'accès au Web en vue de répondre aux besoins des visiteurs de manière spécifique et adaptée (personnaliser les services) et faciliter la navigation. Les profils d'accès `a un site Web peuvent être influences par certains paramètres de nature temporelle (l'heure et le jour de la semaine, des événements saisonniers, etc.). Cependant, la plupart des méthodes consacrées `a la fouille de données d'usage du Web (Web Usage Mining) prennent en compte dans leur analyse toute la période qui enregistre les traces d'usage : les résultats obtenus sont ainsi ceux qui prédominent sur la totalité de la période.

2.1- Historique du Web Usage Mining :

Le Web Usage Mining a été introduit pour la première fois en 1997 (Cooley et al.1997). Dans cet environnement, la tache est d'extraire de manière automatique la façon dont les utilisateurs naviguent sur un site web. Depuis 1995, Catledge et Pitkow ont étudié la manière de catégoriser les comportements utilisateurs sur un site web (Catledge 1995). Le processus d'extraction de connaissance est base sur la disponibilité de données fiables : divers travaux on été mènes sur la façon de traiter les données récupérables depuis un site web (Cooley et al. 1999, Pitkow 1997, Chevalier et al. 2003). Une grande majorité de chercheurs utilisent de manière systématique les informations conte- Prétraitement des données pour l'utilisation de l'inférence grammaticale en WUM.

2-2- Motifs du Web Usage Mining :

Il y a cinq motifs du WUM :

1. Évaluation et caractérisation générale de l'activité sur un site Web : l'objectif est l'observation et non pas la modélisation. Les techniques d'analyse utilisées sont souvent simples. Elles relèvent, en effet, du dénombrement et des statistiques simples (moyennes, histogramme, indices, tris croisés).

2. Amélioration des modes d'accès aux informations : le WUM permet de comprendre comment les utilisateurs se servent d'un site, d'identifier les failles dans la sécurité et les accès non autorisés.

3. Modification de la structure : le WUM peut révéler le besoin de restructurer des pages et des liens afin d'améliorer la structure du site Web. En effet,les pages considérées comme similaires par des techniques de classification peuvent être reliées de manière hypertextuelle.

4. Personnalisation de la consultation : cet enjeu important pour de nombreuses applications Internet ou sites de e-commerce consiste à proposer des recommandations dynamiques à un utilisateur en se basant sur son profil et une base de connaissances d'usages connus.

5. Mise en oeuvre de l'intelligence économique: cet objectif concerne en particulier les sites marchands. Il s'agit de comprendre quand, comment et pourquoi l'utilisateur est attiré par ce site, les produits qu'il faut lui proposer à la vente...etc.

2.3- Données de l'usage :

Les principales données exploitées dans le WUM proviennent des fichiers Logs. Cependant, il existe d'autres sources d'informations qui pourraient être exploitées à savoir les connaissances sur la structure des sites Web et les connaissances sur les utilisateurs des sites Web.

2.3.1- Connaissances sur le site Web :

Les pages d'un site sont matérialisées par une adresse Internet spécifique, appelée adresse d'allocation de la ressource (Uniform Resource Locator). La structure d'un site Internet simple peut être représentée par un arbre dont la racine correspond à la page d'accueil du site.

Figure 4 : Exemple d'arbre d'un site

Chaque point (ou noeud) présente l'adresse d'une page particulière, et les segments reliant ces points indiquent la présence d'un lien hypertexte amenant aux sous-branches immédiates de l'arbre. D'après le schéma ci-dessus, il est possible de retracer le chemin de navigation de l'internaute sur le site. Cependant, il n'est pas toujours aisé de représenter l'architecture d'un site, en particulier les sites complexes.

2.3.1- Connaissances sur les utilisateurs du site :

Les connaissances sur les utilisateurs d'un site sont obtenues directement auprès des utilisateurs eux-mêmes dans l'approche panéliste (âge, sexe, ancienneté sur le Web). Dans le cas des sites à base d'inscription, ces connaissances sont recueillies directement à partir du login et du profil de l'utilisateur donné par l'internaute au moment de l'inscription. Ces données dites explicites, fournies directement par les internautes sont très souvent erronées. Il est également possible d'acquérir des connaissances sur les utilisateurs du site en reconstituant leurs profils en fonction de leurs activités passées sur le Web.

2.4- Processus du Web Usage Mining :

Le WUM consiste en «l'application des techniques de fouille des données pour découvrir des patrons d'utilisation à partir des données du Web dans le but de mieux comprendre et servir les besoins des applications Web». La première étape dans le processus de WUM, une fois les données collectées, est le prétraitement des fichiers Logs qui consiste à nettoyer et transformer les données. La deuxième étape est la fouille des données permettant de découvrir des règles d'association, un enchaînement de pages Web apparaissant souvent dans les visites et des «clusters» d'utilisateurs ayant des comportements similaires en termes de contenu visité. L'étape d'analyse et d'interprétation clôt le processus du WUM. Elle nécessite le recours à un ensemble d'outils pour ne garder que les résultats les plus pertinents.

Un processus WUM comporte trois étapes principales : prétraitement, fouille de données et analyse de motifs extraits.

En résumé, le processus général du Web usage Mining se représente selon figure2:

Figure 5 : Processus général du Web usage Mining

Conclusion

Ce premier chapitre a servi d'introduction au domaine lié à notre étude. Nous avons défini certaines notions relatives au Web Mining et plus particulièrement, au Web Usage Mining sur lequel porte notre étude. Et dans le chapitre qui suit nous allons nous intéressé à la structure d'un fichier log.

Chapitre 2 : Fichier log

Introduction

Dans ce chapitre, nous expliquons la structure d'un fichier LOG en général a travers quelques exemples relatifs à l'observation de quelque sites web.

1- Présentation des fichiers logs :

Le comportement de l'utilisateur sur un site Web réside en une suite de clics de souris et de saisies sur un clavier. Ces informations déclenchent des requêtes qui ont pour résultat l'affichage de certaines pages du site. Ces requêtes sont enregistrées dans un fichier texte à mesure qu'elles sont déclenchées par les utilisateurs. Ces données sont stockées de manière standardisée de façon à ce qu'il soit possible de procéder à des analyses. Cette base de données est communément appelée fichier log. Son analyse permet en principe de savoir quelles sont les requêtes qui n'aboutissent pas (page manquante, lien erroné...) ou encore quelle est la fréquentation de chaque page. Cependant la structure et le contenu de ce fichier permettent d'obtenir de plus amples informations après certains traitements.

Le format le plus répandu de fichier log est le format ELF (Extended Log Format). Chaque ligne de ce fichier donne une information sur l'utilisateur, son matériel, la date et l'heure de la requête, la page requise, le statut de la page requise, la page de référence ainsi que quelques informations liées au protocole d'échange de données (figure 1).

Et le format (Common Log Format) a le même structure que ELF (Extended Log Format) mais ne contient pas le « referrer » (désignant le navigateur, le système exploitation du l'ordinateur client et ainsi d'autres paramètres éventuelles.

161 .31.1 32 .11 6 - - [21 /Dec/2001:08:42:55 -0500] "GET /home.htm HTTP/1.0" 200 43 92 http://fr.search.yahoo.com/fr?p=peinture "Mozilla/4.7 [en] (Win98)"

161 .31.1 32 .11 6 - - [21 /Dec/2001:08:43:59 -0500] "GET /images/flagfr.jpg HTTP/1.0" 304 - "-" "Mozilla/4.7 [en] (Win98)"

209 .130.181.2 12 - - [21/Dec/2001:08:44:02 -0500] "GET /cs HTTP/1.1" 301 236 "-" "Mozilla/4 .0 (compatible; MSIE 5.5; Windows 98)"

209 .130.181.2 12 - - [21/Dec/2001:08:44:0 3 -0500] "GET /cs/ HTTP/1.1" 200 1643 "-" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98)"

209 .130.181.212 - - [21/Dec/2001:08:44:05 -0500] "GET /cs/frameh.htm HTTP/1.1" 200 7363 "/cs/" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98)"

Figure 6 - extrait d'un fichier log.

Selon ce format sept informations sont enregistrées:

1. le nom du domaine ou l'adresse de Protocole Internet (IP) de la machine appelante,

2. le nom et le login HTTP de l'utilisateur (en cas d'accès par mot de passe),

3. la date et l'heure de la requête,

4. la méthode utilisée dans la requête (GET, POST, etc.) et le nom de la ressource Web demandée (l'URL de la page demandée),

5. le statut de la requête i.e. le résultat de la requête (succès, échec, erreur, etc.),

6. la taille de la page demandée en octets.

7. le navigateur et le système exploitation utilisé par le client.

Tout d'abord, il faut remarquer que les lignes arrivent dans un ordre chronologique au gré des différentes requêtes et non pas regroupées par visiteur. Chaque ligne a un format bien défini. La première ligne de la figure 1 servira d'exemple pour commenter les différents blocs de données.

161.31.132.116 : La première série de chiffres est l'adresse de Protocole Internet ou adresse IP. Cette adresse est unique lors d'une connexion. Ceci veut dire que lorsqu'un utilisateur se connecte à l'Internet, cette adresse sera déposée dans tous les fichiers log des sites que celui-ci visitera le temps de sa connexion. Cependant à chaque déconnexion, l'utilisateur perd cette adresse et en obtient une autre lors d'une connexion ultérieure¹. Pour l'analyse du trafic, ceci a deux conséquences importantes. Premièrement, il n'est pas possible de savoir, à partir d'un fichier log standard, si un utilisateur est déjà venu sur le site ou s'il s'agit d'une première visite. Deuxièmement, étant donné que le nombre d'adresses IP disponibles est limité, plusieurs personnes peuvent obtenir successivement la même adresse. En revanche plusieurs personnes ne peuvent pas obtenir la même adresse simultanément. L'adresse IP est unique durant toute la connexion et ne peut être partagée.

[21/Dec/2001:08:42:55 -0500] : Le deuxième groupe de données est relatif à la date et à l'heure de la requête.

GET /home.htm: Le troisième groupe de données concerne la requête. Ici la page requise est la page home.htm.

HTTP/1.0 : correspond au protocole utilisé.

200 : Viennent ensuite des données sur le statut de la page requise (200 pour« disponible », 404 pour « introuvable »...).

4392 : correspond à la taille chargée.

http://fr.search.yahoo.com... : C'est la page de référence, la page à partir de laquelle la requête est lancée.

Mozilla/4.7 [en] (Win98) : Le dernier bloc de données renseigne sur la configuration de l'utilisateur. Ici, le visiteur utilise le navigateur Netscape 4.7 version anglaise sous un environnement Windows 98.

Quelques explications sont nécessaires sur le type de requête et le code de retour :

Les principales valeurs de types de requêtes sont :

Les requêtes généralement utilisées sont: GET, HEAD, PUT, POST, TRACE et OPTIONS:

- La méthode GET est une requête d'information. Le serveur traite la demande et renvoie le contenu de l'objet.

- La méthode HEAD est très similaire à la méthode GET. Cependant le serveur ne retourne que l'en-tête de la ressource demandée sans les données. Il n'y a donc pas de corps de message.

- La méthode PUT permet de télécharger un document, dont le nom est précisé dans l'URI, ou d'effacer un document, toujours si le serveur l'autorise.

- La méthode POST est utilisée pour envoyer des données au serveur.

- La méthode TRACE est employée pour le déboguage. Le serveur renvoie, dans le corps de la réponse, le contenu exact qu'il a reçu du client. Ceci permet de comprendre, en particulier, ce qui se passe lorsque la requête transite par plusieurs serveurs intermédiaires.

- La méthode OPTIONS permet de demander au serveur les méthodes autorisées pour le document référencé

En effet, le code d'état (statut), entier codé sur trois chiffres, a un sens propre dont la catégorie dépend du premier chiffre:

- 1xx indique uniquement un message informel,

- 2xx indique un succès,

- 3xx redirige le client sur un autre URL,

- 4xx indique une erreur côté client,

- 5xx indique une erreur côté serveur.

Dans cette partie nous analyserons les formats des fichiers log existants sur le marché, cette analyse nous permettra d'avoir une idée sur la représentation des différentes informations contenues dans ces fichiers.

Ensuite nous établirons la liste des bases de données candidates, cette liste a été faite à partir d'une analyse du marché des systèmes de gestion de base de données.

2. Les types des fichiers Logs :

Il existe plusieurs fichiers log sur le marché ainsi que des logiciels permettant de représenter une partie de leurs structures :

2.1-Le serveur apache

Un log apache peut renseigner sur plusieurs paramètres comme l'octet envoyé, le nom d'environnement, l'adresse IP distante, le hôte distant, le nom utilisateur distant, le port du serveur, le statut de la requête, l'heure, l'url demandé, le hôte virtuel du serveur etc.

L'ensemble de ces informations permet d'avoir une idée générale sur toutes les requêtes qui étaient envoyées au serveur et les id des machines correspondant à ces requêtes.

Exemple de log apache :

193.95.3.185 - - [18/Oct/2002:23:00:13 +0200] "GET /pat/internet/didactic/menusour.gif HTTP/1.0" 200 22102 "http://www-ipst.ustrasbg.fr/pat/internet/didactic/introwin.htm" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)"

193.95.3.185 - - [18/Oct/2002:23:00:13 +0200] "GET /pat/internet/didactic/recherch.gif HTTP/1.0" 200 4255 "http://www-ipst.ustrasbg.fr/pat/internet/didactic/introwin.htm" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)"

Figure 7 - Exemple de log apache.

2.2- Le serveur Squid

Tous les 'log' de Squid se trouvent dans le répertoire /var/log/squid. Il y a des log pour le cache, les accès et l'utilisation du disque. Le fichier access.log garde la trace des requêtes des clients, de leur activité, et fournit une ligne pour chaque requête HTTP& ICP reçue par le serveur Proxy, l'adresse IP du client, la méthode d'interrogation, l'URL demandée, etc. Les données de ce fichier peuvent être analysées pour disposer d'information sur les accès. Des programmes comme sarg, calamaris, Squid-Log- Analyzer sont disponibles pour analyser ces données et génèrent des rapports (au format HTML). Ces rapports peuvent être établis par les utilisateurs, les adresses IP, les sites visités, etc.

Exemples de log Squid :

951403080.162 0 172.31.13.234 TCP_HIT/200 2334 GET

http://lc2.law5.hotmail.passport.com/cgi-bin/confirmuser? -

DEFAULT_PARENT/sat-epinal.ac-nancy-metz.fr text/html

951403080.162 0 172.31.13.234 TCP_HIT/200 2334 GET

http://216.32.182.251/logo_msnhm_468x60.gif - NONE/- image/gif

951403080.167 3 172.31.13.234 TCP_HIT/200 1314 GET

http://216.32.182.251/logo_passport_110x34.gif - NONE/- image/gif

951403080.191 23 172.31.13.234 TCP_HIT/200 1576 GET

http://216.32.182.251/buynowFR.gif - NONE/- image/gif

951403080.199 8 172.31.13.234 TCP_HIT/200 619 GET

http://216.32.182.251/walletFR.gif - NONE/- image/gif

951403080.225 25 172.31.13.234 TCP_HIT/200 688 GET

http://216.32.182.251/dosignoutFR.gif - NONE/- image/gif

951403080.232 7 172.31.13.234 TCP_HIT/200 648 GET

http://216.32.182.251/dosigninFR.gif - NONE/- image/gif

951403081.830 1669 172.31.13.234 TCP_MISS/200 1187 GET

http://lc2.law5.hotmail.passport.com/cgi-bin/dasp/FR/hotmail___0.css -

DEFAULT_PARENT/sat-epinal.ac-nancy-metz.fr text/css

Figure 8 - Exemples de log Squid

2.3- Analog :

Analog est un programme d'analyse des fichiers log. Il présente de nombreux avantages.

Rapide, flexible, il est facile à installer et à utiliser. Il donne des statistiques très précises sur l'heure, le domaine géographique, l'organisation, les termes recherchés, le système d'exploitation de l'utilisateur connecté, le code statut (requête incorrecte), le fichier demandé par l'utilisateur etc...

Exemples de log :

host.analog.cx - - [31/Dec/1999:22:11:12 +0000] "GET /sample.html HTTP/1.0" 200 1234

"http://referrer.com/" "Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)"

host.analog.cx - - [31/Dec/1999:23:11:12 +0000] "GET /sample.html HTTP/1.0" 200 1234

"http://referrer.com/" "Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)"

host.analog.cx - - [01/Jan/2000:02:11:12 +0000] "GET /sample.html HTTP/1.0" 200 1234