WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp

Home | Publier un mémoire | Une page au hasard

Memoire Online >

Informatique et Télécommunications

Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Deuxième partie

Méthodologie et application

Chapitre 5

Prétraitement des données

La première étape d'un processus du WUM consiste en un prétraitement des fichiers Log. En effet, le format des fichiers log Web est impropre à une analyse directe par les diverses techniques de fouille des données. Leur nettoyage et leur structuration sont donc nécessaires avant toute analyse. Dans ce chapitre, nous présentons la méthodologie que nous avons adoptée pour le prétraitement ainsi que les résultats de son application sur les fichiers Log du CCK¹ (Centre de Calcul elKhawarizmi).

5.1 Méthodologie de prétraitement

5.1.1 Processus de prétraitement

Différentes étapes de prétraitement

Le prétraitement des données du fichier Log comprend les étapes illustrées par le schéma suivant :

Nettoyage

Transformation

Retraitement

Base des
données

FIG. 5.1 : Processus de prétraitement

5.1.2 Nettoyage des données

Le nettoyage des données consiste à supprimer les requêtes inutiles des fichiers »logs», à savoir :

Requêtes non valides (N1)

Ce sont les requêtes dont le statut est inférieur à 200 ou supérieur à 399. En effet, le code d'état (statut), entier codé sur trois chiffres, a un sens propre dont la catégorie dépend du premier chiffre:

- 1xx indique uniquement un message informel, - 2xx indique un succès,

- 3xx redirige le client sur un autre URL, - 4xx indique une erreur côté client,

- 5xx indique une erreur côté serveur.

Requêtes provenant des robots Web (N2)

Il est presque impossible aujourd'hui d'identifier tous les robots Web puisque chaque jour apparaissent des nouveaux. Pour les robots dont l'adresse IP et le User-Agent sont inconnus, nous procédons à un examen de leurs comportements sachant que les robots Web procèdent à une visite relativement exhaustive (nombre de pages visitées par un robot est supérieur au nombre de pages visitées par un utilisateur normal) et rapide et qu'ils cherchent généralement un fichier nommé »robot.txt». Ainsi, pour identifier les requêtes provenant des robots ou leurs visites nous avons utilisé cinq heuristiques en considérant qu'il suffit de vérifier une d'entre elles pour considérer la requête correspondante comme étant générée par un robot Web :

a. Identifier les adresses IP et les »User-Agents» connus comme étant des robots Web. Ces informations sont fournies généralement par les moteurs de recherche (N2a).

b. Identifier les IP ayant fait une requête à la page »\robots.txt» (N2b).

c. Identifier les »User-Agents» comportant l'un des mots clés suivants: »crawler», »spider» ou encore »bot» (N2c).

d. Identifier les requêtes effectuées par des aspirateurs de sites Web (HTTrack par exemple), ou par des modules de certains navigateurs permettant la consultation de pages hors ligne tels que DigExt d'Internet Explorer. L'identité de ces aspirateurs ou de ces modules est trahie par la mention de leurs noms au niveau de leurs User-Agents. Pour les aspirateurs qui cachent leurs User-Agents, leur identification est effectuée ultérieurement en se basant sur la durée de leurs requêtes généralement nulle (N2d).

e. Utiliser un seuil pour la vitesse de navigation BS »Browsing Speed» égale au nombre de pages visitées par seconde. Le calcul du Browsing Speed n'est possible qu'après détermination des sessions et des visites (N2e).

Requêtes aux images (N3)

Cette étape de nettoyage consiste à supprimer les fichiers dont les extensions sont : .jpg, .gif, .png, etc... et les fichiers multimédia dont l'extension est : .wav, .wma, .wmv, etc. Deux méthodes ont été utilisées pour supprimer les requêtes aux images. La première (N3a) consiste à utiliser la carte du site afin d'identifier les URLs des images nécessitant de cliquer sur un lien pour être affichées. Les images inclues dans les fichiers HTML sont supprimées car elles ne reflètent pas le comportement de l'internaute. A titre d'exemple, la page dont l'URL est www. cck. rnu. tn\ arabe\ ntic_ tunisie\ ntic_ ar. htm

comporte les images suivantes qui s'affichent sans avoir besoin de cliquer sur un lien :

Cependant, ce n'est pas toujours possible d'identifier toutes les images inintéressantes quand le site est volumineux. Dans ce cas, nous proposons une autre méthode² dont l'application nécessite tout d'abord l'identification des sessions.

Requêtes dont la méthode est différente de »GET» (N4)

Les méthodes généralement utilisées sont: GET, HEAD, PUT, POST, TRACE et OPTIONS:

- La méthode GET est une requête d'information. Le serveur traite la demande et renvoie le contenu de l'objet.

- La méthode HEAD est très similaire à la méthode GET. Cependant le serveur ne retourne que l'en-tête de la ressource demandée sans les données. Il n'y a donc pas de corps de message.

- La méthode PUT permet de télécharger un document, dont le nom est précisé dans l'URI, ou d'effacer un document, toujours si le serveur l'autorise.

- La méthode POST est utilisée pour envoyer des données au serveur.

- La méthode TRACE est employée pour le déboguage. Le serveur renvoie, dans le corps de la réponse, le contenu exact qu'il a reçu du client. Ceci permet de comprendre, en particulier, ce qui se passe lorsque la requête transite par plusieurs serveurs intermédiaires.

- La méthode OPTIONS permet de demander au serveur les méthodes autorisées pour le document référencé.

²voir »seconde étape de nettoyage des images» à la page 54.

Vu que le WUM s'intéresse à l'étude du comportement de l'internaute sur le Web et par conséquent aux ressources qu'il demande, il faut garder seulement les requêtes dont la méthode utilisée est GET.

Scripts (N5)

Généralement, le téléchargement d'une page demandée par un utilisateur est accompagné automatiquement par le téléchargement des scripts tels que les scripts Java (fichiers .js), des feuilles de style (fichiers .css), des animations flash (fichier .swf) ,etc. Ces éléments doivent être supprimés du fichier Log étant donné que leur apparition ne reflète pas le comportement de l'internaute.

Requêtes spécifiques à l'activité sur le site (N6)

Ce sont les requêtes relatives au trafic sur le site objet de l'analyse. Cette étape montre que la méthodologie d'analyse du comportement des internautes sur le Web n'est pas unique et qu'elle dépend de plusieurs facteurs, en particulier du site analysé. Par exemple, en considérant le site du CCK, cette étape consiste à supprimer:

- Les requêtes pour les pages »proxy.pac» (N6a). - Les requêtes aux pages:

- http :// www.cck.rnu.tn/haut.htm et - http :// www.cck.rnu.tn/haut.asp

car ces pages s'affichent automatiquement avec la page d'accueil du site et servent d'entête (frame) pour toutes les autres pages (N6b).

- Les requêtes pour les annonces (les popups). En effet, les annonces apparaissent toutes seules dès que l'utilisateur se connecte sur le site du CCK (N6c). De ce fait, les requêtes correspondantes ne reflètent pas son comportement. Pour éliminer ces requêtes, il faut identifier les URLs correspondantes de la forme: www.cck.rnu.tn/popup/pop.htm

précédent sommaire suivant

"Un démenti, si pauvre qu'il soit, rassure les sots et déroute les incrédules" Talleyrand