WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Application du processus de fouille de données d'usage du web sur les fichiers logs du site cubba

( Télécharger le fichier original )
par Nabila Merzoug et Hanane Bessa
Centre universitaire de Bordj Bou Arréridj Algérie - Ingénieur en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3. Transformation des données

3.1. Identification des internautes

En ce qui concerne l'identification de l'utilisateur, pour les sites Web, il est indispensable d'identifier clairement chaque utilisateur. Si le serveur ne peut différencier les requêtes qui lui parviennent, toute solution proposée n'est pas optimale.

3.1.1. Adresse IP

Sur Internet, les ordinateurs communiquent entre eux grâce au protocole TCP/IP « Transmission Control Protocol ». Chaque ordinateur appartenant au réseau est identifié par une séquence unique de 32 bits (l'adresse IP) écrite à l'aide de quatre nombres compris entre 0 et 255.

Les adresses IP ont l'avantage d'être toujours disponibles et de ne nécessiter aucun

traitement préalable. En revanche, elles possèdent principalement deux limites :

+ Premièrement, une adresse IP peut n'identifier qu'un groupe d'ordinateurs « cachés »

derrière le serveur proxy d'un fournisseur d'accès à Internet ou d'un réseau local. Rappelons qu'un serveur proxy a une double fonction : il permet aux ordinateurs d'un réseau utilisant des adresses IP privées d'accéder à Internet par son intermédiaire. Il peut également servir de cache, c'est-à-dire qu'il peut garder en mémoire les pages les

plus souvent visitées pour les fournir plus rapidement. Ainsi, tous les internautes utilisant un serveur proxy seront identifiés par l'unique adresse IP de ce serveur. Le site visité ne peut alors déceler s'il a à faire à un ou plusieurs visiteurs.

Exemple :

IP des clients Proxy IP apparaissant dans le log

ch1smc.bellglobal.com

hse-montreal-ppp123456.sympatico.ca

hse-sherbrookeppp1236456.qc.sympatico.ca hse-quecity-ppp123456.qc.sympatico.ca

FIG 2.2 Effet du proxy sur le contenu des logs [16].

+ Le deuxième inconvénient de l'utilisation des adresses IP comme identifiants vient de son inadéquation à la rétribution dynamique. La majorité des internautes se voient en effet prêter une adresse IP par leur fournisseur d'accès le temps d'une connexion à Internet. Cet inconvénient est particulièrement influant sur les sites ayant de nombreux visiteurs, les adresses IP attribuées dynamiquement pouvant être réutilisées immédiatement par d'autres utilisateurs. Par ailleurs, l'attribution dynamique ne permet une identification valable que pour une seule session ininterrompue : si l'internaute interrompt sa visite en se déconnectant un bref instant, sa session sera toujours en cours, mais son adresse IP aura changé, l'identification ne sera donc plus possible.

3.1.2. Les sessions

a. Définition

Une session est composée de l'ensemble de pages visitées par le même utilisateur durant la période d'analyse, cependant, dans [12] la combinaison des champs IP (adresse) et User Agent (le navigateur Web) d'un fichier log Web identifie correctement l'utilisateur dans 92.02 % des cas et seul un nombre limité de ces combinaisons (1.32 %) sont utilisés par plus de trois utilisateurs. Chaque session est caractérisée par le nombre de requêtes effectuées par l'utilisateur durant cette session, le nombre de pages consultées (URLs2 différentes) et la durée de la session. Nous pouvons considérer la combinaison adresse IP plus navigatrice comme étant un critère acceptable pour l'identification d'un utilisateur dans le cadre d'une activité ponctuelle.

session1

session2

une base
de
données

session n

FIG 2.3 Le schéma d'identification de session.

b. Algorithme d'identification

Afin de mieux identifier les sessions, nous adoptons l'algorithme proposé ci-dessous. [13]

Tant qu'il y » a des enregistrements dans la base faire lire l'enregistrement i

Récupérer l'adresse IPi et l'User-Agent UAi Si (le couple (IPi, UAi) = (IPi-1, UA i-1)) Alors

Ajouter l'enregistrement i à la session S i-1

Sinon

Recommencer une nouvelle session Si FinSi

Fin Tant Que

FIG 2.4 Algorithme d'identification des sessions.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'imagination est plus importante que le savoir"   Albert Einstein