Techniques d'extraction de connaissances appliquées aux données du Web

( Télécharger le fichier original )
par Malika CHARRAD
Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Première partie

Etat de l'art

Chapitre 2

Web Mining et Web Usage

Mining

Le Web Mining, défini comme l'application des techniques du Data Mining* aux données du Web (documents, structure des pages, des liens...), s'est développé à la fin des années 1990 afin d'extraire des informations pertinentes sur l'activité des internautes sur le Web. Dans ce chapitre, structuré en deux sections, nous présentons dans la première le Web Mining, en particulier ses objectifs et les axes de son développement. Dans la seconde, nous nous intéressons au troisième axe de développement du Web Mining, le Web Usage Mining, en particulier les motifs du WUM, les données de l'usage et les diverses approches d'analyse.

2.1 Web Mining

Le Web Mining poursuit deux principaux objectifs:

1. L'amélioration et la valorisation des sites Web : L'analyse et la compréhension du comportement des internautes sur les sites Web permet de valoriser le contenu des sites en améliorant l'organisation et les performances des sites.

2. La personnalisation: Les techniques de Data Mining appliquées aux données collectées sur le Web permettent d'extraire des informations intéressantes relatives à l'utilisation du site par les internautes. L'analyse de ces informations permet de personnaliser le contenu proposé aux internautes en tenant compte de leurs préférences et de leur profil.

2.1.1 Processus du Web Mining

Le processus du Web Mining se déroule en trois étapes :

1. Collecte des données sur l'utilisateur,

2. Utilisation de ces données à des fins de personnalisation,

3. Présentation à l'utilisateur d'un contenu ciblé.

Données du Web et leurs sources

[Sri, 00]classifie les données utilisées dans le Web Mining en quatre types :

- Données relatives au contenu : données contenues dans les pages Web (textes, graphiques),

- Données relatives à la structure : données décrivant l'organisation du contenu (structure de la page, structure inter-page),

- Données relatives à l'usage: données fournissant des informations sur l'usage telles que les adresses IP, la date et le temps des requêtes,

- Données relatives au profil de l'utilisateur : données fournissant des informations démographiques sur les utilisateurs du site Web.

Ces données sont généralement stockées dans un Data-Warehouse, appelé data-Webhouse, dont l'objectif de construction est de collecter des données propres à la fréquentation des sites Web afin d'analyser les comportements de navigation. Les principales sources des données permettant d'alimenter les Data-Webhouses sont :

- Les fichiers Logs du serveur Web: il s'agit du journal des connexions qui
conserve une trace des requêtes et des opérations traitées par le serveur.

- Les bases de données clients : ce sont les sources des données des entreprises.

- Les cookies (ou Témoins) : ce sont des fichiers que le serveur d'un site Web glisse au sein du disque dur de l'internaute le plus souvent à son insu (fichiers temporaires ou dossier Cookies) afin de stocker de l'information et mémoriser ses visites. Il permet, par exemple de l'identifier lorsqu'il revient visiter un site régulièrement.

Terminologie

La compréhension du processus du Web Mining nécessite la définition de certains termes qui se répèteront tout au long de ce mémoire. Cette définition est faite sur la base des recommandations du W3C relatives à la normalisation de la terminologie [Lav, 99].

- Une vue de page (ou »page diffusée») est le chargement complet d'une page Web suite à une action de l'utilisateur sur la page (un clic).

- Une session utilisateur est l'ensemble des requêtes explicites effectuées par l'utilisateur durant la période d'analyse.

- Une visite est un sous-ensemble des vues de pages consécutives d'une session durant une connexion. On parle aussi de »navigation». La pratique courante considère qu'une absence de consultation de nouvelles pages sur le site dans un délai excédant 30 minutes met fin à la visite.

- La notion de »visiteur» est à comprendre au sens d'individu. On appelle ainsi »nombre de visiteurs» le nombre d'individus ayant consulté le site pendant une période donnée.

- Un épisode est un sous-ensemble de clics d'une visite pour la réalisation d'un objectif. Il s'agit d'une phase de la navigation.

- Un motif de navigation est un usage du site par ses utilisateurs Limites du Web Mining

Plusieurs problèmes se posent lors d'une étude de Web Mining:

- Le stockage des données requiert de très grands espaces. Il nécessite souvent une machine spécifique.

- L'architecture des sites évolue régulièrement. Par conséquent, il est parfois difficile d'opérer des comparaisons entre les différentes périodes d'analyse.

- La situation géographique des visiteurs est déterminée à partir des extensions des adresses (.fr, .uk,.com,). Cependant une adresse se terminant par .com n'est pas forcément localisée aux Etats-Unis car cette extension est également devenue une extension commerciale.

2.1.2 Axes de développement du Web Mining

Les trois axes de développement du Web Mining sont : le Web Content Mining, le Web Structure Mining et le Web Usage Mining.

Web Content Mining

Le Web Content Mining (WCM) consiste en une analyse textuelle avancée intégrant l'étude des liens hypertextes et la structure sémantique des pages Web. Ainsi, les techniques de description, de classification et d'analyse de chaînes de caractères du Text Mining sont très utiles pour traiter la partie textuelle des pages. Le WCM s'intéresse également aux images. Il permet, par exemple, de quantifier les images et les zones de texte, pour chaque page. Ainsi par l'analyse conjointe de la fréquentation des pages, il est possible de déterminer si les pages contenant plus d'images sont plus visitées que les pages contenant plus de texte.

Web Structure Mining

Il s'agit d'une analyse de la structure du Web i.e. de l'architecture et des liens qui existent entre les différents sites. L'analyse des chemins parcourus permet, par exemple, de déterminer combien de pages consultent les internautes en moyenne et ainsi d'adapter l'arborescence du site pour que les pages les plus recherchées soient dans les premières pages du site. De même, la recherche des associations entre les pages consultées permet d'améliorer l'ergonomie du site par création de nouveaux liens.

Web Usage Mining

Cette dernière branche du Web Mining consiste à analyser le comportement de l'utilisateur à travers sa navigation, notamment l'ensemble des clics effectués sur le site (on parle d'analyse du clickstream). Cette approche permet de mesurer l'audience et la performance d'un site Web (combien de temps passé par page, combien de visites, à quel moment, qui est l'utilisateur, quelle est la fréquence de ses consultations,..). L'intérêt du WUM est d'enrichir les sources de données de l'entreprise (bases de données clients, bases marketing,...) par les données brutes du clickstream afin d'affiner les profils clients ainsi que les modèles comportementaux.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !" Charles de Gaulle