WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Application du processus de fouille de données d'usage du web sur les fichiers logs du site cubba

( Télécharger le fichier original )
par Nabila Merzoug et Hanane Bessa
Centre universitaire de Bordj Bou Arréridj Algérie - Ingénieur en informatique 2009
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 3

Techniques d'analyse de la fouille

d'usage du web

1. Introduction

Dans ce chapitre nous ne prétendons pas fournir une liste exhaustive de l'ensemble des notions et méthodes existant dans le cadre de l'analyse de la fouille d'usage de web. Il s'agit plutôt de donner un aperçu général sur la notion d'une méthode factorielle : l'analyse en composantes principales et deux autres de classification non supervisé à savoir la classification ascendante hiérarchique et la méthode de partitionnement k-means.

2. Les méthodes factorielles

Les méthodes factorielles permettent de réduire l'espace en fournissant des représentations graphiques, d'exploiter, de fouiller, de représenter de grands ensembles de données.

2.1. / TQa3\111Q1FomSINQAW SLIQFISIXIITS &3)

L'ACP est l'une des techniques des méthodes factorielles qui est utile pour la compression et la classification des données. Le problème consiste à réduire la dimensionnalité d'un ensemble des données (échantillon) en trouvant un nouvel ensemble de variables plus petit que l'ensemble original des variables, qui néanmoins contient la plupart de l'information de l'échantillon.

Etant donné un ensemble d'observations décrites par des variables exclusivement numériques {x1, x2 , ..., xp}, l'ACP a pour objectif de décrire ce même ensemble de données par de nouvelles variables en nombre réduit. Ces nouvelles variables seront des combinaisons linéaires des variables originales comme suit :

Ck == a1kx1 + a2k x2+ ... + apk xp, et porteront le nom de Composantes Principales (CP). 2.1.1. Propriétés des Composantes Principales

Nombre :

Bien que l'objectif soit en général de n'utiliser qu'un petit nombre de Composantes Principales, l'ACP en construit initialement p, autant que de variables originales. Ce n'est que par la suite que l'analyste décidera du nombre de Composantes à retenir. "Retenir k Composantes Principales" veut dire "Remplacer les observations originales par leur projections orthogonales dans le sous-espace à k dimensions défini par les k premières Composantes Principales".

1' Orthogonalité :

Les Composantes Principales définissent des directions de l'espace des observations qui sont deux à deux orthogonales. Autrement dit, l'ACP procède à un changement de repère orthogonal, les directions originales étant remplacées par les Composantes Principales.

1' Décorrélation :

Les Composantes Principales sont des variables qui s'avèrent être deux à deux décorrélées.

1' Ordre et sous-espaces optimaux :

La propriété fondamentale des Composantes Principales est de pouvoir être classée par ordre décroissant d'importance dans le sens suivant : Si l'analyste décide de décrire ses données avec seulement k (k < p) combinaisons linéaires de ses variables originales tout en perdant le moins possible d'information, alors ces k combinaisons linéaires sont justement les k premières Composantes Principales.

2.1.2. Calcul matriciel

a. Matrice des covariances

+ La covariance

La covariance de deux variables v1 et v2 est un indicateur de la variation simultanée. La covariance est positive quand v2 croît chaque fois que v1 croit. Elle est négative quand v2 décroît chaque fois que v1 croit. Elle est nulle si v1 et v2 sont indépendants.

Covariance et corrélation sont de même signe, la covariance est fonction du coefficient de corrélation :

Cov (v1, v2) = écart-type (v1) * écart-type (v2) * corrélation (v1, v2)

+ Choix de la matrice des covariances

Si on a des données homogènes avec des ordres de grandeurs identiques (typiquement dans le cas de données physiques), alors on a une métrique euclidienne et on travaille avec une matrice des covariances.

A chaque couple de variables (v1, v2), la valeur de la case de la matrice est celle de la covariance du couple (v1, v2).

b. Matrice des corrélations

+ La corrélation

A chaque couple de variables (v1, v2), la valeur de la case de la matrice est celle du coefficient de corrélation entre v1 et v2.

+ Choix de la matrice des corrélations

Si on a des données hétérogènes avec des ordres de grandeurs différents (typiquement dans le cas de données économétriques), alors on a une métrique « inverse des variances » et on travaille avec une matrice des corrélations.

Corrélation (v1, v2) = cov (v1, v2) / (écart-type (v1) * écart-type (v2))

2.1.3. Les composantes principales à garder

Il y a 3 critères empiriques pour savoir combien de composantes principales garder :

V' Le critère de Kaiser :

Si on a utilisé une matrice des corrélations (cas le plus courant), on ne garde que les composantes principales dont la valeur propre est > 1. Ce n'est pas un critère absolu.

V' Valeur du pourcentage :

La valeur propre est aussi donnée en pourcentage. On peut garder les pourcentages significatifs. En regardant la courbe des pourcentages cumulé, on peut faire apparaître un moment de flexion significatif qui montre qu'à partir de là, il y a peu d'information restituée.

V' Valeurs des coefficients de corrélation avec les variables d'origine :

On peut aussi ne garder que les composantes principales qui ont un coefficient de corrélation élevé avec au moins une variable d'origine

2.1.4. Le cercle de corrélation

a. Présentation

On peut calculer le coefficient de corrélation de chaque variable d'origine avec toutes les composantes principales. Le coefficient de corrélation est une valeur comprise entre --1 et1.Le cercle des corrélations ou bien l'espace des variables est le plan dont les axes sont constitués par des composantes principales (la première et la deuxième prioritairement). Chaque variable d'origine a des coordonnées dans ce plan.

La projection des variables dans ce plan (nuage de points) permet visuellement de : + Détecter les variables d'origine liées entre elles.

+ Interpréter chaque composante principale d'après ses corrélations avec les variables d'origine.

b. Interpretation

+ Des projections proches entre elles et proches du cercle des corrélations correspondent à des variables corrélées.

+ Des projections proches de l'horizontale montrent une corrélation avec la composante principale horizontale.

+ Des projections proches de la verticale montrent une corrélation avec la composante principale verticale.

3. La classification non supervisé

La classification non supervisé (classification automatique, regroupement ou clustring, en anglais) a pour but de regrouper des individus en classes homogènes en fonction de l'analyse des caractéristiques qui décrivent les individus. Par classes homogènes, on entend regrouper les individus qui se ressemblent et séparer ceux qui sont dissemblables.

L'expression non supervisée fait référence au fait qu'aucun superviseur ou label est utilisé pour préciser à quelle classe appartient un individu. En conséquence, le nombre de classes existant dans un ensemble d'individus est a priori inconnu. De ce fait, l'un des problèmes les plus délicats à propos des méthodes de classification non supervisée concerne le choix du nombre de classes à retenir. Pour palier cet écueil, il existe des artifices permettant d'approcher le bon nombre de classes. Dans ce mémoire, nous nous intéressons particulièrement à deux grandes familles de méthodes de classification non supervisée : les méthodes hiérarchiques et les méthodes de partitionnement.

3.1. Notion de similarité

Il s'agit de définir des groupes d'objets tels que la similarité entre objets d'un méme groupe soit maximale et que la similarité entre objets de groupes différents soit minimale.

La question est alors de définir cette similarité. Pratiquement, la similarité entre objets est estimée par une fonction calculant la distance entre ces objets.

Ainsi deux objets proches selon cette distance seront considérés comme similaires, et au contraire, deux objets séparés par une large distance seront considérés comme différents.

Le choix de cette mesure de distance entre objets est alors très important.

Très souvent il s'agit d'un choix arbitraire qui traite tous les attributs de la méme manière [24].

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Ceux qui vivent sont ceux qui luttent"   Victor Hugo