WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Impact de la structure de treillis dans le domaine de fouille de données et la représentation des connaissances.

( Télécharger le fichier original )
par Pascal Sungu Ngoy
Université de Lubumbashi - Diplôme de licence en sciences mathématiques et informatique 2014
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

5.3 Application des règles d'associations aux textes

Les règles d'associations ont été appliquées dans plusieurs domaines particuliè-rements dans ceux traitant des données textuelles. Cette section s'inscrit dans cette même démarche.

En effet la fouille des textes, comme nous l'avons souligné à la section 4.1.2, est un ensemble de processus permettant, à partir d'un ensemble de ressources textuelles, de construire des connaissances pouvant être représentées dans un langage formel de représentation des connaissances et exploitées pour raisonner sur le contenu des textes. Ainsi elle donne une vue synthétique du contenu d'une collection d'un ou plu-sieur milliers de textes, exhibe des relations entre les differentes notions impliquées dans un texte ou des relations entre les textes.[11][29]

L'objectif de cette fouille est de retrouver, à travers la collection des textes, des relations connues dans le domaine, de pouvoir les localiser rapidement dans les documents, d'observer des familles de documents contruites à partir d'une ou plusieurs de ces relations. Elle permet également de découvrir des relations non encore connues.

C'est ainsi que, nous recherchons l'expression de ces relations par le biais des règles d'associations extraites à partir des textes.

5.3.1 Description du problème

Le processus de fouille de textes est fondé sur l'utilisation de méthodes symboliques. Elles sont basée sur l'extraction de règles d'association ainsi que l'Analyse Formelle de Concepts et se subdivise en 2 étapes :[11]

1. L'extraction de règles d'association;

2. Le classement des règles suivant des indices statistiques;

L'extraction de règles d'association se fait à l'aide de l'Analyse Formelle de Concepts par la construction des motifs fréquents générés par l'algorithme A-priori(section 4.3.2). Les motifs ainsi obtenus permettent le calcul des règles d'association. Les indices statistiques sont, quant à eux, des mesures de pondération affectés aux règles. Ces indices donnent un poids à chaque règle et permettent alors de les classer.

3.1.1 Règle d'association

Les règles d'associations sont utilisées en fouille de données afin de trouver des correlations dans des bases de données relationnelles.Elles ont été appliquées, par la suite, à la fouille de textes.

Définition 1 (Règle d'association)

Une règle d'association est du type [29] :

R : t1 ? t2 = t3 ? t4 ? t5 où t1,t2,...,tn sont des termes (5.1)

64

Elle est constituée d'une conjoction de termes en partie gauche(qu'on nomme B) impliquant une conjoction de termes en partie droite(nommée H). La règle sera donc notée par :

R : B = H

L'interprétation de la règle donnée en (5.1) est que : si les documents possèdent les termes {t1, t2} alors ils possèdent également les termes {t3, t4, t5}. Deux indices ont été ainsi associés aux règles d'association à savoir : Le support et la confiance de la règle.

Définition 2 (Support)

Le support d'une règle d'association représente le nombre de documents qui sont décrits par les termes présents en partie gauche et droite de la règle [29].

sup[B = H] = nombre de documents verifiant {t1, t2, t3, t4, t5} (5.2)

C'est la probabilité d'apparition de l'ensemble des documents correspondant à B?H soit :

support[B = H]

P(B, H) = E [0, 1] (5.3)
nombre total de documents du corpus

Définition 3 (Confiance)

La confiance d'une règle est donnée par :

nombre de documents verifiant {t1, t2, t3, t4, t5}

conf[B = H] = (5.4)
nombre de documents verifiant {t1, t2}

En termes probabilistes la confiance mesure la probabilité conditionnelle de H sachant B [1] :

sup[B = H]

P(H|B) = (5.5)
nombre de documents verifiant {t1, t2}

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance."   Sacha Guitry