Rechercher sur le site:
 
Web Memoire Online
Consulter les autres mémoires    Publier un mémoire    Une page au hasard

Extraction des bases génériques informatives de règles sans calcul de fermetures


par Tarek Hamrouni
Faculté des Sciences de Tunis, Université Tunis El Manar (Tunisie)
Traductions: Original: fr Source:

précédent sommaire suivant

1.2 Derivation des regles d'association

1.2.1 Base de transactions

Une base de transactions peut etre formellement representee sous la forme d'un triplet K = (O,I,R) dans lequel O et I sont, respectivement, des ensembles finis d'objets (les transactions) et d'attributs (les items) et R ? O × I est une relation binaire entre les transactions et les items. Un couple (o,i) ? R denote le fait que la transaction o ? O contient l'item i ? I.

Une transaction T, avec un identificateur appele TID (Tuple IDentifier), contient un ensemble, non vide, d'items de I. Un sous-ensemble X de I ou k = |X| est appele un k-itemset ou simplement un itemset, et k represente la longueur de X. Le nombre de transactions de K contenant un itemset X, |{T ? K | X ? T }|, est appele support absolu de X. Le support relatif de X est le quotient de son support absolu par le nombre

1IX.

total de transactions de K, cad Supp(X) {TEK

= Un itemset X est dit frequent

|O| cni

si son support relatif est superieur ou egal a un seuil minimum minsup(1) specifie par l'utilisateur.

1.2.2 Regles d'association

La formalisation du probleme d'extraction des regles d'association a ete introduite par Agrawal et al. en 1993 [1]. Une regle d'association r est une relation entre itemsets de la forme r : X (Y-X), dans laquelle X et Y sont des itemsets frequents, tel que X ? Y . Les itemsets X et (Y -X) sont appeles, respectivement, premisse et conclusion de la regle r. La generation des regles d'association est realisee a partir d'un ensemble F d'itemsets frequents dans un contexte d'extraction K, pour un seuil minimal de support minsup. Les regles d'association valides sont celles dont la mesure de confiance, Conf(r) = SSuuppp*(Y X , est superieure ou egale a un seuil minimal de confiance, defini par l'utilisateur et qui sera note dans la suite minconf. Si Conf(r) = 1 alors r est appelee regle d'association exacte, sinon elle est appelee regle d'association approximative [50].

Ainsi, chaque regle d'association, X (Y -X), est caracterisee par :

1. Le niveau de support : il correspond au nombre de fois oft l'association est presente, rapporte au nombre de transactions comportant l'ensemble des items de Y.

Le niveau de support permet de mesurer la frequence de l'association [42].

2. Le niveau de confiance : il correspond au nombre de fois oft l'association est presente, rapporte au nombre de presences de X. Le niveau de confiance permet de mesurer la force de l'association [42].

Ainsi, etant donne un contexte d'extraction /C, le probleme de l'extraction des regles d'association dans 1C consiste a determiner l'ensemble des regles d'association dont le support et la confiance sont au moins egaux respectivement a minsup et minconf. Ce probleme peut etre decompose en deux sous-problemes comme suit [1] :

1. Determiner l'ensemble des itemsets frequents dans /C, cad les itemsets dont le support est superieur ou egal a minsup.

2. Pour chaque itemset frequent Ii, generer toutes les regles d'association de la forme r : I, = I, tel que I, C I, et dont la confiance est superieure ou egale a minconf.

Ces deux problemes sont resolus par un algorithme fondamental dans la fouille de donnees, a savoir APRIORI [2]. Le premier sous-probleme a une complexite exponentielle en fonction du nombre d'itemsets. En effet, etant donne un ensemble d'items de taille n, le nombre d'itemsets frequents potentiels est egal a 2'. Le deuxieme sous-probleme est exponentiel en la taille des itemsets frequents. En effet, pour un itemset frequent I, le nombre de regles d'association non triviales qui peuvent etre generees est 2|I| - 1. Toutefois, la generation des regles d'association a partir des itemsets frequents ne necessite aucun balayage de la base de donnees et les temps de calcul de cette generation sont faibles compares aux temps necessaires pour la decouverte des itemsets frequents [47]. Neanmoins, le probleme de la pertinence et de l'utilite des regles extraites est d'une premiere importance etant donne que dans la plupart des bases de transactions reelles, des milliers et meme des millions de regles d'association sont generees [56, 67]. Or, il a ete constate que dans la pratique, plusieurs regles etaient redondantes [10].

Afin de resoudre ces deux problemes, cad les temps d'extraction des itemsets fréquents ainsi que la redondance au niveau des règles d'association valides, Pasquier et al. [48] ont propose, en 1998, une approche qui consiste a extraire les itemsets fermés frequents au lieu des itemsets frequents. Cette approche est basee sur le fait que l'ensemble des itemsets fermes frequents est un ensemble generateur de l'ensemble des itemsets frequents [47]. L'approche par extraction des itemsets fermes frequents repose sur les fondements mathematiques de l'analyse formelle de concepts [66]. La section suivante est consacree a la presentation de ces fondements.

précédent sommaire suivant








® Memoire Online 2007 - Pour tout problème de consultation ou si vous voulez publier un mémoire: webmaster@memoireonline.com