Consulter les autres mémoires Publier un mémoire Une page au hasard

Extraction des bases génériques informatives de règles sans calcul de fermetures

par Tarek Hamrouni
Faculté des Sciences de Tunis, Université Tunis El Manar (Tunisie)
Traductions: Original: fr Source:

précédent sommaire suivant

4.6.2 Bases !!pire des cas!!

Pour toutes ces experimentation, la valeur de minsup est fixee a 1. Nous avons teste 26 bases "pire des cas" representant la variation de la valeur de n de 1 a 26. Etant donne que ces bases representent le pire des cas, tout itemset candidat est un generateur minimal

Temps d'execution (en seconde)

T40I10D100K

262144

65536

16384

4096

1024

256

Prince

Close A-Close Titanic

T10I4D100K

Prince Close A-Close Titanic

2048

1024

512

256

128

0.55 0.45 0.35 0.25

0.15 0.05 9.5 8.5 7.5 6.5 5.5 4.5 3.5 2.5 1.5

m insup (en %)

0.5

m insup (en %)

Temps d'execution (en seconde)

262144

65536

16384

4096

1024

256

0.1

0.08

0.06

Retail

Prince Close A-Close Titanic

0.04

0.02

Temps d'execution (en seconde)

262144

65536

16384

4096

1024

256

Accidents

Prince

Close A-Close Titanic

m insup (en %) m insup (en %)

FIG . 4.12 -- Les performances de PRINCE vs. CLOSE, A-CLOSE et TITANIC pour les bases éparses

fréquent et est égal a sa fermeture.

Les temps d'exécution des quatre algorithmes ne commencent a être distinguables qu'à partir d'une valeur de n égale a 15. Pour les bases "pire des cas", les performances de PRINCE restent meilleures que celles de CLOSE, A-CLOSE et TITANIC. Chaque générateur minimal fréquent est aussi un fermé. Ainsi, PRINCE n'exécute pas sa deuxieme étape, le treillis des générateurs minimaux étant construit des la fin de sa premiere étape. De son coté, A-CLOSE ne calcule pas les fermetures. D'oft, ses performances sont meilleures que celles de CLOSE et celles de TITANIC. Notons que dans ce type de bases, chaque candidat est un générateur minimal fréquent. Ainsi, pour chaque itemset g de taille k (qui est un générateur minimal fréquent), A-CLOSE et TITANIC effectuent un balayage des sous-ensembles de g de taille (k-1). Dans le cas de A-CLOSE, ce balayage permet de vérifier que le candidat g a un support différent de celui de ces sous-ensembles en question pour le qualifier de générateur minimal fréquent. Dans le cas de TITANIC, ce balayage permet d'optimiser le calcul de la fermeture de g en collectant les items appartenant aux fermetures des sous-ensembles en question. De plus, TITANIC essaie l'étendre l'itemset résultat de ce balayage par les items adéquats. De son coté, CLOSE est aussi contraint a calculer la fermeture de tout itemset fréquent, ce dernier étant un générateur minimal

frequent. Il est important de noter que les calculs de fermetures effectues par CLOSE et TITANIC s'avereront sans utilite car tout generateur minimal est egal a sa fermeture. L'execution de ces deux algorithmes n'ont pu se terminer pour une valeur de n egale a 24, en raison du manque d'espace memoire. Pour la meme raison, l'execution de A-CLOSE n'a pu se terminer pour une valeur de n egale a 25. L'execution de notre algorithme prend aussi fin, pour n26. La figure 4.13 et le tableau 4.9 donnent le comportement des algorithmes suivant la variation de la valeur de n. Dans le tableau 4.9, les trois dernieres colonnes indiquent le facteur multiplicatif des temps d'execution de CLOSE, A-CLOSE et TITANIC par rapport a l'algorithme PRINCE. "/" signifie que l'execution n'a pas pu arriver a terme et que le ratio correspondant ne peut etre calcule.

Ce test de mise a l'echelle montre aussi l'interêt de l'utilisation d'un seul trie pour stocker les informations relatives a tous les generateurs minimaux (cas de PRINCE) comparee a l'utilisation de plusieurs tries dans le cas des trois autres algorithmes. En effet, pour CLOSE, A-CLOSE et TITANIC, un trie est utilise pour stocker les informations relatives a chaque ensemble de generateurs minimaux d'une taille k donnee. Ceci rend eleve le nombre d'informations redondantes stockees dans ces tries et augmente ainsi l'espace memoire necessaire.

L'algorithme PRINCE reste meilleur que les algorithmes CLOSE, A-CLOSE et TITANIC sur les bases "pire des cas". La difference entre les performances de PRINCE et celles de CLOSE (resp. A-CLOSE et TITANIC) est maximale pour n21 (resp. 19 et 23). En effet, pour ces valeurs de n, PRINCE est environ 29 (resp. 4 et 10) fois plus rapide que CLOSE (resp. A-CLOSE et TITANIC). Pour ces bases "pire des cas", PRINCE est en moyenne 16 (resp. 3 et 4) fois plus rapide que CLOSE (resp. A-CLOSE et TITANIC).

Temps d'execution (en seconde)

65536

16384

4096

1024

256

Prince

Close A-Close Titanic

15 16 17 18 19 20 21 22 23 24 25

précédent sommaire suivant

® Memoire Online 2007 - Pour tout problème de consultation ou si vous voulez publier un mémoire: webmaster@memoireonline.com