Rechercher sur le site:
 
Web Memoire Online
Consulter les autres mémoires    Publier un mémoire    Une page au hasard

Extraction des bases génériques informatives de règles sans calcul de fermetures


par Tarek Hamrouni
Faculté des Sciences de Tunis, Université Tunis El Manar (Tunisie)
Traductions: Original: fr Source:

précédent sommaire suivant

4.5 Comparaisons des coilts des &tapes de PRINCE

Dans cette section, nous allons comparer les temps d'exécution des étapes constituant l'algorithme PRINCE. Rappelons que l'algorithme PRINCE est constitué de trois étapes, a savoir :

1. Détermination des générateurs minimaux (cf. la procédure GEN-GMS page 43) ;

2. Construction du treillis des générateurs minimaux (cf. la procedure GEN-ORDRE page 50) ;

3. Extraction des bases generiques informatives de regles (cf. la procedure GEN-BGRS page 53).

4.5.1 Bases benchmark

Dans toutes les figures qui vont suivre, et pour l'algorithme PRINCE, nous utilisons une valeur de minconf egale a 0 (cad que nous avons considere, pour une valeur de minsup fixee, le pire des cas par rapport au nombre de regles generees). Les comparaisons des etapes constituant PRINCE seront divisees en deux parties :

G Comparaisons sur des bases denses ;

G Comparaisons sur des bases eparses.

4.5.1.1 Comparaisons sur les bases denses

Les temps d'execution des differentes etapes de l'algorithme PRINCE sur les bases denses sont presentes par la figure 4.8 et le tableau 4.4.

- PUMSB et CONNECT : ces deux bases sont caracterisees par un nombre ainsi qu'une taille moyenne des transactions relativement eleves. Ces caracteristiques influent enormement sur la repartition du temps d'execution total de l'algorithme PRINCE par rapport aux trois etapes le constituant. Ainsi, la premiere etape, cad la determination des generateurs minimaux, est l'etape la plus coUteuse pour ces deux bases. La deuxieme et troisieme etape n'ont pas une influence significative sur les temps d'execution de PRINCE. En effet, pour la base PUMSB (resp. CONNECT), les temps d'execution de ces deux etapes ne depassent pas 1,28% (resp. 3,01%) du temps d'execution total de l'algorithme PRINCE.

- CHESS : cette base est caracterisee par un nombre reduit de transactions. Cependant, la taille moyenne des transactions est elevee, ce qui influe sur les temps d'execution de la premiere etape. D'autant plus, CHESS permet d'extraire un nombre eleve de generateurs minimaux frequents atteignant 719 886 pour minsup 45%. Ce nombre maintient la premiere etape comme etant la plus cofiteuse. Le temps d'execution relatif a la construction du treillis des générateurs minimaux est lui aussi influence par le nombre de generateurs minimaux frequents extraits lors de la premiere etape. La troisieme etape, cad l'extraction des bases generiques de regles, est la moins cofiteuse. En effet, le temps d'execution de cette etape ne depasse pas 2,06% du temps d'execution total de l'algorithme PRINCE.

- MUSHROOM : cette base est caracterisee par un nombre reduit de transactions ainsi qu'une taille moyenne reduite des transactions. Ainsi, la premiere etape ne pese pas lourd sur les performances de l'algorithme PRINCE. Cependant, le nombre de generateurs minimaux frequents, atteignant 360 166 pour minsup:0,1, extraits lors de cette premiere etape influe sur le temps d'execution de la deuxieme etape. Ainsi, cette derniere est la plus coUteuse. Il faut noter que comme pour les trois premieres bases, la troisieme etape n'a pas une influence significative sur les temps d'execution de l'algorithme PRINCE. Son temps d'execution ne depasse pas 10% du temps d'execution total.

Ces comparaisons confirment que, etant le treillis des générateurs minimaux construit, l'extraction des bases generiques de regles devient immediate et n'a pas d'influence notable sur les performances de l'algorithme PRINCE.

Temps d'execution (en seconde)

4096

1024

256

64

16

4

1

95

90

Pumsb

85

étape 1
étape 2
étape 3

80

75

Temps d'execution (en seconde)

1024

256

512

128

64

32

16

4

2

8

1

90

80

Connect

70

étape 1
étape 2
étape 3

60

50

Minsup (en %)

Temps d'execution (en seconde)

256

128

64

32

16

4

2

8

1

90

80

70

Chess

60

étape 1
étape 2
étape 3

50

40

Minsup (en %) Minsup (en %)

Temps d'execution (en seconde)

64

32

16

4

2

8

1

20

18

16

14

Mushroom

12

10

étape 1
étape 2
étape 3

8

6

4

2

0

Minsup (en %)

FIG . 4.8 -- Temps d'execution des etapes constituant PRINCE pour les bases denses

4.5.2.1 Comparaisons sur les bases eparses

Les temps d'execution des differentes etapes de l'algorithme PRINCE sur les bases eparses sont presentes par la figure 4.9 et le tableau 4.5.

Base

minsup

Temps d,exécution total

1i`ere étape

2i`eme étape

3i`eme étape

PUMSB

95,00%

3

3

0

0

 

90,00%

7

7

0

0

 

85,00%

27

27

0

0

 

80,00%

416

413

2

1

 

75,00%

1 641

1 620

19

2

CONNECT

90,00%

8

8

0

0

 

80,00%

25

24

1

0

 

70,00%

66

63

3

0

 

60,00%

332

322

9

1

 

50,00%

847

822

22

3

CHESS

90,00%

1

1

0

0

 

80,00%

1

1

0

0

 

70,00%

3

2

1

0

 

60,00%

39

29

9

1

 

50,00%

197

124

69

4

 

45,00%

435

230

196

9

MUSHROOM

20,00%

1

1

0

0

 

10,00%

1

1

0

0

 

5,00%

3

2

1

0

 

3,00%

4

2

2

0

 

2,00%

7

3

3

1

 

1,00%

13

5

7

1

 

0,80%

17

6

10

1

 

0,30%

33

9

22

2

 

0,20%

40

10

26

4

 

0,10%

50

11

35

4

transactions reduite (10 items). Pour des valeurs de minsup superieures ou egales a 0,5%, chaque generateur minimal frequent est aussi un ferme. L'algorithme PRINCE n'execute donc pas sa deuxieme etape. Cependant, ce n'est plus le cas pour des supports inferieurs A 0,5%. Le temps d'execution de la deuxieme etape croit alors proportionnellement au nombre de generateurs minimaux extraits lors de la premiere etape. Il est important de noter que la construction de l'ordre partiel est influence par l'augmentation de la taille de la bordure negative des generateurs minimaux GBd-. En effet, dans le cas des bases eparses, le treillis des itemsets frequents tend a se confondre avec le treillis des generateurs minimaux. Ainsi, la quasi-totalite des itemsets sont des generateurs minimaux. Grace a la metrique statistique minsup, ces itemsets sont consideres generalement comme infrequents. Cette augmentation dans la taille de la bordure negative GBd- induit une augmentation dans l'espace de recherche des supports adequats lors de la construction de l'ordre partiel. La troisieme etape presente un temps d'execution negligeable etant donne que le nombre de generateurs minimaux frequents extraits reste reduit meme pour des valeurs tres basses de minsup. Pour minsup=0,02, le nombre de generateurs minimaux frequents est egal a 109 940.

- T4 O!1 OD1 OOK : cette base est caracterisee par un nombre eleve de transactions ainsi qu'une taille moyenne des transactions elevee (40 items). Ainsi, la premiere etape s'avere la plus cofiteuse. Pour des valeurs de minsup superieures ou egales a 1,5%, chaque generateur minimal frequent est aussi un ferme et la deuxieme etape n'est pas executee. Pour des valeurs de minsup inferieures a 1,5%, chaque generateur minimal frequent n'est plus un ferme. De plus, le nombre de candidats generateurs minimaux augmente considerablement en passant de minsup=1,5% a minsup=0,5%. En effet, pour minsup=1,5%, le nombre de candidats generateurs minimaux est egal a 276 886 alors qu'il est egal a 3 452 429 pour minsup=0,5%. Ceci explique le saut dans les temps d'execution de PRINCE entre ces deux valeurs de minsup. La troisieme etape reste la moins cofiteuse. Son cofit ne depasse pas 2,74% du temps d'execution total.

- RETAIL : comme c'est le cas pour la base T10I4D100K, la base RETAIL est caracterisee par un nombre eleve de transactions et par une taille moyenne reduite des transactions. La premiere etape est la plus coUteuse comparee a la deuxieme et a la troisieme etape. La deuxieme etape est penalisee par l'augmentation de la taille de la bordure negative des generateurs minimaux GBd-. En effet, RETAIL est caracterisee par un nombre eleve d'items et dont la quasi-totalite sont qualifies de frequents avec les valeurs de minsup utilisees dans nos tests (pour minsup=0,01%, 9 300 1-itemsets, parmi 16 470, sont frequents).

Ce nombre d'items fréquents entraine la génération d'un nombre élevé de candidats et dont la plupart sont infréquents. Ceci explique l'augmentation du temps d'exécution de la deuxième étape en passant de minsup=0,02% a minsup=0,01%. La troisième étape reste la moins cofiteuse et son temps d'exécution est négligeable comparativement aux deux premières étapes.

Il est intéressant de noter que pour une même valeur de minsup égale a 0,5%, le temps d'exécution ainsi que le nombre de générateurs minimaux fréquents extraits des bases T10I4D100K et RETAIL sont comparables. En effet, le temps d'exécution total est presque égal au temps d'exécution de la première étape. De plus, le nombre de générateurs minimaux fréquents extraits de T10I4D100K (resp. RETAIL) est égal a 1 074 (resp. 582) pour une taille maximale d'un générateur minimal fréquent égal a 6 (resp. 5) items. Ces résultats peuvent être expliqués par un nombre de transactions relativement proche pour ces deux bases, ainsi qu'une même taille moyenne des transactions. Cependant, en comparant les résultats de ces deux bases a ceux de la base T40I10D100K pour la même valeur de minsup (cad 0,5%), nous (cad 0,5%), nous notons une différence significative. En effet, le nombre de générateurs minimaux fréquents extraits de la base T40I10D100K pour cette valeur de minsup est égal a 1 276 055. Ceci représente presque 1 188 (resp. 2 193) fois le nombre de générateurs minimaux fréquents généré dans T10I4D100K (resp. RETAIL). De même la taille maximale d'un générateur minimal fréquent atteint 18 items. Ainsi, bien que les trois bases T10I4D100K, T40I10D100K et RETAIL ont pratiquement le même nombre de transactions, leurs tailles moyenne des transactions expliquent la différence dans le nombre de générateurs minimaux extraits. En effet, la taille moyenne des transactions dans le cas de T40I10D100K, égale a 40 items, est quatre fois plus élevée que celles des deux autres bases, égales a 10 items.

- ACCIDENTS : cette base est caractérisée par un nombre très élevé de transactions avec une taille moyenne importante. Ces caractéristiques ont pour conséquence le fait que le temps d'exécution de la première étape domine le temps d'exécution total de l'algorithme PRINCE. Il faut noter que pour des valeurs de minsup supérieures ou égales a 40%, chaque générateur minimal fréquent est aussi un fermé et PRINCE n'a pas a exécuter sa deuxième étape. Comme pour toutes les bases benchmark testées, la troisième étape, cad l'extraction des bases génériques informatives de règles, est la moins conteuse parmi les trois étapes constituant l'algorithme PRINCE.

Base

minsup

Temps d,exécution total

1i`ere étape

2i`eme étape

3i`eme étape

T10I4D100K

0,50%

3

3

0

0

 

0,20%

4

4

0

0

 

0,10%

8

7

1

0

 

0,08%

10

9

1

0

 

0,05%

20

16

4

0

 

0,03%

50

35

15

0

 

0,02%

105

58

47

0

T40I10D100K

10,00%

3

3

0

0

 

5,00%

3

3

0

0

 

2,50%

5

5

0

0

 

1,50%

19

18

0

1

 

0,50%

582

480

86

16

RETAIL

0,5%

11

11

0

0

 

0,10%

18

17

1

0

 

0,08%

25

23

2

0

 

0,06%

50

47

3

0

 

0,04%

125

117

8

0

 

0,02%

626

579

47

0

 

0,01%

2 699

2 248

449

2

ACCIDENTS

90,00%

10

9

0

1

 

70,00%

16

15

0

1

 

50,00%

69

68

0

1

 

40,00%

219

217

0

2

 

30,00%

3 482

3 438

39

5

TAB . 4.5 -- Tableau comparatif des étapes constituant PRINCE pour les bases éparses.

0.55

0.45

0.35

0.25

Minsup (en %)

T40I10D100K

512

étape 1
étape 2
étape 3

64

32

16

8

4

2

1

0.15 0.05 9.5 8.5 7.5 6.5 5.5 4.5 3.5 2.5 1.5 0.5

Minsup (en %)

Temps d'execution (en seconde)

Temps d'execution (en seconde)

T10I4D100K

étape 1
étape 2
étape 3

64

32

16

8

4

2

1

256

128

Temps d'execution (en seconde)

4096

1024

256

64

16

4

1

0.1

0.08

0.06

Retail

étape 1
étape 2
étape 3

0.04

0.02

0

Minsup (en %)

Temps d'execution (en seconde)

4096

1024

256

64

16

4

1

90

80

70

Accidents

60

étape 1
étape 2
étape 3

50

40

30

Minsup (en %)

FIG . 4.9 -- Temps d'exécution des étapes constituant PRINCE pour les bases éparses

4.5.2 Bases "pire des cas"

Lors de ces expérimentations, nous avons utilisé une valeur de minconf égale a 0. Pour toutes ces expérimentation, la valeur de minsup est fixée a 1. Nous avons testé 26 bases "pire des cas" représentant la variation de la valeur de n de 1 a 26.

Etant donné que ces bases représentent le pire des cas, tout itemset candidat est un générateur minimal fréquent et est égal a sa fermeture. Ainsi, l'algorithme PRINCE n'exécute pas sa deuxième étape, cad celle relative a la construction du treillis des générateurs minimaux. La première étape est la plus cofiteuse étant donné le nombre, égal a 2', de candidats générés a partir de chaque base "pire des cas". La troisième étape est moins cofiteuse que la première étape. Cependant, a partir d'une valeur de n supérieure ou égale A 24, les temps d'exécution de cette étape commencent a prendre de l'importance. Ceci peut être expliqué par le fait que les accès, aux informations nécessaires a l'exécution de cette étape, s'exécutent dans l'espace d'échange et non plus en mémoire centrale. Ainsi, ces accès deviennent de moins en moins rapides. En effet, l'exécution des bases "pire des cas" est exigeante en espace mémoire et sature rapidement la mémoire centrale bien que nous minimisons la redondance en utilisant un seul trie au lieu de plusieurs. Ceci explique l'arrêt de l'exécution de l'algorithme pour n=26. Les temps d'exécution des différentes

Temps d'execution (en seconde)

16384

4096

1024

256

64

16

4

1

étape 1
étape 2
étape 3

15 16 17 18 19 20 21 22 23 24 25

n

FIG . 4.10 -- Temps d'exécution des étapes constituant PRINCE pour les bases "pire des cas"

étapes de l'algorithme PRINCE sur les bases "pire des cas" sont présentés par la figure 4.10 et le tableau 4.6. Dans ce dernier, "/" signifie que l'exécution n'a pas pu arriver a terme.

4.6 Performances de PRINCE vs. CLOSE, A-CLOSE et TITANIC

Dans cette section, nous allons comparer les performances de notre algorithme PRINCE a respectivement celles des algorithmes CLOSE, A-CLOSE et TITANIC.

4.6.1 Bases benchmark

Les expérimentations seront divisées en deux parties : G Expérimentations sur des bases denses ;

Expérimentations sur des bases éparses.

4.6.1.1 Experimentations sur les bases denses

Les temps d'exécution de l'algorithme PRINCE comparés respectivement aux algorithmes CLOSE, A-CLOSE et TITANIC sur les bases denses sont présentés par la figure 4.11 et le tableau 4.7. Dans ce dernier, les trois dernières colonnes indiquent le facteur multiplicatif des temps d'exécution de CLOSE, A-CLOSE et TITANIC par rapport a l'algorithme PRINCE. "/" signifie que l'exécution n'a pas pu arriver a terme et que le ratio correspondant ne peut être calculé.

n

Temps d,exécution total

1i`ere étape

2i`eme étape

3i`eme étape

15

1

1

0

0

16

1

1

0

0

17

1

1

0

0

18

2

2

0

0

19

4

3

0

1

20

10

8

0

2

21

23

18

0

5

22

96

84

0

12

23

429

403

0

26

24

1 525

1 259

0

266

25

16 791

13 634

0

3 157

26

/

/

/

/

TAB . 4.6 -- Tableau comparatif des étapes constituant PRINCE pour les bases 11pire des cas11.

- PUMSB : pour cette base, les performances de PRINCE sont meilleures que celles de CLOSE, A-CLOSE et TITANIC pour toutes les valeurs de minsup. Les performances de CLOSE et A-CLOSE se dégradent considérablement étant donné qu'ils effectuent des intersections sur un grand nombre de transactions de taille élevée. Le mécanisme de comptage par inférence adopté par TITANIC s'avère plus efficace que le calcul des intersections adopté par CLOSE et A-CLOSE. Ceci peut être expliqué par le nombre réduit d'items fréquents a prendre en considération lors du calcul de la fermeture d'un générateur minimal fréquent. En effet, pour minsup = 75%, seulement 27 items parmi 7 117 possibles sont fréquents et la taille maximale d'un générateur minimal fréquent est égale a 12 items. Les performances de PRINCE peuvent être expliquées par le fait que les traitements = effectuer pour un générateur minimal fréquent sont beaucoup moins coUteux que ceux effectués pour les trois autres algorithmes. D'autant plus, les fonctions de gestion des classes d'équivalence permettent a PRINCE d'éviter un calcul redondant des fermetures tel que c'est le cas pour A-CLOSE, CLOSE et TITANIC. En effet, pour une valeur de minsup égale a 75%, le nombre de générateurs minimaux fréquents (égal a 248406) est presque égal = 2,46 fois le nombre d'itemsets fermés fréquents (égal a 101 083).

la base PUMSB, est caracterisee par un grand nombre de transactions de taille elevee. Ces caracteristiques compliquent la tache de CLOSE et A-CLOSE qui effectuent des operations coUteuses d'intersection. PRINCE et TITANIC evitent ces calculs coUteux avec un avantage pour PRINCE. En effet, PRINCE est avantage par un coUt reduit des comparaisons effectuees pour un generateur minimal frequent compare aux tentatives d'extension executees pour un generateur minimal frequent dans le cas de TITANIC. Il est a noter que pour une valeur de minsup = 50%, l'execution de TITANIC n'a pu se terminer pour manque d'espace memoire. Dans cette base, et malgre qu'il n'y a aucun calcul redondant des fermetures pour les trois algorithmes CLOSE, A-CLOSE et TITANIC (le nombre de generateurs minimaux frequents est egal a celui des itemsets fermes frequents), les performances de notre algorithme restent les meilleures.

Vu le nombre de transactions et la taille moyenne des transactions qui caracterisent les bases PUMSB et CONNECT, le calcul des supports des candidats constituent une operation coUteuse pour les algorithmes testes. Ainsi, la representation compacte de la base adoptee dans PRINCE et l'utilisation d'un fichier binaire dans le cas des trois autres algorithmes constituent des tentatives de reduction du coUt de cette operation.

- - CHESS : pour cette base, les performances de PRINCE sont largement meilleures que celles de CLOSE, A-CLOSE et TITANIC pour toutes les valeurs de minsup. Comme pour les deux premieres bases, notre algorithme est avantage par un coUt reduit des traitements a executer pour chaque generateur minimal frequent compare aux trois autres algorithmes. Le mecanisme de comptage par inference adopte par TITANIC s'avere plus efficace que le calcul des intersections adopte par les algorithmes CLOSE et A-CLOSE. Cependant, cette efficacite tend a diminuer avec la baisse de la valeur de minsup. En effet, pour calculer les itemsets fermes frequents, TITANIC essaie d'etendre tout generateur minimal frequent par les items frequents adequats. Ceci necessite des recherches de supports dont le nombre augmente avec l'augmentation du nombre d'items frequents, chaque fois que la valeur de minsup diminue.

- MUSHROOM : dans le cas de la base MUSHROOM, PRINCE est encore une fois meilleur que CLOSE, A-CLOSE et TITANIC. Pour cette base, l'etape de calcul du support ne pese pas lourd sur les performances des quatre algorithmes (vu le nombre reduit de transactions dans la base MUSHROOM ainsi que la taille moyenne reduite des transactions). Cependant, les operations relatives a la construction de l'ordre partiel dans le cas de PRINCE et au calcul des fermetures dans le cas des trois autres algorithmes sont les operations

les plus coUteuses. Les performances de notre algorithme restent meilleures etant donne l'importance du role joue par les fonctions de gestion des classes d'equivalence. En effet, pour une valeur de minsup egale a 0,1%, le nombre de generateurs minimaux frequents (egal a 360 166) est presque egal a 2,20 fois le nombre d'itemsets fermes frequents (egal a 164117). De meme, l'utilisation d'une liste prohibee au niveau de chaque classe d'equivalence permet de reduire considerablement le nombre de comparaisons et donc d'ameliorer les performances de notre algorithme. Ainsi, bien que CLOSE et A-CLOSE beneficient d'un nombre reduit de transactions ainsi qu'une taille moyenne des transactions relativement petite sur lesquelles ils executent des intersections, ces deux algorithmes sont handicapes par un calcul redondant des fermetures. De son cote, TITANIC fait mieux que CLOSE et A-CLOSE pour des supports compris entre 20% et 2% alors que la tendance est largement inversee en faveur de CLOSE et A-CLOSE pour des supports au dessous de 2%. Ceci peut etre explique par le fait que TITANIC effectue beaucoup de recherches des items adequats. Le nombre de ces recherches augmente considerablement, avec la baisse des valeurs de minsup, etant donne que le nombre d'items frequents devient eleve. En effet, pour minsup : 0,1%, 116 items sont frequents parmi 119 possibles et la taille maximale d'un generateur minimal frequent est egale a 10 items seulement.

L'algorithme PRINCE s'avere performant sur les bases denses et pour toutes les valeurs de minsup. La difference entre les performances de PRINCE et celles de CLOSE et A-CLOSE atteint son maximum pour la base PUMSB. En effet, PRINCE est environ 160 (resp. 403) fois plus rapide que CLOSE (resp. A-CLOSE) pour un support de 85%. De meme, PRINCE est environ 538 fois plus rapide que TITANIC pour la base MUSHROOM et pour un support egal a 0,01%. Pour ces bases denses, PRINCE est en moyenne 42 (resp. 89 et 41) fois plus rapide que CLOSE (resp. A-CLOSE et TITANIC).

4.6.1.2 Experimentations sur les bases eparses

Les temps d'execution de l'algorithme PRINCE compares respectivement aux algorithmes CLOSE, A-CLOSE et TITANIC sur les bases eparses sont presentes par la figure 4.12 et le tableau 4.8. Dans ce dernier, les trois dernieres colonnes indiquent le facteur multiplicatif des temps d'execution de CLOSE, A-CLOSE et TITANIC par rapport a l'algorithme PRINCE. "/" signifie que l'execution n'a pas pu arriver a terme et que le ratio correspondant ne peut etre calcule.

Base

rninsup

PRINCE
(en sec)

CLOSE (en sec)

A -CLOSE (en sec)

TITANIC (en sec)

i-

Ai,RCILN°csEE

T,IRTIANNciEc

PRINCEi°NscEE

 
 

PUMSB

95,00%

 

3

 

74

 

172

 

12

24,67

57,33

4,00

 

90,00%

 

7

 

679

1

914

 

36

97,00

273,43

5,14

 

85,00%

 

27

4

332

10

875

 

192

160,44

402,78

7,11

 

80,00%

 

416

19

848

47

167

1

233

47,71

113,38

2,96

 

75,00%

1

641

65

690

152

050

4

563

40,03

92,66

2,78

CONNECT

90,00%

 

8

 

853

1

652

 

23

106,62

206,50

2,87

 

80,00%

 

25

3

428

5

771

 

135

137,12

230,84

5,40

 

70,00%

 

66

7

358

12

028

 

452

111,48

182,24

6,85

 

60,00%

 

332

13

024

20

747

1

205

39,23

62,49

3,63

 

50,00%

 

847

22

164

35

903

 

/

26,17

42,39

/

CHESS

90,00%

 

1

 

6

 

15

 

1

6,00

15,00

1,00

 

80,00%

 

1

 

49

 

122

 

3

49,00

122,00

3,00

 

70,00%

 

3

 

217

 

481

 

25

72,33

160,33

8,33

 

60,00%

 

39

 

784

1

896

 

233

20,10

48,61

5,97

 

50,00%

 

197

2

560

5

451

1

520

12,99

27,67

7,71

 

45,00%

 

435

4

550

9

719

4

237

10,46

22,34

9,74

MUSHROOM

20,00%

 

1

 

14

 

28

 

2

14,00

28,00

2,00

 

10,00%

 

1

 

32

 

69

 

5

32,00

69,00

5,00

 

5,00%

 

3

 

59

 

121

 

21

19,67

40,33

7,00

 

3,00%

 

4

 

83

 

163

 

46

20,75

40,75

11,50

 

2,00%

 

7

 

98

 

197

 

81

14,00

28,14

11,57

 

1,00%

 

13

 

123

 

250

 

180

9,46

19,23

13,85

 

0,80%

 

17

 

132

 

270

 

246

7,76

15,88

14,47

 

0,30%

 

33

 

154

 

322

3

127

4,67

9,76

94,76

 

0,20%

 

40

 

159

 

336

10

518

3,97

8,40

262,95

 

0,10%

 

50

 

168

 

352

26

877

3,36

7,04

537,54

TAB . 4.7 - Tableau comparatif des resultats experimentaux de PRINCE vs. A-CLOSE, CLOSE et TITANIC pour les bases denses.

Temp d'execution (en seconde)

65536

16384

4096

1024

256

64

16

4

90

80

Connect

70

Prince

Close A-Close Titanic

60

50

Temps d'execution (en seconde)

262144

65536

16384

4096

1024

256

64

16

4

1

95

90

Pumsb

85

Prince

Close A-Close Titanic

80

75

65536

16384

4096

1024

256

64

16

4

1

Temps d'execution (en seconde)

m insup (en %)

16384

4096

1024

256

64

16

4

1

Temps d'execution (en seconde)

Chess

Prince

Close A-Close Titanic

90 80 70 60 50 40

m insup (en %)

m insup (en %)

Mushroom

Prince

Close A-Close Titanic

20 18 16 14 12 10 8 6 4 2 0

m insup (en %)

FIG . 4.11 -- Les performances de PRINCE vs. CLOSE, A-CLOSE et TITANIC pour les bases denses

PRINCE fait mieux que cet algorithme pour des valeurs de minsup supérieures ou égales a 0,03%. Alors que c'est l'inverse pour des supports inférieurs a 0,03%. Ceci peut être expliqué par le fait que PRINCE est pénalisé par le coiit de la construction de l'ordre pour de tres basses valeurs de minsup. Cependant, CLOSE est avantagé par une taille moyenne des transactions relativement faible (10 items). Notons que pour des valeurs de minsup supérieures ou égales a 0,5%, chaque générateur minimal fréquent est un fermé. Ainsi, PRINCE ne nécessite pas l'exécution de la procédure GEN-ORDRE étant donné que l'ordre est déjà construit a la fin de la premiere étape. De son coté, A-CLOSE n'effectue aucun calcul de fermeture. Ainsi, A-CLOSE prend le dessus sur CLOSE. Cependant, comparé a PRINCE pour les mêmes valeurs de support (supérieures ou égales a 0,5%), A-CLOSE se voit moins rapide en raison du balayage supplémentaire de l'ensemble des générateurs minimaux fréquents de taille (k-1) effectué pour chaque candidat g de taille k. Ce balayage permet de comparer le support de g a celui de ses sous-ensembles de taille (k-1) afin de savoir si g est minimal ou non. Au fur et a mesure que la valeur de minsup diminue, les performances de TITANIC se dégradent considérablement. En effet, le nombre d'items fréquents, a considérer dans le calcul de la fermeture d'un générateur minimal fréquent, croit énormément suite a la baisse des valeurs de minsup. Ainsi, pour minsup=0,02%, 859

items sont frequents parmi 1 000 possibles et la taille maximale d'un generateur minimal frequent est egale a 10 items seulement.

- T40I10D1OOK : les performances de PRINCE dans cette base sont largement meilleures que celles de CLOSE, A-CLOSE et TITANIC quelle que soit la valeur de minsup. Pour les valeurs de minsup superieures ou egales a 1,5%, le scenario de la base T10I4D100K, pour des valeurs de minsup superieures ou egales a 0,5%, semble se repeter. En effet, pour ces valeurs, chaque generateur minimal frequent est aussi un ferme. Pour des supports inferieurs a 1,5%, A-CLOSE est oblige de calculer les fermetures. Ainsi, CLOSE et A-CLOSE sont handicapes par une taille moyenne elevee des transactions (40 items) sachant que CLOSE prend le dessus sur A-CLOSE. De même, les performances de TITANIC se degradent d'une manière considerable pour les mêmes raisons evoquees auparavant. Le coUt des comparaisons, dans le cas de PRINCE, etant nettement plus reduit que le coUt du calcul des intersections (resp. des tentatives d'extension) pour calculer la fermeture d'un generateur minimal frequent dans le cas de CLOSE et A-CLOSE (resp. TITANIC) explique l'ecart dans les performances entre PRINCE et les trois autres algorithmes.

- - RETAIL : pour cette base, notre algorithme realise des temps d'execution beaucoup moins importants que ceux realises par CLOSE, A-CLOSE et TITANIC. Pour des valeurs de minsup superieures a 0,08%, les temps d'execution de PRINCE, CLOSE et A-CLOSE restent comparables avec un avantage pour PRINCE. Pour des valeurs de minsup superieures a 0,06%, les performances de PRINCE et A-CLOSE restent comparables avec un avantage pour PRINCE. Toutefois, les performances de CLOSE se degradent considerablement. Pour des valeurs de supports inferieures a 0,06%, les performances de A-CLOSE se degradent aussi d'une manière significative. Ces performances peuvent être expliquees par l'influence enorme du nombre eleve d'items dans RETAIL. En effet, CLOSE est handicape par un nombre enorme de candidats pour lesquels il est oblige de calculer la fermeture alors qu'un grand nombre d'entre eux s'avèrera non frequent. Le nombre de candidats affecte aussi les performances de A-CLOSE a cause des balayages supplementaires ainsi que le coUt du calcul des fermetures. De son cote, TITANIC est considerablement alourdi par un grand nombre d'items frequents a considerer lors du calcul de la fermeture d'un generateur minimal frequent (pour minsup = 0,04%, 4 463 items sont frequents et la taille maximale d'un generateur minimal frequent est egale a 6 items seulement). L'execution de TITANIC, pour des supports inferieurs a 0,04%, s'arrête pour manque d'espace memoire. PRINCE fait mieux que les trois autres algorithmes etant donne que les traitements relatifs a chaque generateur minimal sont nettement moins coUteux.

- ACCIDENTS : dans cette base, les performances de PRINCE sont meilleures que celles de CLOSE, A-CLOSE et TITANIC pour toutes les valeurs de minsup. Pour des valeurs de minsup superieures ou egales a 40%, chaque generateur minimal frequent est un ferme. Ainsi, le meme scenario, que dans les cas des bases T10I4D100K et T40D10I100K pour des supports respectivement superieurs ou egaux a 0,5% et 1,5%, s'est repete. CLOSE est enormement desavantage par un nombre eleve de transactions que contient ACCIDENTS ainsi qu'une taille moyenne des transactions relativement elevee. Ceci induit des coits enormes pour le calcul des fermetures. Pour des supports inferieurs a 40%, PRINCE doit executer sa deuxieme etape (cad la procedure GEN-ORDRE) pour construire l'ordre partiel. Les performances de A-CLOSE se degradent d'une maniere considerable etant donne qu'il est oblige de calculer les fermetures sur un nombre eleve de transactions. Le mecanisme de comptage par inference adopte par TITANIC s'avere plus efficace que le calcul des intersections adopte par CLOSE et A-CLOSE. Ceci peut etre explique par le nombre reduit d'items frequents a prendre en consideration lors du calcul de la fermeture d'un generateur minimal frequent. En effet, seuls 32 items parmi 468 sont frequents pour minsup egal a 30% et la taille maximale d'un generateur minimal frequent est egale a 12 items. Pour la base ACCIDENTS et pour toutes les valeurs de minsup, l'operation consistant en le calcul des supports des candidats pese enormement lourd sur les quatre algorithmes (il y a un nombre eleve de transactions de taille moyenne relativement elevee). Ainsi, dans le cas de l'algorithme PRINCE, la representation compacte de la base presente une solution importante pour faire face au coit de cette operation. Il en est de meme pour la raison de l'utilisation d'un fichier binaire en entree des trois autres algorithmes.

L'algorithme PRINCE s'avere aussi performant sur les bases eparses et pour toutes les valeurs de minsup. La difference entre les performances de PRINCE et celles de CLOSE et TITANIC atteint son maximum pour la base RETAIL. En effet, PRINCE est environ 115 (resp. 261) fois plus rapide que CLOSE (resp. TITANIC) pour un support de 0,04%. De meme, PRINCE est environ 57 fois plus rapide que A-CLOSE pour la base ACCIDENTS et pour une valeur de minsup egale a 30%. Pour ces bases eparses, PRINCE est en moyenne 31 (resp. 13 et 32) fois plus rapide que CLOSE (resp. A-CLOSE et TITANIC).

précédent sommaire suivant








® Memoire Online 2007 - Pour tout problème de consultation ou si vous voulez publier un mémoire: webmaster@memoireonline.com