Memoire Online - Extraction des bases génériques informatives de règles sans calcul de fermetures

C'est avec un grand plaisir, que j'exprime ici ma reconnaissance a tous ceux qui m'ont apporté leur aide scientifique, matérielle ou morale pour mener a terme ce travail.

A Mr. Habib Ounelli, Maitre de Conférences a la Faculté des Sciences de Tunis, pour avoir accepté de présider le jury de ce Mastère. Je le remercie pour l'attention avec laquelle il a lu et évalué ce mémoire.

A Mr. Mohamed Mohsen Gammoudi, Maitre Assistant a la Faculté des Sciences de Tunis, pour avoir accepté de participer au jury de ce Mastère. Je le remercie pour l'attention avec laquelle il a lu et évalué ce mémoire.

A Mr. Yahya Slimani, Maitre de Conférences a la Faculté des Sciences de Tunis, pour ses orientations, ses conseils et ses suggestions. J'ai spécialement apprécié son esprit critique et sa rigueur scientifique. Qu'il trouve ici l'expression de mon respect.

A Mr. Sadok Ben Yahia, Maitre Assistant a la Faculté des Sciences de Tunis, qui m'a aidé dans ce travail et en a rendu possible la réalisation. J'ai particulièrement apprécié ses qualités humaines indéniables, sa disponibilité et ses conseils de bon aloi. Qu'il trouve ici l'expression de ma gratitude.

Je souhaite aussi exprimer toute ma reconnaissance envers Mr. Yves Bastide, Professeur adjoint a l'Ensar de Rennes, qui s'est montré toujours disponible a répondre a mes questions et pour avoir mis a ma disposition les codes sources des algorithmes CLOSE, A-CLOSE et TITANIC utilisés dans le cadre de ce travail.

Je tiens également a remercier Mlle Yosr Slama, Assistante a la Faculté des Sciences de Tunis, pour son aide a l'élaboration de l'étude théorique de la complexité de l'algorithme proposé.

Je remercie les membres de l'URPAH de la Faculte des Sciences de Tunis de m'avoir accueilli au sein de leur unite et fait beneficier de leurs experiences.

Mes remerciements vont aussi a tous ceux qui, non cites ici, m'ont soutenu tout le long de ce travail.

Résumé: Durant ces dernières ann'ees, les quantit'es de donn'ees collect'ees, dans divers domaines d'application de l'informatique, deviennent de plus en plus importantes. Ces quantit'es ont suscit'e le besoin d'analyse et d'interpr'etation afin d'en extraire des connaissances utiles. Ce m'emoire s'int'eresse a` la technique d'extraction de règles associatives, une des techniques les plus utilis'ees dans le domaine de la fouille de donn'ees. La première approche permettant la g'en'eration de règles associatives s'est bas'ee sur l'extraction des itemsets fr'equents. Cependant, cette approche souffre de deux problèmes majeurs, a` savoir le coüt de l'extraction des itemsets fr'equents, qui sont n'ecessaires a` la g'en'eration de règles associatives, et la g'en'eration d'un nombre important de règles associatives, dont un bon pourcentage est redondant. Pour rem'edier a` ces problèmes, une nouvelle approche bas'ee sur la d'ecouverte des itemsets ferm'es fr'equents en utilisant les treillis de Galois, issus de l'analyse formelle de concepts, a 'et'e propos'ee. Toutefois, les algorithmes relatifs a` cette nouvelle approche se sont focalis'es sur la r'esolution du premier problème, sans se soucier de la construction de la relation d'ordre partiel li'ee a` un treillis de Galois. Cette relation est une condition sine qua non pour l'extraction, sans perte d'information, d'un sous-ensemble de règles associatives, appel'e base g'en'erique. Dans ce cadre, nous avons propos'e un nouvel algorithme appel'e PRINCE pour la g'en'eration de bases g'en'eriques de règles associatives. Cet algorithme effectue une exploration par niveau de l'espace de recherche. Sa principale originalit'e est qu'il est le seul a` construire la relation d'ordre partiel dans l'objectif d'extraire les bases g'en'eriques de règles. Pour r'eduire le coüt de cette construction, la relation d'ordre partiel est maintenue entre l'ensemble des g'en'erateurs minimaux des itemsets ferm'es fr'equents et non plus entre les itemsets ferm'es fr'equents. Une structure, appel'ee treillis des générateurs minimaux, est alors construite a` partir de laquelle la d'erivation des bases g'en'eriques devient imm'ediate. Les exp'erimentations que nous avons r'ealis'ees sur diff'erents contextes d'extraction ont montr'e l'efficacit'e de l'algorithme propos'e, comparativement a` des algorithmes de r'ef'erence tels que CLOSE, A-CLOSE et TITANIC.

Mots-clés: Fouille de donn'ees, Analyse formelle de concepts, Itemsets (ferm'es) fr'equents, Treillis de Galois, Treillis des générateurs minimaux, Règles associatives, Base générique de règles.

Abstract: In the last few years, the amount of collected data, in various computer science applications, becomes increasingly significant. These large volumes of data pointed out the need to analyze them in order to extract useful hidden knowledge. This Master thesis focusses on the association rule extraction, one of the most popular knowledge extraction technique. The first approach to extract association rules, uses the notion of frequent itemsets. However, this approach suffers from two major problems, namely the cost of extracting frequent itemsets and the high number of extracted association rules, among which many are redundant. Thus, a new approach based on Galois lattice uses the notion of frequent closed itemsets instead the frequent ones. However, algorithms related to this new approach have only resolved the first problem and have avoid the problem of construction of the order relation associated to a Galois lattice. This partial order relation is a sine qua non condition to obtain a subset of all association rules, without information loss, called generic basis. For this purpose, we proposed a new algorithm called PRINCE that performs a level-wise browsing of the search space. Its main originality is that it is the only one which constructs the partial order in order to extract generic bases. In order to reduce the cost of this construction, the partial order is maintained between frequent minimal generators and not between frequent closed itemsets. A structure called minimal generator lattice is then built, from which the derivation of the generic association rules becomes straightforward. Several experimentations of our algorithm have showed the efficiency of the proposed algorithm, comparatively to well-known algorithms like CLOSE, A-CLOSE and TITANIC.

Key-words: Data mining, Formal concept analysis, Galois lattice, Frequent (closed) itemsets, Minimal generator lattice, Association rules, Generic rule basis.

Introduction generale 1 Fondements mathematiques pour l'extraction de regles d'association			1 5
	1.1	Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	5
	1.2	Dérivation des regles d'association . . . . . . . . . . . . . . . . . . . . . . .	7
		1.2.1 Base de transactions . . . . . . . . . . . . . . . . . . . . . . . . . .	7
		1.2.2 Regles d'association . . . . . . . . . . . . . . . . . . . . . . . . . . .	7
	1.3	Analyse formelle de concepts . . . . . . . . . . . . . . . . . . . . . . . . . .	9
		1.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	9
		1.3.2 Notion d'ordre partiel . . . . . . . . . . . . . . . . . . . . . . . . .	10
		1.3.3 Connexion de Galois . . . . . . . . . . . . . . . . . . . . . . . . . .	12
		1.3.4 Itemsets fermés et leurs générateurs minimaux . . . . . . . . . . . .	14
	1.4	Dérivation des bases génériques de regles d'association . . . . . . . . . . .	16
	1.5	Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	19
2	Algorithmes d'extraction des itemsets fermes frequents : Etat de l'art		21
	2.1	Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	21
	2.2	Algorithmes d'extraction des itemsets fermés fréquents . . . . . . . . . . .	22
		2.2.1 Les algorithmes de type "Générer-et-tester" . . . . . . . . . . . . .	23
		2.2.2 Les algorithmes de type "Diviser-et-générer" . . . . . . . . . . . . .	29
		2.2.3 Les algorithmes hybrides . . . . . . . . . . . . . . . . . . . . . . . .	32
	2.3	Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	34
	2.4	Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	38
3	L'algorithme PRINCE		39
	3.1	Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	39
	3.2	L'algorithme PRINCE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	40
		3.2.1 Détermination des générateurs minimaux . . . . . . . . . . . . . . .	41
		3.2.2 Construction du treillis des générateurs minimaux . . . . . . . . . .	46
		3.2.3 Extraction des bases génériques informatives de regles . . . . . . . .	50
	3.3	Structure de données utilisée . . . . . . . . . . . . . . . . . . . . . . . . . .	55
	3.4	Preuves théoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	57
	3.5	Complexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	60
	3.6	Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	64

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2 Environnement d'expérimentation . . . . . . . . . . . . . . . . . . . . . . . 66

4.2.1 Environnement materiel et logiciel . . . . . . . . . . . . . . . . . . . 66

4.2.2 Description des executables . . . . . . . . . . . . . . . . . . . . . . 66

4.2.3 Bases de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.3 Optimisations et evaluations . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4 Effets de la variation de la mesure minconf . . . . . . . . . . . . . . . . . . 74
4.5 Comparaisons des coits des étapes de PRINCE . . . . . . . . . . . . . . . . 75

4.5.1 Bases benchmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.5.2 Bases "pire des cas" . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.6 Performances de PRINCE vs. CLOSE, A-CLOSE et TITANIC . . . . . . . . . 83

4.6.1 Bases benchmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.6.2 Bases "pire des cas" . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

1.1 Exemple de contexte formel . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Join - Meet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3 Join-irréductible - Meet-irréductible . . . . . . . . . . . . . . . . . . . . . . 12

3.1 Contexte d'extraction 1C . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

associés au contexte d'extraction 1C pour minsup2. . . . . . . . . . . . . . 56 3.3 Gauche : La base générique de regles exactes BG. Droite : La réduction

transitive des regles approximatives RI. . . . . . . . . . . . . . . . . . . . . 56
3.4 Exemple d'un trie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.1 Exemple d'une base "pire des cas" avec n4 . . . . . . . . . . . . . . . . . 68 4.2 La structure Itemset-Trie (Gauche) et la structure IT-BDT (Droite)

associées au contexte d'extraction de la Figure 3.1 . . . . . . . . . . . . . . 70 4.3 Effet de l'utilisation d'une représentation compacte de la base sur les per-

formances de PRINCE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.4 Effet de l'exécution de la procédure GEN-ORDRE sur les performances de

PRINCE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Effet de l'utilisation des 2-itemsets fréquents non générateurs minimaux

sur les performances de PRINCE . . . . . . . . . . . . . . . . . . . . . . . . 73 4.6 Effet de l'utilisation des listes prohibées sur les performances de PRINCE . 74 4.7 Effet de la variation de minconf sur les performances de PRINCE . . . . . . 75 4.8 Temps d'exécution des étapes constituant PRINCE pour les bases denses . . 77 4.9 Temps d'exécution des étapes constituant PRINCE pour les bases éparses . 82 4.10 Temps d'exécution des étapes constituant PRINCE pour les bases "pire des

cas" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.11 Les performances de PRINCE vs. CLOSE, A-CLOSE et TITANIC pour les

bases denses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.12 Les performances de PRINCE vs. CLOSE, A-CLOSE et TITANIC pour les

bases éparses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.13 Test de mise a l'échelle de PRINCE vs. CLOSE, A-CLOSE et TITANIC pour

les bases "pire des cas" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

2.1	Caractéristiques des algorithmes CLOSE, A-CLOSE, TITANIC, CLOSET et
	CHARM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	37
3.1	Notations utilisées dans la procédure GEN-GMS . . . . . . . . . . . . . . .	42
4.1	Description des exécutables des différents algorithmes . . . . . . . . . . . .	66
4.2	Paramètres des bases synthétiques . . . . . . . . . . . . . . . . . . . . . . .	67
4.3	Caractéristiques des bases benchmark . . . . . . . . . . . . . . . . . . . . .	67
4.4	Tableau comparatif des étapes constituant PRINCE pour les bases denses. .	78
4.5	Tableau comparatif des étapes constituant PRINCE pour les bases éparses.	81
4.6	Tableau comparatif des étapes constituant PRINCE pour les bases "pire des
	cas". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .	84
4.7	Tableau comparatif des résultats expérimentaux de PRINCE vs. A-CLOSE,
	CLOSE et TITANIC pour les bases denses. . . . . . . . . . . . . . . . . . . .	87
4.8	Tableau comparatif des résultats expérimentaux de PRINCE vs. A-CLOSE,
	CLOSE et TITANIC pour les bases éparses. . . . . . . . . . . . . . . . . . .	94
4.9	Tableau comparatif des résultats expérimentaux de PRINCE vs. A-CLOSE,
	CLOSE et TITANIC pour les bases "pire des cas". . . . . . . . . . . . . . . .	95

Introduction générale

Il est chaque jour plus facile de collecter des donnees mais notre capacite a en extraire des informations a forte valeur ajoutee reste limitee [16]. Ainsi, l'attention des entreprises s'est progressivement detournee des systemes operationnels, vitaux mais sans valeur ajoutee concurrentielle reelle. Elle s'est alors portee sur des systemes decisionnels, sans apport direct en matiere de productivite mais qui contribuent veritablement a la differenciation strategique de l'entreprise [42]. Afin d'exploiter ces masses importantes de donnees stockees dans les systemes decisionnels, la fouille de donnees se propose de donner les outils et/ou techniques necessaires pour l'extraction de cette connaissance. La fouille de donnees (ou Data mining) est le domaine de recherche au sein duquel cooperent statisticiens, specialistes en bases de donnees et en intelligence artificielle, ou encore chercheurs en conception d'interfaces homme-machine [16]. Les informations extraites, suite a l'application d'un processus de fouille de donnees, peuvent prendre plusieurs formes, telles que les regles d'association, les arbres de decisions, les reseaux de neurones, etc [24, 42].

Dans ce memoire, nous allons nous interesser, en particulier, a la technique d'extraction de regles d'association. Cette technique a ete introduite par Agrawal et al. en 1993 [1]. En 1994, Agrawal et al. ont propose un des premiers algorithmes, appele APRIORI [2], pour l'extraction des regles d'association a partir de bases de donnees des grandes surfaces commerciales. Cet algorithme adoptait une strategie d'exploration par niveau de l'espace de recherche, appelee "Generer-et-tester". Ainsi, le probleme d'extraction des regles d'association est alors decompose en deux sous-problemes [2] :

1. Extraction des ensembles d'items (ou itemsets) interessants (ou frequents) pour l'utilisateur, cad presentant une frequence d'apparition superieure ou egale a un certain seuil minimal fixe par l'utilisateur.

L'approche d'extraction des regles d'association -- basee sur la decouverte des itemsets frequents -- souffre de deux problemes majeurs, a savoir le coUt de l'extraction des itemsets frequents et surtout la generation d'un tres grand nombre de regles, et ce meme pour de petites bases de donnees.

Pour pallier ces inconvenients, une nouvelle approche basee sur l'extraction des itemsets fermes frequents [48] est apparue. Cette approche est issue des fondements mathematiques de l'analyse formelle de concepts introduite par Wille en 1982 [66]. Cette nouvelle approche propose deux alternatives seduisantes :

Cependant, pour extraire ces bases generiques de regles, il faut prealablement decouvrir trois composantes primordiales, a savoir [9] :

Un survol critique des algorithmes, bases sur l'extraction des itemsets fermes frequents, montre que les algorithmes existants dans la litterature ont failli a leurs objectifs [9]. En effet, la quasi-totalite de ces algorithmes se sont focalises sur l'extraction de la premiere composante, cad les itemsets fermes frequents, en oubliant les deux dernieres. Seuls les algorithmes adoptant la strategie "Generer-et-tester" font mieux en permettant aussi l'extraction des generateurs minimaux, sans se soucier de la construction de la relation d'ordre partiel. Par consequent, les algorithmes existants n'ont pas reussi a generer les bases generiques de regles d'association.

Pour remedier aux insuffisances enumerees, nous proposons, dans ce memoire, un nouvel algorithme, appele PRINCE, permettant l'extraction des itemsets fermes frequents, leurs generateurs minimaux associes ainsi que les bases generiques de regles d'association. A cet effet, l'algorithme propose permet la construction de l'ordre partiel. L'algorithme PRINCE effectue une exploration par niveau de l'espace de recherche. Sa principale originalite est qu'il est le seul a construire la relation d'ordre partiel dans l'objectif d'extraire les bases

generiques de regles. Pour reduire le coUt de cette construction, la relation d'ordre partiel est maintenue entre l'ensemble des generateurs minimaux des itemsets fermes frequents et non plus entre les itemsets fermes frequents. Ceci evite le coUt du calcul des fermetures des itemsets. Une fois la structure partiellement ordonnee construite, l'extraction des bases generiques devient immediate.

Les resultats de nos travaux de recherche sont synthetises dans ce memoire qui est compose de quatre chapitres.

Le premier chapitre introduit la technique d'extraction des regles d'association ainsi que les fondements mathematiques de l'analyse formelle de concepts. Il definit egalement la connexion de ces fondements avec le processus d'extraction des bases generiques de regles d'association.

Le deuxieme chapitre presente des algorithmes d'extraction des itemsets fermes frequents. Ensuite, il presente une etude comparative critique de ces algorithmes selon des criteres que nous introduisons.

Le troisieme chapitre est consacre a la presentation de l'algorithme que nous proposons pour l'extraction des trois composantes permettant la derivation des bases generiques de regles d'association. La presentation des differentes etapes de l'algorithme PRINCE est donnee. La demonstration de la validite, la completude et la terminaison ainsi que l'etude de la complexite theorique de l'algorithme PRINCE seront aussi presentees.

Le quatrieme chapitre presente les experimentations effectuees sur l'algorithme PRINCE. Ces experimentations sont divisees en deux parties. La premiere partie s'interesse a l'analyse de quelques optimisations apportees a notre algorithme ainsi qu'a l'analyse de ses caracteristiques. La deuxieme partie compare les performances de l'algorithme PRINCE a celles des algorithmes CLOSE, A-CLOSE et TITANIC.