Memoire Online - Techniques d'extraction de connaissances appliquées aux données du Web

Université de la Manouba
Ecole Nationale des Sciences de l'Informatique
Cycle des Etudes Doctorales
Mémoire de Mastère

sous l'encadrement du
Professeur Mohamed BEN AHMED (RIADI)
&
le co-encadrement du
Professeur Yves LECHEVALLIER (INRIA)

« J'apprends encore, mon instruction n'est point encore achevée. Le cours de ma vie n'est
qu'une longue éducation »

Remerciements

Que Monsieur Mohamed BEN AHMED, professeur à l'Ecole Nationale des Sciences de l'Informatique et directeur du laboratoire RIADI, trouve ici le témoignage de ma profonde reconnaissance. Ses encouragements, mais aussi ses critiques, ont largement contribué à l'aboutissement de ce mémoire. Je le remercie vivement de m'avoir toujours poussé vers l'avant.

Je tiens également à remercier Monsieur Yves LECHEVALLIER, professeur chercheur à l'Institut Nationalde Recherche en Informatique et Automatique (INRIA), non seulement pour ses précieux conseils et ses orientations, mais aussi pour sa disponibilité. Sa sensibilisation à la recherche et à l'innovation m'ont aidé à la réalisation de ce travail.

Mes remerciements vont également aux membres du jury d'avoir accepté d'évaluer mon travail.

Qu'il me soit permis de remercier également mes amis et mes collègues qui, tous d'une manière différente, mais toujours dans un but constructif, ont contribué à ce que je puisse aboutir à la réalisation de ce

Enfin, merci à mes parents pour le soutien et l'encouragement qu'ils m'ont apporté tout au long de travail.

Résumé- La croissance de l'usage du WWW fût accompagnée d'un intérêt particulier à l'analyse des données de l'usage de l'Internet afin de bien servir les utilisateurs du Web et leur présenter un contenu personnalisé. Un des axes les plus importants du Web mining est le Web Usage Mining qui s'intéresse à l'extraction des patrons d'accès au Web à partir des données de l'usage. L'approche que nous proposons dans le cadre de ce mémoire afin d'aider à comprendre le comportement des internautes comporte trois phases : prétraitement des fichiers Logs, classification des pages et classification des internautes. Dans la phase de prétraitement, les requêtes sont organisées en visites qui représentent les unités d'interaction entre les utilisateurs du Web et le serveur web. Dans la phase de classification des pages, une représentation interne du site Web est créée à partir des fichiers Logs afin d'extraire des chemins de navigation. Des paramètres introduits à partir des statistiques sur les accès aux pages sont utilisés pour la catégorisation des pages Web en pages auxiliaires et pages de contenu. Les requêtes aux pages de contenu servent à la découverte des motifs de navigation. Afin de construire des segments d'utilisateurs, deux méthodes hybrides de classification automatiques basées sur l'analyse en composantes principales, l'analyse des correspondances multiples et les cartes topologiques de Kohonen sont appliquées aux visites. Une expérience effectuée sur les fichiers Logs extraits du Centre de Calcul elKhawarizmi prouve l'efficacité de cette méthodologie.

Abstract- With the ever growing usage of the WWW, there is significant interest in analyzing web usage data to better serve users, and apply the knowledge to be able to present personalized content for different user segments. An important area in web mining is web usage mining, the discovery of patterns in the browsing and navigation data of web users. The approach we proposed to help understand users' behaviors on a web site consists of three steps: preprocessing of log files, web pages classification and users clustering. In Preprocessing, requests to the web site are processed to be organized into sessions which represent units of interaction between web users and the web server. In pages classification, an internal representation of the web site is created from logs to extract frequent paths and parameters are introduced from pages access statistics to help classify web pages into two major categories: auxiliary pages and content pages. Requests to content pages are used to discover browsing patterns. In order to build users' profiles, two hybrid clustering methods based on Principle Component Analysis, Multiple Correspondences Analysis and Self Organizing maps are applied to web usage sessions. An Experiment on the HTTP log files extracted from the Center of Calculation elKhawarizmi web server shows that the approach is efficient and practical.

factoriels 71 6.13 Projection de la variable »plateforme» sur le troisième plan factoriel 71 6.14 Grille résultant de l'application des cartes de Kohonen 72 6.15 Caractérisation des classes résultant de l'application des cartes de

7.3 Représentation de la carte dans les deux espaces d'entrée et de sortie 82
7.4 Etats de la carte en fonction du nombre d'itérations. 83

I 2	Etat de l'art Web Mining et Web Usage Mining					4 5
	2.1		Web Mining			5
			2.1.1 Processus du Web Mining			5
			2.1.2 Axes de développement du Web Mining			7
	2.2		Web Usage Mining			8
			2.2.1 Motifs du Web Usage Mining			8
			2.2.2 Données de l'usage			9
			2.2.3 Diverses approches d'analyse			12
	2.3		Conclusion			13
3	Processus du Web Usage Mining					14
	3.1		Processus du Web Usage Mining			14
	3.2		Collecte des données			15
			3.2.1 Données enregistrées au niveau du serveur			16
			3.2.2 Données enregistrées au niveau du client			16
			3.2.3 Données enregistrées au niveau du Proxy			16
	3.3		Prétraitement des données			17
			3.3.1 Nettoyage des données			17
			3.3.2 Transformation des données			18
	3.4		Fouille de données			21
			3.4.1 Méthodes statistiques unidimensionnelles			22
			3.4.2 Méthodes statistiques multidimensionnelles			22
TABLE DES MATIÈRES 3.4.3 Méthodes d'association 3.4.4 Méthodes basées sur l'intelligence artificielle (réseaux de neurones) 3.5 Analyse 3.5.1 Visualisation 3.5.2 OLAP 3.5.3 Bases des données relationnelles 3.5.4 Agents intelligents 3.6 Conclusion						v 24 25 27 27 27 27 28 28
4		Méthodes de classification				29
		4.1	Méthodes factorielles			29
			4.1.1	Analyse en composantes principales (ACP)		29
			4.1.2	Analyse factorielle des correspondances (AFC)		34
			4.1.3	Analyse factorielle des correspondances multiples		36
		4.2	Cartes topologiques de Kohonen			37
			4.2.1	Architecture de la carte topologique		37
			4.2.2	Propriétés de la carte topologique		38
			4.2.3	Algorithme d'apprentissage de Kohonen		38
			4.2.4	Principaux paramètres de la carte topologique		39
			4.2.5	Etude de la qualité d'apprentissage des cartes topologiques		41
			4.2.6	Analyse de la carte topologique		43
			4.2.7	Avantages et limites de la carte de Kohonen		44
		4.3	Conclusion			44
II Méthodologie et application 5 Prétraitement des données					45 46
5.1			Méthodologie de prétraitement		46
			5.1.1	Processus de prétraitement	46
			5.1.2	Nettoyage des données	46
			5.1.3	Transformation des fichiers Log	50
			5.1.4	Retraitement des fichiers Log	54
			5.1.5	Modélisation des unités d'analyse	59
			5.1.6	Schéma relationnel	60
5.2			Résultats de l'analyse des fichiers Log du CCK		61
			5.2.1	Corpus expérimental	61
			5.2.2	Résultats	61
5.3			Conclusion		62