Conclusion partielle
Dans ce chapitre, nous avons traité l'entrepôt de
données et le data mart. Nous avons donnés l'architecture d'un
entrepôt de données et celle du data mart. Nous avons
expliqué les différents composants qu'il intègre, les
types de données et les différents outils pour arriver à
la visualisation de l'information ; avons décrit les différents
modèles multidimensionnels pour la construction d'un entrepôt de
données, ainsi que les différentes opérations pour la
manipulation des données multidimensionnelles et le parallélisme
entre le deux, nous avons présenté l'apport de DataMart dans les
entreprises. Le chapitre suivant abordera les notions sur le data mining et
l'arbre de décision.
22 Y. Zhuge, H. Garcia-Molina, J. Hammer, J. Widom, "View
Maintenance in a Warehousing Environment", SIGMOD Record, San Jose (USA),
1995, p.87
39
CHAPITRE III : LE DATA MINING ET ARBRE DE DECISION III.0
Introduction
Le terme datamining est souvent employé pour
désigner l'ensemble des outils permettant à l'utilisateur
d'accéder aux données de l'entreprise, de les analyser. Nous
retiendrons ici le terme de data mining aux outils ayant pour objet de
générer des informations riches à partir des
données de l'entreprise, notamment des données historiques, de
découvrir des modèles implicites dans les
données.22
Ces outils peuvent permettre par exemple à un magasin
de dégager des profils de client et des achats types et de
prévoir ainsi les ventes futures. Ils permettent d'augmenter la valeur
des données contenues dans le DataWarehouse.
Les outils d'aides à la décision, qu'ils soient
relationnels ou OLAP, laissent l'initiative à l'utilisateur, de choisir
les éléments qu'il veut observer ou analyser .Au contraire ,dans
le cas du datamining ,le système a l'initiative et découvre
lui-même les associations entre données ,sans que l'utilisateur
ait à lui dire de rechercher plutôt dans telle ou telle direction
ou à poser des hypothèses .
Il est alors possible de prédire l'avenir, par le
comportement d'un client, et de détecte, dans le passé, les
données inusuelles, exceptionnelles.
Ces outils ne sont plus destinés aux seuls experts
statisticiens mais doivent pouvoir être employés par des
utilisateurs connaissant leur métier et voulant l'analyser,
l'explorer.
Seul un utilisateur connaissant le métier peut
déterminer si les modèles, les règles, les tendances
trouvées par l'outil sont pertinentes, intéressantes et utiles
à l'entreprise. Nous pourrions définir le datamining comme une
démarche ayant pour objet de découvrir des relations et des
faits, à la fois nouveaux et significatifs, sur de grands ensembles de
données.
Le terme datamining signifie littéralement forage de
données dont le but est de pouvoir extraire un élément :
la connaissance.
Ces concepts s'appuient sur le constat qu'il existe au sein de
chaque entreprise des informations cachées dans le gisement de
données. Nous appellerons datamining l'ensemble des techniques qui
permettent de transformer les données en connaissances. L'exploration se
fait sur l'initiative du système, par un utilisateur métier, et
son but est de remplir l'une des tâches suivantes : Classification,
estimation, prédiction, regroupement par similitudes, segmentation
(cautérisation), description et, dans une moindre mesure,
l'optimisation.
40
III.1 Objectifs Du Data Mining23
Les objectifs du Data Mining peuvent être regroupés
dans trois axes importants:
1. Prédiction (What-if) :
consiste à prédire les conséquences d'un
événement (ou d'une décision), se basant sur le
passé.
2. Découverte de règles cachées
: découvrir des règles associatives, entre
différents événements (Exemple : corrélation entre
les ventes de deux produits).
3. Confirmation d'hypothèses :
confirmer des hypothèses proposées par les
analystes et décideurs, et les doter d'un degré de confiance.
En considérant le serveur de base données ou le
serveur d'entrepôt de données, le Data mining est
considéré comme un client riche de ces deux serveurs. Notons que
le client serveur est un mode de dialogue entre deux processus, l'un
appelé client qui sollicite des services auprès de l'autre
appelé serveur, par envoie des requêtes (send request en anglais).
Après avoir lancé une requête par rapport au fait à
analyser, le client data ming applique des méthodes ou procédures
sur les données obtenues, afin d'obtenir les informations
nécessaires pour la prise de décision. Ces procédures ou
méthodes, sont classées en deux catégories :
Apprentissage non supervisé et l'apprentissage
supervisé en dehors de ces deux s'ajoute l'autre qui est
l'apprentissage automatique.
a) Apprentissage non
supervisé
Elle consiste à mettre en évidence les
informations cachées par le grand volume de données, en vue de
détecter dans ces données des tendances cachées. Les
techniques utilisées sont : La segmentation (Clustering en anglais),
L'analyse à composante principale, l'analyse factorielle de
correspondance.
b) Apprentissage supervisé
L'apprentissage supervisé consiste à extrapoler
des nouvelles connaissances à partir de l'échantillon
représentatif issu de l'apprentissage non supervisé. Les
techniques utilisées sont : Les réseaux de neurones, le SVM,
l'arbre de décision, les réseaux de bayes, etc.
c) Apprentissage automatique
L'apprentissage automatique (machine learning en
anglais), un des champs d'étude de l'intelligence artificielle, est la
discipline scientifique concernée par le développement, l'analyse
et l'implémentation de méthodes automatisables qui permettent
à une machine (au sens large) d'évoluer grâce à un
processus d'apprentissage, et ainsi de remplir des tâches
23 ADIBA .M, Entrepôts de données et fouille de
données, Paris 2002, p.19
41
qui sont difficiles ou impossible d'être
réalisées par des moyens algorithmiques plus classiques.
Des systèmes complexes peuvent être
analysés, y compris pour des données associées à
des valeurs symboliques (ex: sur un attribut numérique, non pas
simplement une valeur numérique, juste un nombre, mais une valeur
probabilisée, c'est-à-dire un nombre assorti d'une
probabilité ou associé à un intervalle de confiance) ou un
ensemble de modalités possibles sur un attribut numérique ou
catégoriel.
L'analyse peut même concerner des données
présentées sous forme de graphes ou d'arbres, ou encore de
courbes (par exemple, la courbe d'évolution temporelle d'une mesure ; on
parle alors de données continues, par
opposition aux données discrètes
associées à des attributs-valeurs classiques).
Le premier stade de l'analyse est celui de la
classification, qui vise à « étiqueter »
chaque donnée en l'associant à une classe.
III.1.1. Processus Du Datamining
Le datamining est un processus méthodique : une suite
ordonnée d'opérations aboutissant à un résultat.
Le data ming est décrit comme un processus
itératif complet constitué de quartes divisées en six
phases qui sont représenté dans le tableau suivant :
PROCESSUS DU DATAMINING
|
Acteur
|
Etapes
|
Phases
|
Maitre d'oeuvre
|
Objectifs
|
1. Compréhension du métier :
|
2. Compréhension des données
|
|
|
Traitements
|
4 .Modélisation
|
5.Evaluation de la modélisation
|
Maître d'ouvrage
|
Déploiement
|
6. Déploiement des résultats de l'étude
|
Tableau 3: le processus du
datamining.
a) Compréhension du Métier
:
Cette phase consisté à :
? Enoncer clairement les objectifs globaux du
projet et les contraintes de l'entreprise.
42
· Traduire ses objectifs et ses contraintes en un
problème de data mining
· Préparer une stratégie initiale pour
atteindre ces objectifs.
b) Compréhension des données Cette phase
consiste à :
Recueillir les données, utiliser l'analyse
exploratoire pour se familiariser avec les données, commencé
à les comprendre et imaginer ce qu'on pourrait en tirer comme
connaissance. Evaluer la qualité des données, Eventuellement,
sélectionner des sous-ensembles intéressants.
c) Préparation des données
Cette phase aide à préparer, à partir des
données brutes, l'ensemble final des données qui va être
utilisé pour toutes les phases suivantes :
· Sélectionner les cas et les variables à
analyser, réaliser si nécessaire les transformations de certaines
données, réaliser si nécessaire la suppression de
certaines données.
d) Modélisation
La phase de la modélisation consiste à :
· Sélectionner les techniques de
modélisation appropriées (pouvant être utilisées
pour le même problème) calibrer les paramètres des
techniques de modélisation choisies pour optimiser les résultats
;
· Eventuellement revoir la préparation des
données pour l'adapter aux techniques utilisées.
e) Evaluation de la modélisation
· Pour chaque technique de modélisation
utilisée, évaluer la qualité (la pertinence) des
résultats obtenus ;
· Déterminer si les résultats obtenus
atteignent les objectifs globaux identifiés pendant la phase de
compréhension du métier ;
· Décider si on passe à la phase suivante
(le déploiement) ou si on souhaite reprendre l'étude en
complétant le jeu de données.
f) Déploiement des résultats obtenus
Cette phase est externe à l'analyse du datamining
.Elle concerne le maître d'ouvrage. Prendre les décisions en
conséquence des résultats de l'étude de data mining.
· Préparer la collecte des informations futures
pour permettre de vérifier la pertinence des décisions
effectivement mis en oeuvre.
43
|