WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp

Home | Publier un mémoire | Une page au hasard

Memoire Online >

Ressources humaines

Modélisation et implémentation d'un système décisionnel pour la gestion du personnel à la RVA Kananga

par Paulin KABEYA ILUNGA
Université Saint Laurent de Kananga - Licence 2021

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Conclusion partielle

Dans ce chapitre, nous avons traité les généralités sur les systèmes décisionnels (Business Intelligence) ; avons défini l'informatique décisionnelle, l'architecture de systèmes décisionnels et ses différents enjeux avec leurs fonctions ; et avons abordé les systèmes décisionnels qui sont des systèmes qui permettent aux décideurs des entreprises de prendre des décisions optimales et importantes pour une meilleure gestion des leurs entreprises. Le chapitre suivant abordera les notions de l'entrepôt de données et son fonctionnement.

14 Jarke M., Lenzerini M., Vassiliou Y., Vassiliadis P., "Fundamentals of Data Warehouses", Ed. Springer Verlag, ISBN 3-540-65365-1, 1999, p.187

CHAPITRE II: LE DATA WAREHOUSE

II.1. Introduction

Les entrepôts des données intègrent des informations en provenance de différentes sources, souvent reparties et hétérogènes ayant pour objectif de fournir une vue globale de l'information aux analystes et aux décideurs.

La construction et la mise en oeuvre d'un entrepôt de données représentent une tâche complexe qui se compose de plusieurs étapes.

La première est l'analyse des sources de données et l'identification des besoins des utilisateurs, la deuxième correspond à l'organisation des données à l'intérieur de l'entrepôt. En fin, la troisième sert à établir divers outils d'interrogation, d'analyse, et de fouille de données.

Chaque étape présente des problèmes spécifiques. Ainsi, par exemple, lors de la première étape, la difficulté principale consiste en l'intégration des données, de manière à ce qu'elles soient de qualité pour leur stockage. Pour l'organisation, il existe plusieurs problèmes comme la sélection des vues à matérialiser, le rafraichissement de l'entrepôt, la gestion de l'ensemble de données courantes et historisées.

En ce qui concerne le processus d'interrogation, nous avons besoin des outils performants et conviviaux pour l'accès et l'analyse de l'information.

II.2. Définition d'un data warehouse (DW)¹⁴

Un entrepôt de données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. Nous détaillons ces caractéristiques :

? Orientées sujet : les données des entrepôts sont organisés par sujet plutôt que par application, par exemple, une chaine de magasins d'alimentation organise les données de son entrepôt par rapport aux ventes qui ont été réalisées par produit et par magasin, au cours d'un certain temps.

? Intégrées : les données provenant de différentes sources doivent être intégrées, avant leur stockage dans l'entrepôt de données. L'intégration, c'est à dire la mise en

correspondance des formats, permet d'avoir une cohérence de l'information.

15 Samos J., Saltor F., Sistrac J., Bardés A., "Database Architecture for Data Warehousing: An evolutionary Approach", DEXA'98, Vienna (Austria), 1998, p.72

? Non volatiles : à la différence des données opérationnelles, celles de l'entrepôt sont permanentes et ne peuvent pas être modifiées .le rafraichissement de l'entrepôt consiste à ajouter de nouvelles données, sans modifier ou perdre celles qui existent.

? Historisées :la prise en compte de l'évolution des données est essentielle pour la prise de décision qui, par exemple, utilise des techniques de prédication en s'appuyant sur les évolutions passées pour prévoir les évolutions futures.

II.2.1. Objectif Du Data Ware house

L'atout principal d'une entreprise réside dans les informations qu'elle possède. Les informations se présentent généralement sous deux formes : les systèmes opérationnels qui enregistrent les données et le Data Ware house. En bref, les systèmes opérationnels représentent l'emplacement de saisie des données, et l'entrepôt de données l'emplacement de restitution¹⁵.

Ainsi voici les objectifs fondamentaux du data warehouse :

Rendre accessibles les informations de l'entreprise : le contenu de l'entrepôt doit être compréhensible et l'utilisateur doit pouvoir y naviguer facilement et avec rapidité. Ces exigences n'ont ni frontières, ni limites. Des données compréhensibles sont pertinentes et clairement définies. Par données navigables, on n'entend que l'utilisateur identifie immédiatement à l'écran le but de ses recherches et accède au résultat en un clic.

Rendre cohérente les informations d'une l'entreprise : les informations provenant d'une branche de l'entreprise peuvent être mise en corrélation avec celles d'une autre branche. Si deux unités de mesure portent le même nom, elles doivent alors signifier la même chose. A l'inverse, deux unités ne signifiant pas la même chose doivent être définie différemment. Une information cohérente suppose une information de grande qualité. Cela veut dire que l'information est prise en compte et qu'elle est complète.

Constituer une source d'information souple et adaptable : l'entrepôt de données est conçu dans la perspective de notifications perpétuelle, l'arrivé de question nouvelles ne doit bouleverser ni les données existantes ni les technologies. La conception de Data Mart distincts composant un entrepôt de données doit être répartie et incrémentielle.

16 AHMED T., MIQUEL M., LAURINI R., « Continuous data warehouse : concepts, challenges and potentials », Proc. of the 12th International Conference on Geoinformatics, 2004, p. 157-164.

Représenter un bastion sécurisé qui protège la capitale information : l'entrepôt de données ne contrôle pas seulement l'accès aux données, mais il offre à ses gestionnaires une bonne visibilité des utilisations.

Constituer la base décisionnelle de l'entreprise : l'entrepôt de données recèle en son sein les informations propres à faciliter la prise de décisions.

II.2.2. Les Composants de base du Data Warehouse¹⁶

a) Le système source : système opération d'enregistrement, dont la fonction consiste à capturer les transactions liées à l'activité.

b) Zone de préparation des données : ensemble des processus qui nettoient, transforment, combinent, archivent, suppriment les doublons, c'est-à-dire prépare les données sources en vue de leur intégration puis de leur exploitation au sein du Data Warehouse. La zone de préparation des données ne doit offrir ni service des requêtes, ni service de présentation.

c) Serveur de présentation : machine cible sur laquelle l'entrepôt de données est stocké et organisé pour répondre en accès direct aux requêtes émises par des utilisateurs, les générateurs d'état et les autres applications.

d) Data Mart : sous-ensemble logique d'un Data Warehouse, il est destiné à quelques utilisateurs d'un département.

e) Entrepôt de données : source de données interrogeable de l'entreprise. C'est tout simplement l'union des Data Marts qui le composent. L'entrepôt de données est alimenté par la zone de préparation des données. L'administrateur de l'entrepôt de données est également responsable de la zone de préparation des données.

f) OLAP (On Line Analytic Processing) : Activité globale de requêtage et de présentation de données textuelles et numériques contenues dans l'entrepôt de données ; style d'interrogation et de présentation spécifiquement dimensionnel.

g) ROLAP (Relational OLAP) : ensemble d'interface utilisateur et d'applications donnant une vision dimensionnelle des bases de données relationnelles.

h) MOLAP (Multidimensional OLAP) : ensemble d'interface utilisateur et d'applications dont l'aspect dimensionnel est prépondérant.

i) Application utilisateur : ensemble d'outils qui interrogent, analysent et présente des informations répondant à un besoin spécifique. L'ensemble des outils minimal se compose d'outil d'accès aux données, d'un tableur, d'un logiciel graphique et d'un

service d'interface utilisateur, qui suscite les requêtes et simplifie la présentation de l'écran aux yeux de l'utilisateur.

j) Outil d'accès aux données : client de l'entrepôt de données.

k) Outil de requête : types spécifique d'outil d'accès aux données qui invite l'utilisateur à formuler ses propres requêtes en manipulant directement les tables et leurs jointures.

l) Application de modélisation : type de client de base de données sophistiqués doté de fonctionnalités analytiques qui transforment ou mettent en forme les résultats obtenus ; on peut avoir :

? les modèles prévisionnels, qui tentent d'établir des prévisions d'avenir ;

? les modèles de calcul comportemental, qui catégorisent et classent les comportements d'achat ou d'endettement des clients ;

? la plupart des outils de Data mining.

m) Métadonnées : toutes informations de l'environnement du Data Warehouse qui ne constituent pas les données proprement dites.

II.3. Caractéristiques d'un Data Warehouse¹⁷

Un Data Warehouse est une base de données conçue pour l'interrogation et l'analyse plutôt que le traitement de transactions. Il contient généralement des données historiques dérivées de données transactionnelles, mais il peut comprendre des données d'autres origines.

Les Data Warehouse séparent la charge d'analyse de la charge transactionnelle. Ils permettent aux entreprises de consolider des données de différentes origines.

Au sein d'une même entité fonctionnelle, le Data Warehouse joue le rôle d'outil analytique.

En complément d'une base de données, un Data Warehouse inclut une solution d'extraction, de transformation et de chargement (ETL), des fonctionnalités de traitement analytique en ligne (OLAP) et de Data mining, des outils d'analyse client et d'autres applications qui gèrent le processus de collecte et de mise à la disposition de données.

17 INMON W.-H., Building the data warehouse, QED Publishing Group, 1992, p.57.

II.4 Entrepôts et Bases de données

Dans l'environnement des entrepôts de données, les opérations, l'organisation des données, les critères de performance, la gestion des métadonnées, la gestion des transactions et le processus de requêtes sont très différents des systèmes de bases de données opérationnels.

Par conséquent, les SGBD relationnels orientés vers l'environnement opérationnel, ne peuvent pas être directement transplantés dans un système d'entrepôt de données.

Les SGBD ont été créés pour les applications de gestion de systèmes transactionnels. Par contre, les entrepôts de données ont été conçus pour l'aide à la prise de décision. Ils intègrent les informations qui ont pour objectif de fournir une vue globale de l'information aux analystes et aux décideurs.

Le tableau suivant résume les différences entre les systèmes de gestion de bases de données et les entrepôts de données.

	SGBD	Entrepôts de données
Objectifs	Gestion et production	Consultation et analyse
Utilisateurs	Gestionnaire de production	Décideurs, analystes
Taille de base	Plusieurs giga-octets	Plusieurs téra-octéts
Organisation de données	Par traitement	Par métier
Types de données	Données de gestion (courantes)	Données d'analyse (résumées, historisées)
Requêtes	Simples, prédéterminées, données détaillées	Complexes, spécifiques, agrégations et group by
Transactions	Courte et nombreuse, temps réel	Longues, peu nombreuses

Tableau 1 : Différence entre SGBD et entrepôts de données II.4.1 Rôle d'un entrepôt de données

Le rôle primordiale d'un data warehouse apparait ainsi évident dans une stratégie décisionnelle. L'alimentation du data warehouse en est la phase la plus critique.

En effet, importer des données inutiles en portera de nombreux problèmes, cela consommera des ressources système et du temps. De plus, cela rendra le service d'analyse plus lent. Autre point à prendre en compte est la périodicité d'extraction des données ;

effectivement, le plus souvent, les opérations de collecte de données sont couteuses en ressource pour la base accédée.¹⁸

II.4.2 Systèmes transactionnels et systèmes décisionnels

Les Système de Gestion de Base de Donnée (SGBD) ont été créés pour gérer de grands volumes d'information contenus dans les différents systèmes opérationnels qui appartiennent à l'entreprise.

Ces données sont manipulées en utilisant des processus transactionnels en ligne, .parallèlement à l'exploitation de l'information contenue dans ces systèmes opérationnels, les dirigeants des entreprises ont besoin d'avoir une vision globale concernant toute cette information pour faire des calculs prévisionnels, des statistiques ou pour établir des stratégies de développement et d'analyses des tendances.

	Système transactionnel	Système décisionnel
Données	Exhaustives, courantes, dynamiques	Résumées historiques statiques
	Orientées applications	Orientées sujets (d'analyse)
Utilisateurs	Nombreux	Peu nombreux
	Varies (employés, directeurs)	Uniquement les décideurs
	Concurrentes	Non concurrentes
	Mises à jour et interrogations	Interrogations
	Requêtes prédéfinies	Requêtes imprévisibles et complexes
	Réponses immédiates	Réponses moins rapides
	Accès à peu d'informations	Accès à des nombreuses informations

Tableau 2 : compare les caractéristiques des systèmes

II.4.3 Différence entre le système OLTP et le Data warehouse

Les Data Warehouse et les Systèmes OLTP (On Line Transaction Processing) répondent à besoins très différents. Les Data Warehouse conçu pour prendre en charge des interrogations ad hoc. La taille du Data Warehouse n'est pas connue à l'avance. Par conséquent, celui-ci doit être optimisé pour offrir de bonnes performances dans le cadre d'opérations d'interrogation très diverses. Les systèmes OLTP prennent généralement en

18 Dayal U., Blaustein B. T., Buchmann A. P., Chakravarthy U. S., Hsu M., Ledin R., McCarthy D. R., Rosenthal A., Sarin S. K., Carey M. J., Livny M., Jauhari R., "The HiPAC Project: Combining Active Databases and Timing Constraints", ACM SIGMOD Record, 17(3), Chicago (Illinois, USA), 1988, p.312-322

charge des opérations prédéfinies. Les applications peuvent être réglées ou conçues spécifiquement pour ces opérations.

Un Data Warehouse est mise à jour régulièrement par les processus ETL (Extraction, Transformation and Loading), un système de chargement de données en masse soigneusement défini et contrôlé. Il n'est pas mise à jour directement par les utilisateurs. Dans les systèmes OLTP, les utilisateurs exécutent régulièrement des instructions qui modifient les données de la base. La base de données OLTP est à jour en permanence et elle reflète l'état actuel de chaque transaction¹⁹.

Les Data Warehouse utilisent souvent des schémas dénormalisés ou partiellement dénormalisés (tels que le schéma en étoile) pour optimiser les performances des interrogations. A l'inverse, les systèmes OLTP ont souvent recours à des schémas totalement normalisés pour optimiser les performances des opérations de mise à jour, d'insertion et de suppression, et pour garantir la cohérence des données. Il s'agit là des différences générales, elles ne doivent pas être considérées comme des distinctions strictes et absolues.

De manière générale, une interrogation portant sur un Data Warehouse balaye des milliers voire des millions de lignes. En revanche, une opération OLTP standard accède à quelque enregistrement seulement.

Le Data Warehouse contient généralement des données correspondant à plusieurs mois ou années. Cela permet d'effectuer des analyses historiques. Les systèmes OLTP contiennent généralement des données quelque semaine ou mois. Ils conservent uniquement des données historiques nécessaires à la transaction en cours.

II.4.4 La problématique de l'entreprise

L'entreprise construit un système décisionnel pour améliorer sa performance, elle doit décider et anticiper en fonction de l'information disponible et capitaliser sur ses expériences.

Entreprise : est une organisation dotée d'une mission et d'un objectif métier. Elle doit sa raison d'être et /ou sa pérennité au travers de différent objectifs (sécurité, développement, rentabilité ...). Par voie de conséquence, cette organisation humaine est dotée d'un centre décision.

? Rôle de décideur : il peut être le responsable de l'entreprise, le responsable d'une fonction ou d'un secteur. Il est donc celui qui engage la pérennité ou la raison d'être de l'entreprise. Pour ces raisons, il doit s'entourer de différents moyens lui

19 R. Kimball, L. Reeves, M. Ross, W. Thornthwaite, Concevoir et déployer un data warehouse, Eyrolles, Paris, 2000, page 79

20 Matthias Jarke, Thomas List, Jörg Köller, The Challenge of Process Data Warehousing, 26th International Conference on Very Large Databases, Caire, Egypt, 2000, p.112

permettant une prise de décision la plus pertinente. Parmi ces moyens, les Data Warehouse ont une place primordiale.

II.4.5 La Modélisation dimensionnelle et la Modélisation Entité/Relation

a) Modélisation Entité/Relation : est une discipline qui permet d'éclairer les relation microscopique entre les données. Dans sa forme la plus artistique, elle permet de supprimer toute redondance de données. Ceci apporte de nombreux avantages au niveau du traitement des transactions, qui deviennent alors très simples et déterministes.

b) Modélisation dimensionnelle : est une méthode de conception logique qui vise à présenter les données sous une forme standardisée intuitive et qui permet des accès hautement performants. Elle adhère totalement à la dimensionnalité ainsi qu'à une discipline qui exploite le modèle relationnel en le limitant sérieusement. Chaque modèle dimensionnel se compose d'une table contenant une clé multiple, table des faits, et d'un ensemble de tables plus petite nommées, tables dimensionnelles.

Chacune de ces dernières possède une clé primaire unique, qui correspond exactement à l'un des composants de la clé multiple de la table des faits. Dans la mesure où elle possède une clé primaire multiple reliée à au moins deux clés externes, la table des faits exprime toujours une relation n, n (plusieurs-à-plusieurs).

II.4.6. Relation entre la modélisation dimensionnelle et la modélisation entité/relation

Pour mieux appréhender la relation qui existe entre la modélisation dimensionnelle et la modélisation entité/relation, il faut comprendre qu'un seul schéma entité/relation se décompose en plusieurs schémas de table des faits.

La modélisation dimensionnelle ne se met pas à son avantage en représentant sur un même schéma plusieurs processus qui ne coexistent jamais au sein d'une série de données et à un moment donné. Ce qui le rend indûment complexe. Ainsi, la conversion d'un schéma entité/relation en une série de schémas décisionnels consiste à scinder le premier en autant de sous-schémas qu'il y a de processus métier puis de les modéliser l'un après l'autre. La deuxième étape consiste à sélectionner les relations n, n (plusieurs-à-plusieurs) contenant des faits numériques et additifs (autres que les clés) et d'en faire autant de table des faits²⁰.

La troisième étape consiste à dénormaliser toutes les autres tables en table non séquentielle dotées de clés uniques qui les relient directement aux tables des faits. Elles deviennent ainsi des tables dimensionnelles. S'il arrive qu'une table dimensionnelle soit

Les deux types d'objet les plus courants dans les schémas de Data Warehouse multidimensionnels sont les tables de faits et les tables de dimension.

reliée à plusieurs tables des faits, nous représentons cette table dimensionnelle dans les deux schémas et dirons des tables dimensionnelles qu'elles sont conformes d'un modèle à l'autre.

II.4.6.1 Avantages de la modélisation dimensionnelle

Le modèle dimensionnel possède un grand nombre d'avantages dont le modèle entité/relation est dépourvu.

Premièrement, le modèle dimensionnel est une structure prévisible et standardisée. Les générateurs d'états, outils de requête et interfaces utilisateurs peuvent reposer fortement sur le modèle dimensionnel pour faire en sorte que les interfaces utilisateurs soient plus compréhensibles et que le traitement soit optimisé.

La deuxième force du modèle dimensionnel est que la structure prévisible du schéma en étoile réside aux changements de comportement inattendus de l'utilisateur. Toutes les dimensions sont équivalentes.

La troisième force du modèle dimensionnel réside dans le fait qu'il est extensible à loisir pour accueillir des données et des besoins d'analyse non prévus au départ. Ainsi, il est possible d'accomplir :

o Ajouter des faits nouveaux non prévus initialement ;

o Ajouter des dimensions totalement nouvelles ;

o Ajouter des attributs dimensionnels nouveaux non prévus initialement ;

o Décomposer les enregistrements d'une dimension existante en un niveau de détail plus fin à partir d'une date déterminée.

II.5. Schémas d'un Data Warehouse

Un schéma est un ensemble d'objets de la base de données tels que les tables, des vues, des vues matérialisées, des index et des synonymes. La conception du schéma d'un Data Warehouse est guidée par le modèle des données source et par les besoins utilisateurs.

L'idée fondamentale de la modélisation dimensionnelle est que presque tous les types de données peuvent être représentés dans un cube de données, dont les cellules contiennent des valeurs mesurées et les angles les dimensions naturelles de données. Nos conceptions peuvent comporter plus de trois dimensions. Techniquement, il faudrait parler d'hyper cube, bien que le terme cube de données ait été adopté par le métier.

A. Les objets d'un schéma de Data Warehouse

? Tables des faits : une table de faits comprend généralement des colonnes de deux types : celles qui contiennent des faits numériques (souvent appelés indicateurs) et celles qui servent de clé étrangère vers les tables de dimension. Une table de faits peut contenir des faits détaillés ou agrégées. Les tables contenant des faits agrégés sont souvent appelées tables agrégées. une table de faits contient généralement de faits de même niveau d'agrégation. La plupart des faits sont additifs, mais ils peuvent être semi-additifs ou non additifs. Les faits additifs peuvent être agrégés par simple addition arithmétique. C'est par exemple le cas des ventes. Les faits non additifs ne peuvent pas être additionnés du tout. C'est le cas des moyennes. Les faits semi-additifs peuvent être agrégés selon certaines dimensions mais pas selon d'autres.

? Tables des dimensions et hiérarchies : une dimension est une structure comprenant une ou plusieurs hiérarchies qui classe les données en catégories. Les dimensions sont des étiquettes descriptives fournissant des informations complémentaires sur les faits, qui sont stockées dans les tables de dimension. Il s'agit normalement de valeurs textuelles descriptives. Plusieurs dimensions distinctes combinées avec les faits permettant de répondre aux questions relatives à l'activité de l'entreprise. Les données de dimension son généralement collectées au plus bas niveau de détail, puis agrégées aux niveaux supérieurs en totaux plus intéressants pour l'analyse, ces agrégations ou cumuls naturels au sein d'une table de dimension sont appelés des hiérarchies. Les hiérarchies sont des structures logiques qui utilisent les niveaux ordonnées pour organiser les données. Pour une dimension temps, par exemple, une hiérarchie peut agréger les données selon le niveau mensuel, le niveau trimestriel, le niveau annuel. Au sein d'une hiérarchie, chaque niveau est connecté logiquement aux niveaux supérieurs et inférieurs. Les valeurs des niveaux inférieurs sont agrégées en valeurs de niveau supérieur.

a) Le Schéma en Etoile

Le schéma en étoile peut être le type le plus simple de schéma de Data Warehouse, il est dit en étoile parce que son diagramme entité/relation ressemble à une étoile, avec des branches partant d'une table centrale. Un schéma en étoile est caractérisé par une ou plusieurs tables de faits, très volumineuses, qui contiennent les informations essentielles du Data Warehouse et par un certain nombre de tables de dimension, beaucoup plus petites, qui contiennent chacune des informations sur les entrées associées à un attribut particulier de la table de faits. Une interrogation en étoile est une jointure entre une table de faits et un certain nombre de table de dimensions. Chaque table de dimension est jointe à la table de faits à l'aide d'une jointure de clé primaire à clé étrangère, mais les tables de dimension ne sont pas jointes entre elles.

Les schémas en étoile présentent les avantages suivants : ils fournissent une correspondance directe et intuitive entre les entités fonctionnelles analysées par les utilisateurs et la conception du schéma. Ils sont pris en charge par un grand nombre d'outils

Le principal avantage du schéma en flocons est une amélioration des performances des interrogations due à des besoins réduits en espace de stockage sur disque et la petite

décisionnels. La manière la plus naturelle de modéliser un Data Warehouse est la représenter par un schéma en étoile dans lequel une jointure unique établit la relation entre la table de faits et chaque table de dimension. Un schéma en étoile optimise les performances en contribuant à simplifier les interrogations et à raccourcir les temps de réponse.

Les schémas en étoile présentent néanmoins quelques limites. La table centrale peut devenir très volumineuse, sa taille maximale étant déterminée par le produit des nombres de lignes des tables de dimension. En outre, les tables de dimension ne sont plus normalisées. Elles sont donc plus volumineuses et plus difficiles à tenir à jour car elles contiennent beaucoup de données dupliquées.

Figure 2: schéma en étoile

b) Le Schéma en Flocon

Les schémas en flocons normalisent les dimensions pour éliminer les redondances. Autrement dit, les données de dimension sont stockées dans plusieurs tables et non dans une seule table de grande taille. Cette structure de schéma consomme moins d'espace disque, mais comme elle utilise davantage de tables de dimension, elle nécessite un plus grand nombre de jointures de clé secondaire. Les interrogations sont par conséquent plus complexes et moins performantes.

Dans un schéma en flocon, cette même table de faits, référence les tables de dimensions de premier niveau, au même titre que le schéma en étoile.

La différence réside dans le fait que les dimensions sont décrites par une succession de tables (à l'aide de clés étrangères) représentant la granularité de l'information. Ce schéma évite les redondances d'information mais nécessite des jointures lors des agrégats de ces dimensions.

Cette figure présente un schéma multidimensionnel pour les ventes qui ont été réalisées dans les magasins pour les différents produits au cours d'un temps donné (jour)

taille des tables de dimension à joindre. Le principal inconvénient de ce schéma est le travail de maintenance supplémentaire imposé par le nombre accru de tables de dimension.

Figure 3: schéma d'un modèle en flocon

c) Schéma multi dimensionnel (CUBE)

Dans le modèle multidimensionnel, le concept central est le cube, lequel est constitué des éléments appelés cellules qui peuvent contenir une ou plusieurs mesures. La localisation de la cellule est faite à travers les axes, qui correspondent chacun a une dimension.

La dimension est composée de membres qui représentent les différentes valeurs.

Figure 4: Exemple de schéma multidimensionnel

II.6 Le Data Mart II.6.1 Introduction

Un DataMart est un sous-ensemble d'un entrepôt de données; il est généralement exploité dans les entreprises pour restituer des informations ciblées sur un métier spécifique, constituant pour ce dernier un ensemble d'indicateurs à vocation de pilotage de l'activité et d'aide à la décision. Un DataMart, selon les définitions, est issu ou fait partie d'un Data Warehouse, et en reprend par conséquent la plupart des caractéristiques.

II.6.2 Les définitions

Le DataMart est un ensemble de données ciblées, organisées, regroupées et agrégées pour répondre à un besoin spécifique à un métier ou un domaine donné. Il est donc destiné à être interrogé sur un panel de données restreint à son domaine fonctionnel, selon des paramètres qui auront été définis à l'avance lors de sa conception.

De façon plus technique, le DataMart peut être considère de deux manières différentes, attribuées aux deux principaux théoriciens de l'informatique décisionnelle, bill inmon et Ralph Kimball :

? Définition d'inmon : le DataMart est issu d'un flux de données provenant du Data Warehouse. Contrairement a ce dernier qui présente le détail des données pour toute l'entreprise, il a vocation à présenter la donnée de manière spécialisée, agrégée et regroupée fonctionnellement.

? Définition de Kimball : le DataMart est un sous-ensemble du Data Warehouse, constitue de tables au niveau détail et à des niveaux plus agrèges, permettant de restituer tout le spectre d'une activité métier. L'ensemble des DataMarts de l'entreprise constitue le Data Warehouse.

II.6.3 La place du datamart dans l'entreprise

Le DataMart se trouve en toute fin de la chaine de traitement de l'information. En règle générale, il se situe en aval d'un Data Warehouse plus global à partir duquel il est alimenté, dont il constitue en quelque sorte un extrait.

Un DataMart forme la principale interaction entre les utilisateurs et les systèmes informatiques qui gèrent la production de l'entreprise (souvent des ERP).

Dans un DataMart, l'information est préparée pour être exploitée brute par les personnes du métier auquel il se rapporte. Pour ce faire, il est appelé a être utilise via des logiciels d'interrogation de bases de données (notamment des outils de reporting) afin de renseigner ses utilisateurs sur l'état de l'entreprise à un moment donné (stock) ou sur son activité (flux).

La préparation de la donnée pour une utilisation directe, inhérente au DataMart, peut revêtir plusieurs formes. Il faut noter que toutes représentent une simplification par rapport au niveau de données inferieur ; on peut citer pour exemple : L'agrégation de données : le DataMart ne contient pas le détail de toutes les opérations qui ont eu lieu, mais seulement des totaux, repartis par groupements.

a) Le retrait de données inutiles : le DataMart ne contient que les données qui sont strictement utiles aux utilisateurs. L'historisation des données : le DataMart

contient seulement la période de temps qui intéresse les utilisateurs.

II.6.4 Datawarehouse Et Datamart

La première étape d'un projet busines intelligent est de créer un entrepôt central pour avoir une vision globale des données de chaque service. Cet entrepôt porte le nom de DataWarehouse.

On peut également parler de DataMart, si seulement une catégorie de services ou métiers est concernée.

Par définition, un DataMart peut être contenu dans un DataWarehouse, ou il peut être seulement issu de celui-ci.

II.6.5. Architecture d'un Datamart

Système transactionnel

Figure 5: Architecture d'un Data Mart

II.6.6. Data Warehouse versus Data Mart

Les Data Marts représentent de toute évidence une réponse rapide aux besoins des différents départements de l'entreprise. Leur coût moindre et leur facilité d'emploi permettent une implémentation rapide et un retour à l'investissement presque immédiat. Il faut toutefois être prudent lorsque des Datamarts sont ainsi crées pour plusieurs divisions.

Ces dernières utilisent souvent des représentations différentes de certains concepts de gestion. Par exemple, les départements finances et marketing peuvent tous deux effectué un suivi des ventes réalisées par l'entreprise, mais défini différemment ce concept. Plus tard, si un employé du marketing a besoin de recueillir certaines informations à partir du Data Marts des finances, l'entreprise sera confrontée à un problème. Par conséquent, une vision unifiée est nécessaire même pour concevoir des Datamarts par département.

II.7 Les Serveurs OLAP (On-Line Analytical Processing)

Les données opérationnelles constituent la source principale d'un système d'information décisionnel. Les systèmes décisionnels complets reposent sur la technologie OLAP, conçue pour répondre aux besoins d'analyse des applications de gestion²¹.

Nous exposons dans la suite les divers types de stockage des informations dans les systèmes décisionnels.

II.7.1 Les Serveur ROLAP (Relational Olap)

Figure 6 : Architecture ROLAP

Dans les systèmes relationnels OLAP, l'entrepôt de données utilise une base de données relationnelle. Le stockage et la gestion de données sont relationnels. Le moteur ROLAP traduit dynamiquement le modèle logique de données multidimensionnel m en modèle de stockage relationnel r, la plupart des outils requièrent que la donnée soit structurée en utilisant un schéma en étoile ou un schéma en flocon de neige.

La technologie ROLAP a deux avantages principaux :

21 Frank Ravat, Olivier Teste, Gilles Zurfluh : Modélisation et extraction de données pour un entrepôt objet, Université Paul Sabatier (Toulouse III), IRIT (Institut de Recherche en informatique de Toulouse), équipe SIG, Toulouse, France 2001, page 47

1) Elle permet la définition de données complexes et multidimensionnelles en utilisant un modèle relativement simple.

2) Elle réduit le nombre de jointures à réaliser dans l'exécution d'une requête.

Le désavantage est que le langage de requêtes tel qu'il existe, n'est pas assez puisant ou n'est pas assez flexible pour supporter de vraies capacités d'OLAP.

II.7.2 Le Serveur MOLAP (Multidimensional OLAP)

Les systèmes multidimensionnels OLAP utilisent une base de données multidimensionnelle pour stocker les données de l'entrepôt et les applications analytiques sont construites directement sur elle. Dans cette architecture, le système de base de données multidimensionnel sert tant au niveau de stockage qu'au niveau de gestion des données. Les données des sources sont conformes au modèle multidimensionnel, et dans toutes les dimensions, les différentes agrégations sont pour le calculées pour des raisons de performance.

Figure 7: Architecture MOLAP

Les systèmes MOLAP doivent gérer le problème de données clairsemées, quand seulement un nombre réduit de cellules d'un cube contiennent une valeur de mesure associée.

Les avantages des systèmes MOLAP sont bases sur les désavantages des systèmes ROLAP et elles représentent la raison de leur création. D'un cote, les requêtes MOLAP sont très puissantes et flexibles en termes du processus OLAP, tandis que, d'un autre cote, le modèle physique correspond plus étroitement au modèle multidimensionnel. Néanmoins, il existe des désavantages au modèle physique MOLAP. Le plus important, a notre avis, c'est qu'il n'existe pas de standard du modèle physique.

II.7.3 Les Serveur HOLAP (Hybrid Olap)

Un système HOLAP est un système qui supporte et intègre un stockage des données multidimensionnel et relationnel d'une manière équivalente pour profiter des caractéristiques de correspondance et des techniques d'optimisation donc c'est l'ensemble des deux serveurs MOLAP et ROLAP.

Dans la figure 7, nous montrons une architecture en utilisant les types de serveurs ROLAP et MOLAP pour le stockage de données.

Figure 8 : Architecture HOLAP

Nous traitons une liste des caractéristiques principales qu'un système HOLAP doit

fournir :

a) La transparence du système : Pour la localisation et l'accès aux données, sans connaître si elles sont stockées dans un SGBD relationnel ou dimensionnel. Pour la transparence de la fragmentation.

b) Un modèle de données général et un schéma multidimensionnel global : Pour aboutir à la transparence du premier point, tant le modèle de données général que le langage de requête uniforme doivent être fournis. Etant donné qu'il n'existe pas un modèle standard, cette condition est difficile à réaliser.

c) Une allocation optimale dans le système de stockage : Le système HOLAP Doit bénéficier des stratégies d'allocation qui existent dans les systèmes distribués tels que : le profil de requêtes, le temps d'accès, l'équilibrage de chargement.

d) Une réallocation automatique : Toutes les caractéristiques traitées ci-dessus changent dans le temps. Ces changements peuvent provoquer la réorganisation de la distribution des données dans le système de stockage multidimensionnel et relationnel, pour assurer des performances optimales.

Actuellement, la plupart des systèmes commerciaux utilisent une approche hybride. Cette approche permet de manipuler des informations de l'entrepôt de données avec un moteur ROLAP, tandis que pour la gestion des DataMarts, ils utilisent l'approche multidimensionnelle.

II.7.4. Les différents outils OLAP

a) Multidimensionnel OLAP (MOLAP)

Il est plus facile et plus cher à mettre en place, il est conçu exclusivement pour l'analyse multidimensionnelle avec un mode de stockage optimisé par rapport aux chemins d'accès prédéfinis.

MOLAP repose sur un moteur spécialisé, qui stocke le data dans format tabulaire propriétaire (Cube). Pour accéder aux données de ce cube, on ne peut pas utiliser le langage de requête sql, il faut utiliser une API spécifique.

b) Relationnal OLAP (ROLAP)

Il est plus facile et moins cher à mettre en place, il est moins performant lors des phases de calculs. En effet, il fait appel à beaucoup de jointure et donc les traitements sont plus conséquents.

Il superpose au-dessus des SGBD/R bidimensionnels un modèle qui représente les données dans un format multidimensionnel.

ROLAP propose souvent un composant serveur, pour optimiser les performances lors de la navigation dans les données. Il est déconseillé d'accéder en direct à des bases de données de production pour faire des analyses tout simplement pour des raisons des performances.

c) Hybride OLAP (OLAP)

Est une solution hybride entre les deux (MOLAP et ROLAP) qui recherche un bon compromis au niveau du cout et de la performance.

HOLAP désigne les outils d'analyse multidimensionnelle qui récupèrent les données dans de bases relationnelles ou multidimensionnelles, de manière transparente pour l'utilisateur.

Ces trois notions se retrouvent surtout lors du développement des solutions. Elles dépendent du software et hardware. Lors de la modélisation, on ne s'intéresse qu'à concevoir une modélisation orientée décisionnelle, indépendamment des outils utilisés ultérieurement.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Piètre disciple, qui ne surpasse pas son maitre !" Léonard de Vinci