Memoire Online - Mise en place d'un entrepôt de données pour l'aide à la décision médicale.

A notre encadreur Dr Fodé Camara de par sa disponibilité, son soutien et surtout ses judicieux conseils, tout au long de ce mémoire.

Nous tenons également, à exprimer notre sincère reconnaissance et notre profonde gratitude à nos parents.

La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à qui on voudrait témoigner toute notre reconnaissance.

A l'issue de ce travail, nous remercions, en premier lieu, ALLAH de nous avoir donné la santé, et le courage de le mener à terme.

Pr Ibrahima Pierre Ndiaye et tous ceux qui ont contribués de près ou de loin à la réalisation de ce mémoire.

Avant- Propos

Créée en 2001, l'Ecole Supérieure de Technologie et de Management de Dakar (ESTM) fait parti de la ligne des écoles supérieures de formation professionnelle qui ont pour ambition de former de jeunes cadres africains pour l'excellence dans le domaine des technologies et la gestion à travers l'informatique et le management.

Avec un corps professoral des experts de la place dans les domaines cités, l'ESTM est dans une posture de se démarquer de ses concurrents directs et indirects pour relever les défit du nouveau millénaire.

La fin d'une formation est toujours validée par la soutenance d'un mémoire de fin de cycle. Ainsi, chaque étudiant devient apte à recevoir un diplôme reconnu par le ministère de l'enseignement supérieur et par le conseil africain et malgache pour l'enseignement supérieur(CAMES).

Résumé

La Business Intelligence (BI) se définit comme l'ensemble des technologies permettant de traiter, valoriser et présenter les données à des fins de compréhension et de décision; elle s'appuie sur un système d'information spécifique appelé Système d'Information Décisionnel (SID).

En effet la mise en place de Systèmes d'Information Décisionnels (SID) dédiés au pilotage de la performance facilite la prise de décision et l'alignement stratégique des organisations en recherche d'efficacité et d'efficience. Ces systèmes assurent la restitution d'informations fiables, précises et pertinentes au moyen d'indicateurs structurés en tableaux de bord. Ils s'appuient sur les méthodes du contrôle de gestion et du pilotage de la performance.

Ils trouvent également une application dans le domaine de la Gouvernance des Systèmes d'Information où leurs fonctionnalités sont étendues à la mesure et au pilotage de la qualité. C'est en combinant des approches fonctionnelles bien établies, telles que le contrôle de gestion, la mesure de la qualité et de la performance, avec des technologies décisionnelles qui s'appuient sur des portails d'entreprise que les maîtres d'oeuvre des systèmes décisionnels peuvent apporter une vraie valeur aux organisations, publiques ou privées. Par opposition aux systèmes d'informations transactionnels. Les SID comportent plusieurs composants qui se résumaient autrefois en un entrepôt de données.

Un entrepôt de données est une collection de données intégrées et historiées qui sont utilisées pour la prise de décisions stratégiques au moyen de techniques de traitement analytiques. La majeure partie des outils existants pour le développement des entrepôts de données se focalise sur la structure de stockage des données. L'intérêt est principalement porté à la définition de modèles « en étoile » ou « en flocons », d'intégrer des données provenant de sources hétérogènes.

Par ailleurs, peu d'approches dirigées par les exigences sont proposées pour la conception des SID. Dans une approche d'ingénierie des exigences pour les SID, le principal but n'est pas de savoir « où » les données doivent être stockées mais « comment » elles devraient être structurées et « pourquoi » elles sont nécessaires. Le « pourquoi » n'est souvent pas connu et encore moins rattaché au « quoi ». Pourtant la prise en compte du « pourquoi » permettrait de justifier le choix des informations opérationnelles `justes nécessaires, modélisées et utilisées pour l'aide à la décision.

Business Intelligence (BI) is defined as the set of technologies for treatment, recovery and present data for purposes of understanding and decision; it relies on a specific information system called Intelligence Information System (IIS). Indeed the establishment of Decisional Information Systems (DIS) dedicated to performance management facilitates decision-making and strategic alignment of businesses for efficiency and effectiveness.

These systems provide accurate and relevant through structured indicators in dashboards restitution of reliable information. They rely on methods of management control and performance management. They also find application in the field of Governance Information Systems where their capabilities are extended to measuring and monitoring quality. By combining well-established functional approaches, such as controlling, measuring the quality and performance with decision technologies that rely on enterprise portals that contractors systems decision can bring real value to organizations, public or private it gives managers visibility into their business performance to improve the ability of the latter to react more quickly than its competitors respond to new opportunities or risks market.

As opposed to transactional information systems, DISs have several components that summarized previously in a data warehouse. A data warehouse is a collection of integrated, historical data that are used to make strategic decisions using techniques of analytical treatment. The majority of existing tools for developing data warehouse focuses on data storage structure. The interest is focused on the definition of models "star" or "fluff" to integrate data from heterogeneous sources.

Furthermore, few approaches led by the requirements are proposed for the design of DIS. In an approach to requirements engineering for the DIS, the main goal is not to know "where" the data must be stored, but "how" they should be structured and "why" they are needed. The "why" is often not known and even less attached to the "what." However, taking into account the "why" would justify the choice of operational information 'just needed' modeled and used for decision support.

Table de Matières

Introduction

Au moment où les technologies se développent, la concurrence internationale accrue, les méthodes de communication de plus en plus perfectionnées, les besoins sociaux de plus en plus nombreux, les structures des entreprises, les hommes (mentalités) doivent être capables de s'adapter aux changements. Une nouvelle approche est nécessaire : l'analyse systémique.

Dans les systèmes d'information modernes depuis quelques années, un troisième objectif a été défini : il s'agit de produire une information de connaissance, une information intelligente (qui n'était pas stockée au paravent mais qui est le produit du brassage, du croisement de plusieurs informations d'origines diverses) qui permet la prise de décision, on parle alors du système d'information décisionnel ou analytique. Ainsi les entrepôts de données intègrent les informations en provenance de différentes sources, souvent réparties et hétérogènes et qui ont pour objectif de fournir une vue globale de l'information aux analystes et aux décideurs. Ces applications d'aide à la décision sont de type OLAP (On-line Analytical Processing ou Analyse en ligne). La construction et la mise en oeuvre d'un entrepôt de données représentent une tâche complexe qui se compose de plusieurs étapes. La première consiste à l'analyse des sources de données et à l'identification des besoins des utilisateurs. La deuxième correspond à l'organisation des données à l'intérieur de l'entrepôt. Finalement, la troisième consiste à établir divers outils d'interrogation (d'analyse, de fouille de données ou d'interrogation). Chaque étape présente des problématiques spécifiques. Ainsi, par exemple, lors de la première étape, la difficulté principale consiste en l'intégration des données, de manière à qu'elles soient de qualité pour leur stockage. Pour l'organisation, ils existent plusieurs problèmes comme : la sélection des vues à matérialiser, le rafraîchissement de l'entrepôt, la gestion de l'ensemble de données (courantes et historiées), entre autres. En ce qui concerne le processus d'interrogation, nous avons besoin des outils performants et conviviaux pour l'accès et l'analyse de l'information.

Notre travail se focalise principalement sur les deux dernières étapes, ainsi, pour le processus d'organisation, nous proposons la définition d'un modèle multidimensionnel.

I. Les entrepôts de données pour l'aide à la décision

L'entrepôt de données, ou le DataWarehouse, est une collection de données orientées sujet, intégrées, non volatiles et historiées, organisées pour le support d'un processus d'aide à la décision. Il centralise toutes les données de l'entreprise. Il est structuré pour contenir une

volumétrie importante de données, les volumes de données à collecter étant de plus en plus conséquents et ne cessant d'augmenter. Ces données sont issues de sources hétérogènes. Elles peuvent être internes, bases de données, fichiers, services Web, etc, externes (clients, fournisseurs, etc.) ou encore non informatisées (lettres, notes de service, compte-rendu de réunions, etc.).

Orientées sujet : Les données des entrepôts sont organisées par sujet plutôt que par application. Par exemple, une chaine de magasins d'alimentation organise les données de son entrepôt par rapport aux ventes qui ont été réalisées par produit et par magasin, au cours d'un certain temps.

Intégrées : Les données provenant des différentes sources doivent être intégrées, avant leur stockage dans l'entrepôt de données. L'intégration (mise en correspondance des formats).

Non volatiles : A la différence des données opérationnelles, celles de l'entrepôt sont permanentes et ne peuvent pas être modifiées. Le rafraichissement de l'entrepôt, consiste à ajouter de nouvelles données, sans modifier ou perdre celles qui existent.

Historiées: La prise en compte de l'évolution des données est essentielle pour la prise de décision qui, utilise des techniques de prédiction en s'appuyant sur les évolutions passées pour prévoir les évolutions futures.

La construction d'un entrepôt revient à faire correspondre les besoins des utilisateurs avec la réalité des informations disponibles. Nous devons d'abord identifier et analyser les sources de données, ce qui nous permet de proposer les mécanismes adaptés selon les caractéristiques des informations. Ensuite, nous devons organiser l'ensemble de données à l'intérieur de l'entrepôt. Pour cela, nous devons d'abord structurer ces informations en considérant leur granularité. Ceci nous permet d'aboutir à la conception d'un schéma multidimensionnel qui permet de répondre aux besoins des utilisateurs

II. Problématique et objectif du mémoire

Les entrepôts de données ont été conçus pour l'aide à la décision. Ils intègrent les informations en provenance des différents systèmes transactionnels de l'entreprise. L'ensemble des données, y compris leur historique, est utilisé pour faire des calculs prévisionnels, des statistiques ou pour établir des stratégies de développement et d'analyses des tendances.

Dans ce mémoire, nous nous proposons d'adapter notre savoir-faire au problème de la gestion de données médicales qui constituent un cadre applicatif particulièrement intéressant. En effet, ces données se trouvent reparties dans une source qu'il faudra, dans un premier temps, fédérer pour constituer un entrepôt de données pertinentes pour l'application visée. Cette étape est importante car elle doit non seulement identifier la source, mais aussi déterminer comment extraire de celle-ci les données désirées. En plus, nous devons établir un mécanisme pour la gestion de l'évolution. Dans ce cas, il faudra déterminer l'adaptation au niveau : de l'application d'extraction, des agrégats.

En fin, comme tous les autres systèmes, un système informatique décisionnel (SID) n'est de qualité que s'il répond aux exigences de la communauté des usagers. Cela entraine que sa conception n'est pas uniquement dirigée par les données disponibles dans les SI opérationnels.

2.1. Conception d'un système pour le décisionnel

La conception d'un entrepôt de données est une tâche complexe et délicate. Nous trouvons une méthodologie descendante pour la conception d'un entrepôt.

Remplacer des valeurs anciennes par des nouvelles dans l'enregistrement de la dimension, néanmoins, nous perdons la possibilité de suivre les événements passés.

Créer de nouveaux enregistrements de dimension lors du changement qui contiennent les nouvelles valeurs de l'attribut. Ceci équivaut à segmenter l'historique selon l'ancienne et la nouvelle description.

Créer de nouveaux champs à l'intérieur de l'enregistrement d'origine de la dimension, tout en conservant en même temps les premières valeurs enregistrées.

2.2. Gestion de l'évolution des entrepôts

Le problème d'évolution d'un schéma a des conséquences sur l'application chargée de l'extraction et l'intégration de données des sources, car elle peut devenir incomplète ou incohérente vis-à-vis du nouveau schéma de l'entrepôt. Cette évolution entraine aussi l'adaptation des agrégats pré-calculés et l'adaptation du processus de maintenance.

2.3. Difficulté à spécifier et formaliser les exigences décisionnelles

Il s'avère difficile de spécifier les exigences décisionnelles. La problématique des exigences exprimées par les décideurs est qu'elles sont initialement vagues et incomplètes. Ces exigences sont de niveau stratégique. Elles ne sont souvent pas claires dans les esprits des

décideurs et nécessitent d'être complétées tout en restant cohérentes quelques soit les visions ou rôles des décideurs qui les ont formulées. Par ailleurs, un projet décisionnel implique, également, les données extraites à partir du SI opérationnel et charge dans le système celles qui permettent aux décideurs de disposer des informations nécessaires afin de les aider dans leurs prises de décision.

2.4. Objectif du mémoire

L'objectif ainsi que le contenu de ce mémoire vise à expliquer et montrer les apports fonctionnels et techniques de l'informatique décisionnelle, plus communément connue sous le nom de business intelligence, aux décideurs pour une meilleure visibilité des informations et une qualité de service accrue. En ce sens l'apport de cette nouvelle technologie permettra aux dirigeants (médecins) de réagir rapidement et efficacement dans le processus stratégique de prise de décision et de prouver :

Pourquoi construit-t-on un système décisionnel ? Comment construit-on un système décisionnel ? Nous allons articuler notre étude au tour de ces points : Le nombre de personnes atteintes de paludisme par :

? Lieux (Village, Poste de santé, District) ? Temps (jours, mois, trimestres, années)

La définition d'un Meta modèle multidimensionnel qui se compose de trois classes :Cube, Dimension et Hiérarchie.

Chapitre I : Etat de l'art sur les systèmes décisionnels

1. Entrepôts de données multidimensionnelles et aspects temporels

Les entrepôts de données sont apparus vers les années 1990 en réponse à la nécessité de rassembler toutes les informations de l'entreprise en une base de données unique destinée aux analystes et aux gestionnaires. L'ensemble des données, y compris leur historique, est utilisé dans de nombreux domaines, tels que : l'analyse de données et l'aide à la décision (gestion et analyse de marche, gestion et analyse du risque, gestion et détection des fraudes,...) ; dans d'autres applications (recherches dans des textes, dans les documents web, dans l'astronomie,...).

Dans ce chapitre, nous analysons aussi bien les caractéristiques des entrepôts que leurs aspects temporels.

1.1. Entrepôts de données

La prise de décision suppose trois éléments. De ce fait pour prendre une décision il faut : avoir des objectifs (savoir ce que l'on veut faire), disposer d'informations suffisantes par rapport à ces objectifs (savoir où l'on en est), rapprocher ces informations des objectifs pour prendre une décision qui va entraîner une action (savoir quoi faire).

Il faut donc définir des objectifs qui, pour être atteints, vont nécessiter des actions appropriées. Pour pouvoir définir ces objectifs et mesurer l'effet des actions, il faut disposer d'informations.

C'est là qu'interviennent les systèmes d'informations décisionnels. Nous présentons d'abord l'architecture d'un système décisionnel qui se compose de trois composants : les sources, l'entrepôt et les outils pour l'interrogation de l'ensemble de données. Nous décrivons aussi les caractéristiques des entrepôts et les bases de données.

1.2. Architecture d'un entrepôt de données

L'architecture des entrepôts de données repose souvent sur un Système de Gestion de Base de Données (SGBD) séparé du système de production de l'entreprise qui contient les données de l'entrepôt. Le processus d'extraction des données permet d'alimenter périodiquement ce

SGBD. Néanmoins avant d'exécuter ce processus, une phase de transformation est appliquée aux données opérationnelles. Celle-ci consiste à les préparer (mise en correspondance des formats de données), les nettoyer, les filtrer,..., pour finalement aboutir à leur stockage dans l'entrepôt.

1.3. Différence entre Entrepôts et les bases de données

Dans l'environnement des entrepôts de données, les opérations, l'organisation des données, les critères de performance, la gestion des métadonnées, la gestion des transactions et le processus de requetés sont très différents des systèmes de bases de données opérationnels. Par conséquent, les SGBD relationnels orientés vers l'environnement opérationnel, ne peuvent pas être directement transplantés dans un système d'entrepôt de données.

Les SGBD ont été créés pour les applications de gestion de systèmes transactionnels.

Par contre, les entrepôts de données ont été conçus pour l'aide à la prise de décision. Ils intègrent les informations qui ont pour objectif de fournir une vue globale de l'information aux analystes et aux décideurs.

1.4. Modélisation multidimensionnelle

La modélisation multidimensionnelle consiste à considérer un sujet d'analyse comme un point dans un espace à plusieurs dimensions. Les données sont organisées de manière à mettre en évidence le sujet (le fait) et les différentes perspectives de l'analyse(les dimensions).

1.4.1. Niveaux Conceptuels

Un Data Warehouse (DW) est basé sur une modélisation multidimensionnelle qui représente les données dans un cube.

1.4.1.1. Table de faits

Une table de faits représente l'objet de l'analyse. Elle contient principalement des mesures sous forme d'attributs représentant les éléments d'analyse. Les faits les plus utilisables sont les numériques, les valeurs continues et additives. Une mesure est un élément de donnée sur lequel porte les analyses, en fonction des différentes dimensions. Ces valeurs sont le résultat d'opérations d'agrégation sur les données.

Les mesures peuvent être par exemple, nombres de personnes atteintes, nombres de villes touchées qui sont résumées ou représentées par une moyenne. Ces mesures sont reliées chacune à une table de dimension avec des clés étrangères.

La granularité des tables de faits est une caractéristique importante expliquée par le niveau de détail des mesures représentées.

NB : La table de fait contient les valeurs des mesures et les clés vers les tables de dimensions.

1.4.1.2. Table de Dimensions

Une table de dimension est un objet qui inclut un ensemble d'attributs permettant à l'utilisateur d'avoir des mesures suivant différentes perspectives d'analyse. Les attributs sont des indicateurs pour les différentes vues d'analyses possibles. Par exemple, les ventes de produits médicaux peuvent être analysées suivant différentes régions d'un pays, suivant des catégories de produits ou suivant la combinaison de plusieurs de ces dimensions. Ces dimensions sont connectées à la table de faits par des clés étrangères. Les attributs (tels que ville, pays) d'une table de dimension sont appelés des attributs de dimensions. Les attributs d'une dimension peuvent former entre eux une hiérarchie (ville/région/pays) permettant à l'utilisateur de voir les données détaillées ou résumées suivant l'attribut en question. Une dimension peut avoir aussi des attributs descriptifs qui ne sont pas utilisés pour l'analyse tels que le numéro de téléphone, le nom d'un client, l'adresse d'un client. Les attributs descriptifs sont orthogonaux aux attributs dimensions et ils les complètent.

1.4.1.3. Hiérarchie

Il est important d'avoir des hiérarchies bien définies dans un SID. L'importance provient du fait que la prise de décision commence par des vues générales puis les informations se détaillent de plus en plus. En plus, si des outils OLAP sont utilisés pour l'analyse des

données, il est ainsi possible de réaliser des agrégations automatiques des données en s'appuyant sur les hiérarchies définies.

1.4.1.4. Granularité

La granularité est le niveau de détail des données dans un entrepôt de données. La granularité détermine le volume des données ainsi que le type des requêtes que l'utilisateur peut poser.

Pour arriver à construire un modèle approprie pour un entrepôt de données, nous pouvons choisir, soit un schéma multidimensionnel (cube), soit un schéma relationnel (le schéma en étoile, en flocon de neige ou en constellation).

1.4.2. Niveaux Logiques

Dans les schémas relationnels ou Niveaux Logiques nous trouvons deux types de schémas. Les premiers sont des schémas qui répondent fort bien aux processus de type OLTP qui ont été décrits précédemment, alors que les deuxièmes, que nous appelons des schémas pour le décisionnel, ont pour but de proposer des schémas adaptés pour des applications de type OLAP.

Nous décrivons les déférents types des schémas relationnels pour le décisionnel.

1.4.2.1. Schéma en étoile

Il se compose du fait central et de leurs dimensions. Dans ce schéma il existe une relation pour les faits et plusieurs pour les déférentes dimensions autour de la relation centrale. La relation de faits contient les déférentes mesures et une clé étrangère pour faire référence à chacune de leurs dimensions.

1.4.2.2. Le schéma en flocon de neige (Snowflake)

Il dérive du schéma précédent avec une relation centrale et autour d'elle les déférentes dimensions, qui sont éclatées ou décomposées en sous hiérarchies. L'avantage du schéma en flocon de neige est de formaliser une hiérarchie au sein d'une dimension, ce qui peut faciliter l'analyse. Un autre avantage est représenté par la normalisation des dimensions, car nous réduisons leur taille. Cependant, ce type de schéma augmente le nombre de jointures à réaliser dans l'exécution d'une requête réduisant ainsi la navigation.

1.4.2.3. Le schéma en constellation

Le schéma en constellation représente plusieurs relations de faits qui partagent des dimensions communes. Ces déférentes relations de faits composent une famille qui partage les dimensions mais où chaque relation de faits a ses propres dimensions.

1.5. ServeursOLAP (On-Line Analytical Processing)

Les données opérationnelles constituent la source principale d'un système d'information décisionnel. Les systèmes décisionnels complets reposent sur la technologie OLAP, conçue pour répondre aux besoins d'analyse des applications de gestion.

L'acronyme FASMI (FastAnalysis of Shared Multidimensional Information) permet de résumer la définition des produits OLAP. Cette définition fut utilisée pour la première fois en 1995 et depuis aucune autre définition n'est plus proche pour résumer le terme OLAP.

Fast : Le temps de réponse aux demandes des utilisateurs oscille entre 1 et 20 secondes. Les constructeurs utilisent des pré-calculs pour réduire les durées des requêtes.

Analysis : Le système doit pouvoir faire face à toutes les logiques d'affaires et de statistiques, ainsi que fournir la possibilité aux utilisateurs de construire leurs calculs et leurs analyses sans avoir à programmer. Pour cela, il y a des outils qui seront fournis par le constructeur.

Shared : Le système doit créer un contexte où la confidentialité est préservée et doit gérer les cas où plusieurs utilisateurs ont des droits en écritures. Ce point constitue la plus grosse faiblesse des produits actuels.

Multidimensional : C'est la caractéristique clé. Le système doit fournir des vues conceptuelles multidimensionnelles des données. Il doit supporter aussi les hiérarchies.

Informations : L'ensemble des données et les informations nécessaires pour un produit OLAP.

Nous exposons dans la suite les divers types de stockage des informations dans les systèmes décisionnels.

1.5.1. ROLAP (Relational OLAP)

Dans les systèmes relationnels OLAP, l'entrepôt de données utilise une base de données relationnelle. Le moteur ROLAP traduit dynamiquement le modèle logique de données multidimensionnel M en modèle de stockage relationnel R (la plupart des outils requièrent que la donnée soit structurée en utilisant un schéma en étoile ou un schéma en flocon de neige).

La technologie ROLAP a deux avantages principaux : elle permet la définition de données complexes et multidimensionnelles en utilisant un modèle relativement simple. Elle réduit le nombre de jointures à réaliser dans l'exécution d'une requête.

Le désavantage est que le langage de requêtes tel qu'il existe, n'est pas assez puisant ou n'est pas assez flexible pour supporter de vraies capacités d'OLAP.

1.5.2. MOLAP (Multidimensional OLAP)

Les systèmes multidimensionnels OLAP utilisent une base de données multidimensionnelle pour stocker les données de l'entrepôt et les applications analytiques sont construites directement sur elle. Dans cette architecture, le système de base de données multidimensionnel sert tant au niveau de stockage qu'au niveau de gestions données. Les données des sources sont conformes au modèle multidimensionnel dans toutes les dimensions, les différentes agrégations sont pré-calculées pour des raisons de performance.

Les avantages des systèmes MOLAP sont basés sur les désavantages des systèmes ROLAP et elles représentent la raison de leur création. D'un côté, les requêtes MOLAP sont très

puissantes et flexible en termes du processus OLAP, tandis que, d'un autre côté, le modèle physique correspond plus étroitement au modèle multidimensionnel.

Néanmoins, il existe des désavantages au modèle physique MOLAP. Le lus important, à notre avis, c'est qu'il n'existe pas de standard du modèle physique.

1.5.3. HOLAP (Hybrid OLAP)

Un système HOLAP est un système qui supporte et intègre un stockage des données multidimensionnel et relationnel d'une manière équivalente pour profiter des caractéristiques de correspondance et des techniques d'optimisation.

Ci-dessous, nous traitons une liste des caractéristiques principales qu'un système HOLAP doit fournir :

La transparence du système : Pour la localisation et l'accès aux données, sans connaître si elles sont stockées dans un SGBD relationnel ou dimensionnel. Pour la transparence de la fragmentation,...

Pour aboutir à la transparence du premier point, tant le modèle de données général que le langage de requête uniforme doivent être fournis. Etant donné qu'il n'existe pas un modèle standard, cette condition est difficile à réaliser.

Le système HOLAP doit bénéficier des stratégies d'allocation qui existent dans les systèmes distribués tels que : le profil de requêtes, le temps d'accès, l'équilibrage de chargement,...

Toutes les caractéristiques traitées ci-dessus changent dans le temps. Ces changements peuvent provoquer la réorganisation de la distribution des données dans le système de stockage multidimensionnel et relationnel, pour assurer des performances optimales.

Actuellement, la plupart des systèmes commerciaux utilisent une approche hybride.

Cette approche permet de manipuler des informations de l'entrepôt de données avec un moteur ROLAP, tandis que pour la gestion des datamarts, ils utilisent l'approche multidimensionnelle.

Chapitre II : Conception et mise en place de notre entrepôt de données

2.1. Le cycle de développement

La conduite d'un projet informatique, tel que le développement d'un système d'information, fait appel à des méthodes formalisées dont les principales sont : Les méthodes séquentielles dites en cascade et les méthodes itératives (évolutive, objet).

Depuis des décennies, les projets sont gérés avec une approche classique, le plus fréquemment « en cascade » ou son adaptation « en V », basée sur des activités séquentielles : on recueille les besoins, on définit le produit, puis on le développe, ensuite on le test avant de le livrer au client.

Vu que les besoins évoluent en permanence pour répondre aux changements du marché, ces approches prédictives se sont révélées trop « rigides »parfois, sont alors apparues, dans les années 1990, des méthodes moins prédictives ; ce sont les méthodes dites « agiles».

Après une étude exploratoire des méthodes de conduite de projet et pour répondre aux objectifs fixés en début, le cycle de développement en « V » s'est révélé le plus approprié pour ce travail.

Le model en « V » a été imaginé suite au problème de réactivité du model en cascade. Il permet en cas d'anomalie de limiter le retour aux étapes précédentes.

Les phases de la partie montantes doivent renvoyer de l'information sur les phases en vis -à-vis lorsque des défauts afin d'améliorer le logiciel.

Figure 10 : Processus de développement du projet tiré du modèle en « V »

2.2. Choix du modèle multidimensionnel

Notre choix c'est porté sur le modèle en flacon de neige car simple à alimenter, celui-ci permet une bonne lisibilité et une bonne performance des requêtes. Il sera constitué de tables de dimensions, et d'une table de fait. La table de fait contiendra des données normalement numériques, puisque d'ordre quantitatif.

Il s'agira des clés primaires de chaque table de dimension et des mesures (nombre de personne infecté qui sera analysé en fonction de chaque dimension). En effet les dimensions citées précédemment nous serviront d'axes d'analyses pour les faits enregistrés.

Figure 11 : Représentation du modèle en flacon de neige « pour l'indicateur Paludisme »

2.3. Processus ETL

L'intégration des données est une étape clé dans la mise en oeuvre de ce projet. En effet, l'objectif de cette partie est de mener une réflexion sur des solutions et outils afin alimenter les tables de la base de données. Parmi ces outils, on notera les ETL (Extract, Transform, Load).

2.3.1. Définition d'un outil ETL

Un ETL est une boite à outil (pro-logiciel) qui permet ainsi l'Extraction, la Transformation et le chargement (Load) de données depuis des sources diverses(bases de données, fichiers ,...) vers des cibles préalablement définies. Les ETL sont communément utilisés dans l'informatique décisionnelle afin de permettre l'alimentation des datawarehouses (entrepôts de données).

De nombreux systèmes de gestion de bases de données sont supportés nativement en lecture/écriture (Oracle, MSQL Server, DB2, MYSQL,...).De nombreux types de fichiers peuvent également être lus ou écrits: Csv, Excel, Txt, XML, ...

Notons que la plupart des ETL disposent d'une interface graphique permettant l'élaboration des différents scénarios d'intégration.

Le travail des développeurs en est ainsi grandement facilité, tant au niveau de la conception que de la maintenance des traitements de données.

2.3.2. La phase d'alimentation

Elle se compose des zones de sources de données et d'extraction, de transformation et de chargement des données.

L'entrepôt de données est composé de différentes tables qu'il va falloir remplir avec des données provenant souvent de sources diverses et hétérogènes.

C'est ainsi que dans une organisation ou entreprise, les informations peuvent être stockées sous différentes formes : soit dans une base de données, dans un fichier, dans un tableau, etc.

Il existe donc plusieurs sources de données pour alimenter un entrepôt de données. Les sources de données peuvent être constituées des différentes bases de données (MYSQL, Oracle, Access ...), des fichiers Excel, des fichiers textes, pages web, etc.

? La zone d'extraction, de transformation et de chargement des données (ETL ou Extract Transform and Load)

Pour alimenter l'entrepôt de données, on utilise un ETL. Cet outil peut être conçu manuellement. Il peut aussi s'agir de logiciels propriétaires ou open source (code source ouvert et sans licence) conçus spécialement à cet effet.

Il extrait les données à partir de leur source, procède aux transformations nécessaires et effectue le chargement de celles-ci dans l'entrepôt de données. Ainsi il permet de manière cohérente d'agréger, de classifier, de normaliser, de qualifier, de nettoyer et de consolider les données extraites.

2.4. Etude de quelques solutions décisionnelles

Avant de s'orienter vers la création de solutions décisionnelles complètes, les projets open source se concentraient chacun sur un point bien précis du décisionnel.

Ainsi, les projets BIRT ou Jasper Reports permettent de composer et générer des rapports, et les projets Mondrian et JPivot permettent de présenter des données sous forme multidimensionnelle. Ces projets étaient et sont encore destinés à être intégrés en tant que « composants » dans des développements spécifiques. Certaines plateformes décisionnelles open source se basent sur ces composants déjà bien rodés et les intègrent de façon à constituer une solution homogène, dans laquelle toutes les fonctionnalités sont disponibles dans un cadre unique et rendues interopérables.

Dans cette partie, nous allons présenter les principaux composants décisionnels disponibles en open source, que l'on peut regrouper dans les catégories suivantes :

? Designer de rapport : BIRT, Jasper Report (i Report) et Pentaho Report Designer,

2.4.1. Spago BI

Spago est une plateforme collaborative dédiée à l'informatique décisionnelle complètement réalisée en open source. C'est une suite d'outils intégrés facilitant le développement et la mise en oeuvre de solutions de business intelligence quel que soit le métier ou le secteur d'activité. Cette plateforme fédère plus de vingt logiciels open source existant. Leur intégration s'est faite en s'appuyant sur le middleware J2EE Spago Object Web, un serveur de séparation vues/traitement/données de type MVC, qui comporte des composants de messagerie et de dialogue XML. Spago couvre un large périmètre fonctionnel : les analyses OLAP (Mondrian), le datamining (Weka), les requêtes, la restitution (Open Report). Spago comporte également

le logiciel d'ETL Enhydra Octopus. SpagoBI permet un développement très flexible
permettant de « mixer » l'open source avec des solutions propriétaires. Son grand avantage est donc sa capacité d'intégration, ce qui permet de travailler indépendamment par briques séparées et une meilleure répartition du travail. Son inconvénient principal est que c'est une solution jeune dans un secteur en pleine évolution, il faut donc se tenir régulièrement au courant quant à l'ajout de nouveaux composants et de fonctionnalités.

2.4.2. Pentaho

Pentaho est un projet ambitieux visant à créer une plateforme décisionnelle complète. Son but n'est pas de proposer une alternative open source en matière de décisionnel, mais bien concurrencer les leaders du marché BI. Pentaho se fonde sur des briques logiciels open sources confirmées pour monter une plateforme robuste. Le projet Pentaho est dirigé par André Boisvert, un des meilleurs visionnaires du monde décisionnel, qui a dirigé les principales entreprises de ce secteur depuis 25 ans. A ses côtés, James Dixon, ancien pilier de Hyperion, et plusieurs autres « pointures » du décisionnel. Elle seule, cette équipe crédibilise le projet Pentaho.

2.4.3. Birt

BIRT (Business Intelligence Reporting Tools) est un outil de Reporting indépendant. Ce logiciel a été créé en 2005 et fait partie de la communauté Eclipse. BIRT peut être intégré la suite Pentaho dans son serveur au travers d'actions spécialement créées pour le démarrage et le paramétrage de rapports. BIRT est considéré comme un outil simple d'utilisation tout en fournissant une série de fonctionnalités facilitant la création de rapports de type Business Intelligence. Il en va du tableau croisé jusqu'à la possibilité de représenter un set de données du rapport sous forme de cube, simplifiant la création d'agrégations et de regroupements. L'environnement de développement est doté d'un composant permettant la prévisualisation des rapports dans Eclipse. Parmi les inconvénients majeurs de Birt nous pouvons cités la manque de certaines fonctionnalités ce qui contraint l'utilisateur à l'associer à un voir plusieurs outils pour bien réaliser un projet de business intelligence.

2.4.4. Talend Master Management (TMDM)

Talend Master Data Management est une composante de la suite d'intégration de donnéesopen source Talend. Elle fournit une plateforme permettant d'intégrer, nettoyer, surveiller etpublier les données référentielles d'une entreprise.

En s'intégrant dans la suite ETL de Talend, Talend MDM permet de faire de l'échange en tempsréel entre un référentiel de données et des bases d'application hétérogène.

D'un point de vue technique, les données référentielles sont stockées dans une base de données XML eXistdb.

Le serveur MDM Talend est une application JEE déployée dans un serveur JBoss donnant accès à de nombreux services Web. Du point de vue utilisateur, on dispose d'une application Web permettant d'interagir avec la base de données référentielle.

2.4.5. Le serveur Mondrian

Le serveur Mondrian fait partie de la catégorie des serveurs « ROLAP », c'est à dire qu'il accède à des données contenues dans une base relationnelle .Mondrian exécute des requêtes utilisant le langage MDX, également utilisé par d'autres moteurs OLAP, tel que celui de Microsoft SQL Server. Ce langage permet de créer des requêtes dont l'équivalent en langue SQL nécessiterait un grand nombre de requêtes et des temps d'exécution beaucoup plus longs.

Mondrian est particulièrement puissant et permet d'optimiser les temps de réponse en utilisant des tables d'agrégats, créées au préalable, mais permet également de réaliser des calculs complexes, en comparant des éléments sur la dimension temps ou en gérant des hiérarchies récursives dissymétriques.

2.4.6. JPivot

JPivot est un client OLAP disposant d'une interface Web. Il permet de représenter un cube OLAP sous forme de tableau croisé multidimensionnel et d'effectuer les opérations classiques d'analyse (drill down, drill up, rotations, filtres ...) de façon interactive.

Il permet également d'afficher un graphique correspondant aux données présentées entableau, qui est mis à jour au fur et à mesure de l'exploration. Il est possible d'exporter tableau et graphique sous forme de fichier PDF imprimable ou de document Excel afin de réutiliser les données obtenues.

2.5. Choix de la solution

Les Trois plateformes citées plus haut représentent un grand pas l'open source en matière de décisionnel car elles offrent désormais des solutions traitant plusieurs aspect du BI. Cependant notre choix s'est porté sur Pentaho car cette solution présente plus d'avantages que Spago BI et Birt.

2.5.1. Présentation de Pentaho

Pentaho est une plate-forme décisionnelle open source complète possédant les caractéristiques suivantes :

ETL (intégration de données), reporting, tableaux de bord ("Dashboards"), analyse ad hoc (requêtes à la demande), analyse multidimensionnelle (OLAP);

les « one-clic users », utilisateurs de base, consommateurs d'indicateur prédéfinis, les utilisateurs avancés, qui ont besoin d'outils d'analyse et d'exploration avancés ;

d'un serveur Web J2EE permettant de mettre à disposition l'ensemble des ressources décisionnelles et ceci au travers d'URL Web uniques et standardisées. Le serveur est dénommé "Pentaho User Console" (PUC), plusieurs clients riches permettant la conception et la publication des ressources. Ces derniers sont librement téléchargeables et peuvent être installés sous des environnements Windows, Linux ou MacOs (clients Java) ;

? le serveur Web Pentaho comporte également une plate-forme d'administration (Pentaho Administration Console) pour la gestion des droits d'accès, la planification d'évènements, la gestion centralisée des sources de données... ;

? Pentaho est reconnue pour être une solution d'une grande qualité conceptuelle et technique. La plate-forme est orientée « processus » : au travers de « séquences d'actions » on peut ainsi modéliser avec Pentaho des workflows BI avancés ;

? il n'est pas besoin de connaître JAVA pour travailler avec Pentaho : seule la maîtrisedu langage SQL est nécessaire, ainsi que des connaissances de base en XML, HTMLet JavaScript. Il faut bien sûr s'auto former (ou être formé) aux clients de conception ;

? une communauté importante et très active s'anime autour de Pentaho. Celle-cicontribue au codage de nombreux plugins et de projets communautaires : pluginsKettle, PentahoAnalysisTool, Pentaho Community Dashboard Framework, etc.

Pentaho est une suite décisionnelle open source commerciale qui reste très « ouverte ».Les différences fonctionnelles entre la version libre (Community edition) et la versionpayante (enterprise edition) restent limitée. La version libre de Pentaho permet d'installer une plate-forme décisionnelle complète !

Le projet Pentaho est aujourd'hui un des leaders les plus en vue des logiciels Open Source pour le Business Intelligence.

Nombreux sont d'ailleurs les projets qui composent la suite Pentaho à avoir officiellement rejoint le projet : Mondrian, le serveur OLAP utilisé par toutes les plateformes Open Source faisant du décisionnel, l'outil d'ETL Kettle et le générateur de rapports JFree Report. La suite logicielle Pentaho BI est composée de plusieurs projets de logiciels indépendants s'étant regroupés en une communauté appelée Pentaho Corporation. On peut citer :

? Pentaho Data Integration (PDI) : anciennement appelé Kettle qui est un outil ETL (Extract Transform Load) complet, pouvant être utilisé indépendamment de la plateforme Pentaho. Il est comparable à Talend Open Studio en terme de fonctionnalité ;

? Pentaho Design Studio : Client Eclipse de modélisation de workflows BI (Xactions) propre à Pentaho. Design Studio permet de mettre en oeuvre de nombreuses ressources BI en minimisant l'écriture de code (envoi de mails automatisé par ex.) ;

? Pentaho Metadata : Client riche permettant la mise en place d'une couches émantique d'abstraction (métadonnées) sur la couche physique (tables et colonnes d'une base de données). Le but est de rendre les objets d'un SGBD compréhensibles et manipulables par un utilisateur final afin de lui permettre d'effectuer ses propres requêtes et ceci sans connaîtrele langage SQL. La couche de métadonnées peut être utilisée dans le raquetteur Web ad hoc, dans Pentaho Report Designer et dans Pentaho Design Studio ;

Pentaho Report Designer : Client de conception de rapports avancés. Il s'agit d'unoutil de mise en page similaire à iReport, Eclipse BIRT, Crystal Reports...Permet de se connecter à de nombreuses sources de données : SGBD, XML, Excel,CSV, flux de données venant de Kettle, MDX (OLAP)...

Pentaho SchemaWorkbench : Client riche permettant la définition des schémas Mondrian à partir d'un modèle en étoile ou flocon de l'entrepôt de données. Un autre outil, Pentaho Agrégation Designer (PAD), permet de construire et de charger automatiquement des tables d'agrégation en vue d'améliorer les performances lors du requêtage des cubes Mondrian ;

La plateforme Pentaho Business Intelligence : pour la publication des rapports et la réalisation des analyses OLAP sous forme de service web. La plupart des outils sont utilisés par d'autres plateformes (BI ou Business intelligence) comme SPAGO BI ou OPENI. Cependant ses outils sont indépendants les uns vis-à-vis des autres lors de l'utilisation et chacun pouvant être démarré indépendamment de l'autre.

2.5.2. Prise en main de Pentaho

La prise en main de Pentaho est très rapide en effet il suffit d'abord d'installer une machine virtuelle JDK et de télécharger les dernières versions de chacune d'entre elles, puis de les décompresser n' importe où sur le disque dur. Ainsi après avoir téléchargé PentahoV4, on double clic sur le dossier contenant PentahoV4 voici le chemin D:\ABDAAW\memoire2014\Pentaho v4\data-integration.

Figure 14 : Représentation de la page d'accueil de Pentaho Data Integration

Chapitre lll: Implémentation de la solution

3.1. Intégration des données avec Pentaho Data Integration

L'intégration des données constitue une étape très importante car étant le point de départ de tout système décisionnel. Cette phase commence par le choix des sources de données. Dans notre cas la source de données provient d'un fichier Excel.

Nous allons lancer Wamp Server afin de pouvoir créer nos bases de données MySQL qui servira de L'ODS. L'ODS, c'est une structure intermédiaire de gestion de données. Elle permet de stocker des données issues d'un système de production opérationnelle de manière temporaire, permettant un traitement ultérieur par des outils spécifiques.

Des données sont récupérées et intégrées en étant filtrées pour obtenir une autre base de données. Cette base peut alors subir un traitement supplémentaire, permettant d'avoir d'autres informations. Nous avons alors un accès plus rapide, car les données redondantes sont éradiquées.

Lançons à présent l'outil Pentaho Data Integration et au niveau de la page d'accueil qui s'affiche,

Cliquer sur le menu Fichier, pointer sur nouveau, une nouvelle transformation pour créer une transformation.

Cliquer sur l'onglet Navigateur puis pointer sur Connexion et cliquer sur nouveau voici la fenêtre Database Connexion qui s'affiche. Dans cette fenêtre on définit le nom de la connexion (gestion_maladie_2014), le type de base de données (MYSQL), le type de serveur (localhost) et le type d'utilisateur (root).

A côté de navigateur se trouve l'onglet palette de création. Nous allons nous placer sur Extraction qui contient les étapes pour récupérer différents formats de données source.

Dans notre cas on fait un drag-drop de l'étape «Extraction depuis excel» et faire glisser sur l'espace de travail.

On ouvre l'étape « Extraction des donnés de puis excel » pour récupérer notre source d données en cliquant sur parcourir puis sur ajoute.

Le menu Feuilles permet d'ajouter une référence a chaque source ainsi, on clique sur « Récupérer le nom des feuilles »

A tout instant On peut Pré visualiser les champs à partir de «Prévisualiserlignes » ou aller

dans le menu Champs pour récupérer les champs et leurs types grâce à « Récupérer les champs depuis la ligne d'en tète ».

Nous ferons de même dans le sous menu Transformation en choisissant «Altération structure flux» après avoir établis la liaison entre les deux étapes.

Maintenant nous allons cliquer sur Altération structure flux, sélectionner pour récupérer les champs. Mais aussi métadonnées toujours pour récupérer les champs et valider pour finir.

La même chose sera pour l'étape Insertion et mise à jour où on définit le nom de la table cible dans Mysql, puis la clé de recherche

A présent, on clique sur SQL pour générer la requête SQL de création de table

En fin on clique sur exécuter pour démarrer la transformation

Nous allons maintenant exécuter la transformation afin que les données soient chargées dans l'Opérational Data Store (l'ODS).

Lancement de Wamp Serveur pour vérifier que le Data Warehouse est bien alimenté.

3.2. Alimentation Datamart

Notre transformation consiste à importer des données à partir de d'une table (table patient) de l'ODS, à manipuler l'information s'y trouvant et à créer une nouvelle structure en bout de ligne qui n'est rien d'autre qu'un magasin de données (Datamart conformément à la modélisation en flocon de neige de la Figure 11 : Représentation du modèle en flacon de neige « pour l'indicateur Paludisme ».

Comme pour le data L'ODS, Une connexion à la base de données et nécessaire et la source de données sera l'entrepôt déjà alimenté.

On clique sur Extraction depuis table pour renseigner le champ « Connexion » en y mettant le nom de la connexion à la base de données source et la requête SQL qui permettra de récupérer les champs qui seront extraient depuis la table concernée.

De la même façon que précédemment pour l'étape « Altération structure flux », il est important de récupérer les champs. Mais aussi métadonnées toujours pour récupérer les champs et valider pour finir.

On clique sur l'étape création plages de nombres afin de définit les champs sources et destinations. Cette étape permet de définir les tranches d'âge.

Maintenant pour chaque dimension on définit la connexion, le nom de la table de dimension et on récupère les champs composants la clé de dimension sans oublier l'identifiant de chaque table.

Regardons dans Wamp Server pour voir et vérifier si la table de fait a été créée et si les données ont bien été chargées.

3.3. Création de rapport avec Pentaho Report Designer

Pour la création de rapports, nous avons choisis Pentaho Report Designer qui est un outil de conception graphique de rapports avancés et permet de se connecter à de nombreuses sources de données : SGBD, XML, Excel, CSV, flux de données.

Il est par ailleurs possible de générer des rapports en masse en utilisant l'ETL Pentaho Data Integration, dans lequel on retrouve une étape de génération de rapports faisant appel au fichier prpt conçu avec PRD.

Pour lancer PENTAHO REPORT DESIGNER, il faut double cliquer sur le fichier de commande Windows se trouvant dans D:\ABDAAW\prd-ce-5.1.0.0-752\report-designer, une page d'accueil guide l'utilisateur vers les étapes indispensables de création du rapport :

Un assistant, le Report Wizard, permet d'établir une nouvelle connexion mais également de se connecter à un méta modèle (dictionnaire de données) de Pentaho :

Il s'agit ici d'une avancée importante dans les outils de reporting open source et PRD a été le premier, fin 2007, à permettre à un utilisateur de créer un rapport sans aucune connaissance SQL.

Et maintenant, nous allons voire le nombre de paludéens suivant la dimension trimestre.

Pentaho Report Designer est un outil simple à manipuler, bien intégré à la suite décisionnelle Pentaho pour la gestion des paramètres ou la publication sur la plateforme web. On regrettera cependant dans PRD l'impossibilité de créer des tableaux croisés sauf à pointer sur un schéma Mondrian existant.

3.4. Analyse des données avec la plateforme Bi lite Cube

Bi-Lite-il Zero est un constructeur OLAP Cube disponible dans un certain nombre d'édition, qui permet créer des cubes à la porté de quiconque qui est familier avec MS Access ou SQL Serveur.

En tant qu'utilisateur Bi-Lite Cube offre une méthode rapide et efficace de produire des prototypes entièrement fonctionnels

On va transformer notre Datamart MYSQL en une base Access grâce à notre outil PDR tout en se référent à la Figure 26 : Représentation du Model Multidimensionnel

Figure 42 : Concevoir la requête de rapport à l'aide du concepteur visuel de requêtes

Conclusion

La prise de décision dans de multiples domaines, tels que le management, l'évaluation de la performance d'un processus business ou la prise de décision stratégique dans l'entreprise, exige la manipulation et l'analyse de grandes quantités de données qui sont généralement dispersées dans l'entreprise. Il est, ainsi, nécessaire de les rassembler et de les intégrer d'une manière cohérente afin de pouvoir restituer l'information requise.

Pour la réalisation de ce travail notre choix s'est porté sur la plate forme Pentaho qui est un outil Open source de Business Intelligence.

Ainsi nous avons pu réaliser au cours de notre travail les taches qui nous ont été confiées à savoir :

En fin ce travail nous à permis de comprendre l'importance du système d'information décisionnel (SID) qui doit être capable d'assurer quatre fonctions fondamentales : la collecte, l'intégration, la diffusion et la présentation des données. À ces quatre fonctions s'ajoute une fonction d'administration

ANNEXE

Figure 10 : Processus de développement du projet tiré du modèle en « V » 27

Figure 11 : Représentation du modèle en flacon de neige « pour l'indicateur Paludisme » 28

Figure 42 : Concevoir la requête de rapport à l'aide du concepteur visuel de requêtes 56

BIBLIOGRAPHIE

? Pentaho Data Integration 4Cookbook, Adrián Sergio Pulvirenti et María Carina Roldán

Mise en place d'un entrepôt de données pour l'aide à la décision médicale.

Remercîment