Memoire Online - Analyse et détection de l'attrition dans une entreprise de télécommunication

Merci Dieu tout puissant, car tu m'avais dit : « je rendrai ton nom grand. Sois en bénédiction. Je bénirai ceux qui te béniront, qui te bafouera je le maudirai. En toi seront bénies toutes les familles de la terre ». Genèse 12 :2-3

DEDICACE

A mes chers parents Marcel KAPUPA TAYULA et maman Hélène KODJELA OMALOKENGE, pour la dignité de qui vous vous battez et l'affection que vous ne cessez de témoigner plusieurs années durant. Je vous dis grand merci pour le soutien inlassable à l'ultime combat.

REMERCIEMENTS

Entre le passé ou sont enfouis nos souvenirs et le futur ou germe notre espérance, il y a le présent où se situe notre devoir. Dans cette perceptive s'approprier le prix d'une oeuvre d'aussi passionnante serait sans doute une marque d'ingratitude dont le poids fait grève aux mots. Dans ce contexte, il est digne qu'un tel travail ne puisse pas prendre forme qu'avec les contributions des un et des autres.

A vous monsieur le possesseur le prof Simon NTUMBA, je le remercie d'avoir accepté apporter les premières briques de l'édifice. En outre, de la confiance qu'il m'a témoignée en m'intégrant au sein de son équipe de travail.

Nous tenons à remercier le corps académique de l'université notre dame du kasayi en général et en particulier la Faculté des sciences informatiques pour le savoir et opportunités offertes au profit de notre formation.

Nous pensons modestement à toute la famille qui n'a pas arrêté de nous donner toute l'affection et soutien nécessaires : Rebecca KAPUPA, Me Junior KAPUPA, François KAPUPA, Me OKUNDJI O et Mme Cathy KAPUPA , Papa Djonga N. et Christine KAPUPA .

A mes cousins et cousines ; nièces et neveux ; tantes et oncles ainsi qu'à mes grands parents. Très reconnaissant de votre soutien tant financier, moral que matériel.

Nos pensées à toutes les autres personnes qui nous sont d'une portée particulière : Dr DJAMBA LAMA, Maman LOSOKOLA, famille Célestin DJONGA LOKANDU, maman Antoinette AHONDJU, les anciens du Collège d'Amitié Wetshikoy, et ceux qui ne sont pas cités en cet instant, qu'ils savent que nous gardons un très bon souvenir de leur apport.

Nous tenons particulièrement à l'Ir Dadou Tedia ; de sa bonne volonté de mettre à notre disposition son imprimante pour l'impression de ce texte.

A tous mes amis et connaissances, sans oubliés les compagnons de situations difficiles, pour de raison de modestie, je me réserve de citer les noms. Très reconnaissant de vos conseils, encouragement, et encadrement.

GLOSSAIRE

Ø CHURN :Change Turn (expiration de la ligne téléphonique d'un client due à son arrêt de son activité

Ø SIM : Subscriber Identity Module (carte à puce identifiant l'abonné sur le réseau GSM)

LISTE DES FIGURES

0. INTRODUCTION GENERALE

Depuis ces deux dernières décennies, les entreprises commerciales sont en possession d'une remarquable quantité de données concernant leurs clients (passés et présents) à tel point que ce potentiel n'est pas exploité de manière optimale. Or, c'est justement cette capacité à en tirer parti qui peut vous démarquez dans la situation de concurrence.

Certes, il est arrivé alors la nécessité de fouiller, torturer les données des clients dans les entrepôts pour en dégager les corrélations, relations entre les clients pour une prise de décision.

Face à de telles constations, il est évident de constituer un support d'aide à la décision pour s'imprégner de toutes les données de clients en se basant sur l'exploitation de bases de données évoluées à l'aide des techniques de datamining qui mettent en oeuvre de puissants outils d'extraction des connaissances à partir des données.

0.1 PROBLEMATIQUE

La perte des clients d'une entreprise appelée communément « attrition (churn) » constitue un vrai problème pour les entreprises évoluant dans les différents secteurs d'activité surtout en situation de concurrence.

Nul n'ignore que ce phénomène n'a pas épargné le secteur de la télécommunication.

Vodacom évoluant dans ce secteur est buttée aussi à ce phénomène pour ses abonnés, très surtout en situation de concurrence.

A cet effet, la prise de décision pour la Direction des Marketing pour la réduction de ce phénomène suscite trop d'interrogations pour l'éradiquer:

Ø Quels sont les abonnés fragiles au vu de leurs profils d'utilisation du réseau ?

Ø Quelle est la zone géographique la plus affectée par l'attrition de la clientèle ?

0.2 HYPOTHESES

Ce travail s'inscrit dans le cadre de la fouille de données et des méthodes de traitement de l'information de l'entreprise. Basé sur des études récentes sur les comportements des abonnés afin de maitriser l'attrition de la clientèle.

Du fait que dans la téléphonie prépayée, les clients ne sont pas engagés contractuellement et peuvent cessez leur activité sans préavis. Afin d'estimer l'effort de la fidélisation qui peut être engagé au cas par cas, l'opérateur doit donc distinguer les clients fidèles et fragiles et sur quels facteurs ajuster pour modifier leurs comportements.

Pour y parvenir, nous pensons mettre sur pied un entrepôt de données regroupant tous les abonnés à une période donnée avec leurs différentes caractéristiques en utilisant les techniques de datamining qui met en oeuvre des outils pointus permettant de maitriser ce phénomène c'est-à-dire les profiler afin de dégager les tendances, relations inconnues a priori. La méthode de classification hiérarchique automatique répond à cette problématique d'exploitation de bases de données volumineuses. Cette technique Opère des partitions dynamiques (classes homogènes)en terme de comportements d'un ensemble d'abonnés en définissant un critère de ressemblance ( par rapport à la zone géographique, durée d'appels entrants, durée d'appels sortant...).

0.3. CHOIX ET INTERET DU SUJET

Notre travail s'intitule ''analyse et détection de l'attrition de la clientèle dans une entreprise de télécommunication, étude menée au sein de Vodacom Congo/Kananga''

En effet, L'heure est la gestion de la relation avec les clients pour favoriser leur fidélisation à long terme. Les opérations de marketing étant très couteuses, les décideurs ont besoin d'avoir la clarté sur les abonnés afin de savoir sur quels facteurs agir pour les fidéliser. Combattre le coût élevé de la perte de la clientèle, il est possible d'employer des techniques de plus en plus sophistiquées pour analyser les raisons de la perte de la clientèle et quels clients sont les plus fragiles et fidèles. Ces informations peuvent être utilisées par les services de marketing d'une entreprise de télécommunication (notamment de Vodacom-Congo/Kananga) pour mieux cibler les campagnes de recrutement et permettre une surveillance active de la base d'appels des abonnés afin de repérer leurs comportements.

0.4. DELIMITATION DU SUJET

Ø Profiler les clients avec objectif d'avoir une idée sur leurs caractéristiques (comportements) afin de les cibler;

Ø Concevoir un entrepôt de données regroupant tous les abonnés et utiliser les outils de datamining permettant de les torturer et en dégager des mesures;

Ø Réduire le taux d'attrition au sein de l'entreprise dans une période de 6 mois ;

Ø Appliquer la classification automatique hiérarchique qui consiste à opérer un regroupement des abonnés par rapport à critère. Regrouper les abonnés par rapport à la zone géographique, nombre d'appels sortants, nombre d'appels entrants, nombre de messages sortants et entrants... afin d'avoir une idée sur le facteur à agir pour les fidéliser.

0.5 METHODES ET TECHNIQUES UTILISEES

Ø Technique documentaire : Elle nous a permis d'élaborer notre approche théorique en consultant les ouvrages, les mémoires, les travaux de fin de cycle et les notes de cours qui cadrent avec notre sujet.

Ø Technique d'interview : Cette technique nous a permis d'obtenir les informations fiables auprès des personnes et agents qui travaillent dans les entreprises commerciales.

Ø Méthode historique : cette méthode nous a permis à connaitre les activités des années passées sur les ventes.

Ø Méthode statistique : elle nous a aidés à réaliser divers calculs (classification des différentes variables comparatives d'une période à l'autre) de toutes les activités de vente possibles. cette l'application de cette méthode a été possible grâce à quelques techniques dont nous avons fait usage :

Ø Internet : C'est une bibliothèque universelle, elle nous a procuré des informations nécessaires à la réalisation du présent travail.

0.6 CANEVAS DU TRAVAIL

Hormis l'introduction générale et la conclusion générale, notre mémoire comporte quatre chapitres, à savoir :

CHAPITRE I : GENERALITES SUR LE DATA WARE HOUSE (ENTREPOT DE DONNEES) [3],[5],[4]6],[8],[9], [17]

Ce chapitre explicite de manière claire les concepts fondamentaux et arguments généralement utilisés dans les discussions ayant trait au data ware house. Ceux-ci y sont présentés concernant l'entrepôt de données mais en général ils seront autant que possible étayés par des exemples provenant du secteur de la télécommunication notamment dans son volet de la réduction de l'attrition.

I.1 INTRODUCTION

Le concept d'entrepôt de données a été formalisé pour la première fois en 1990 par Bill Immon. Il s'agissait de constituer une base de données orientée sujet, intégrée et contenant des informations historisées, non volatiles et exclusivement destinés aux processus d'aide à la décision.

En effet, la simple logique de production (produire pour répondre à une demande) ne suffit plus pour pérenniser. Elle est un système ouvert sur son environnement au coeur des systèmes d'informations confrontées à des phénomènes économiques et sociaux lourds de conséquences. Pour faire face aux nouveaux enjeux , l'entreprise doit collecter , traiter , analyser les informations de son environnement pour anticiper le changement.

Il devient fondamental de rassembler et d'homogénéiser les données afin de permettre l'analyse des indicateurs pertinents pour faciliter la prise de décision. L'objet de l'entrepôt de données est de définir et d'intégrer une architecture qui serve de fondation aux applications décisionnelles.

I.1.1 Définition

Un entrepôt de données ou data warehouse se définit comme un ensemble des données orienté sujet non volatile, historisée, résumée, disponible pour l'interrogation et l'analyse et organisée pour le support d'un processus d'aide à la décision. « Bill Inmon ».

Les données de l'entrepôt proviennent de différentes sources éventuellement hétérogènes. L'intégration consiste à résoudre les problèmes d'hétérogénéité des systèmes de stockage, des modèles de données, de sémantique de données.

Le Data Warehouse est organisé au tour des sujets majeurs de l'entreprise. L'intérêt de cette organisation est de disposer de l'ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l'entreprise.

Tout se conserve, rien ne se perd : cette caractéristique est primordiale dans les entrepôts de données. En effet, et contrairement aux bases de données classiques, un entrepôt de données est accessible en ajout ou en consultation uniquement. Les modifications ne sont autorisées que pour des cas particuliers (correction d'erreurs...etc.).

La conservation de l'évolution des données dans le temps, constitue une caractéristique majeure des entrepôts de données. Elle consiste à s'appuyer sur les résultats passés pour la prise de décision et faire des prédictions ; autrement dit, la conservation des données afin de mieux appréhender le présent et d'anticiper le futur.

Les informations issues des sources de données doivent être agrégées et réorganisées afin de faciliter le processus de prise de décision.

Les utilisateurs doivent pouvoir consulter les données en fonction de leurs droits d'accès. L'entrepôt de données doit comporter un module de traitement des requêtes, exprimées dans un langage, doté d'opérateurs puissants, pour l'exploitation de la richesse du modèle.

I.2 LE ROLE DU DATA WAREHOUSE

Le rôle primordial d'un data warehouse apparaît ainsi évident dans une stratégie descensionnelle. L'alimentation du data warehouse en est la phase la plus critique, En effet, importer des données inutiles apportera de nombreux problèmes. Cela consommera des ressources système et du temps. De plus, cela rendra les services d'analyses plus lents. Autre point à prendre en compte et la périodicité d'extraction des données.

Effectivement, le plus souvent, les opérations de collecte de données sont coûteuses en ressource. Il faut donc trouver un équilibre entre le délai acceptable entre deux mises à jours des tables du data warehouse et les ressources consommées. Comme nous l'avons indiqué, le Data warehouse est le centre de chaîne décisionnelle, les utilisateurs n'auront accès qu'aux outils de requête et d'analyse. Toutes parties de l'alimentation et celles de restitution des données sont gérées par une équipe informatique interne ou externe à l'entreprise spécialisée en gestion de base de données et en décisionnel.

I.3 OBJECTIFS DU DATA WAREHOUSE

L'important d'une entreprise réside dans les informations qu'elle possède. Les informations se présentent généralement sous deux formes : les systèmes opérationnels qui enregistrent les données et le Data Warehouse. En bref, les systèmes opérationnels représentent l'emplacement de saisie des données, et l'entrepôt de données l'emplacement de restitution.

a) Rendre accessibles les informations de l'entreprise : le contenu de l'entrepôt doit être compréhensible et l'utilisateur doit pouvoir y naviguer facilement et avec rapidité. Ces exigences n'ont ni frontières, ni limites. Des données compréhensibles sont pertinentes et clairement définies. Par données navigables, on n'entend que l'utilisateur identifie immédiatement à l'écran le but de ses recherches et accède au résultat en un clic.

b) Rendre cohérente les informations d'une l'entreprise : les informations provenant d'une branche de l'entreprise peuvent être mise en corrélation avec celles d'une autre branche. Si deux unités de mesure portent le même nom, elles doivent alors signifier la même chose. A l'inverse, deux unités ne signifiant pas la même chose doivent être définie différemment. Une information cohérente suppose une information de grande qualité. Cela veut dire que l'information est prise en compte et qu'elle est complète.

c) Constituer une source d'information souple et adaptable : l'entrepôt de données est conçu dans la perspective de notifications perpétuelle, l'arrivé de question nouvelles ne doit bouleverser ni les données existantes ni les technologies. La conception de Data Mart distincts composant un entrepôt de données doit être répartie et incrémentielle.

d) Représenter un bastion sécurisé qui protège la capitale information : l'entrepôt de données ne contrôle pas seulement l'accès aux données, mais il offre à ses gestionnaires une bonne visibilité des utilisations.

e) Constituer la base décisionnelle de l'entreprise : l'entrepôt de données recèle en son sein les informations propres à faciliter la prise de décisions.

I.4 ARCHITECTURE DE DATA WARE HOUSE

L'architecture d'un ED, représentée dans la figure ci - dessus, s'articule autour de trois phases : l'intégration, la restructuration, et l'exploitation (Inmon, 1996b).

Les systèmes opérationnels, bases de données indispensable à la vie d'une entreprise, permet d'avoir une activité journalière (gestion de stocks, base des fournisseurs/clients, etc.). Ceci n'est pas le rôle d'un Data warehouse, couplé à des outils de datamining, il n'a pour unique but de faciliter la prise de décision en apportant une vue synthétisée de l'ensemble des données de l'entreprise éparpillées dans toutes ces bases opérationnelles.

Les données ayant été identifiées, elles doivent être extraites de leurs système sources, transformées puis acheminées jusqu'aux serveurs de présentation. Elles sont en suite mise à disposition dans le but d'être utilisées efficacement par les clients du Data warehouse.

L'élaboration de l'architecture et l'établissement des priorités doivent en premier lieu être piloté par les besoins métier. L'architecture du Data warehouse présente les processus et les outils qui s'appliquent aux données. Elle répond aux questions : comment récupérer les données sources, comment leur donner une forme répondant aux besoins et comment les placer à un endroit accessible ? Les outils, les utilisateurs, le code, tout ce qui donne vie à l'entrepôt de données fait partie de l'architecture. Ces composants constituent les pompes et les canalisations qui régulent les flux des données et les dirigent au bon endroit au bon moment. Les emplacements d'origine et de destination des données font également partie de l'architecture. Cette dernière répond aux questions suivantes :

Ø Les outils, les utilisateurs, le code, tout ce qui donne vie à l'entrepôt de données fait partie de l'architecture. Cette dernière s'articule aussi autour de trois phases :

- L'intégration : cette étape est assez délicate, car elle consiste à extraire et regrouper les données provenant des sources multiples et hétérogènes. Certain nombre des problèmes est à résoudre à ce niveau : les données doivent être filtrées, tirées, homogénéisées et nettoyées ;

- La restitution : cette étape consiste à réorganiser les données dans des magasins afin d'apporter efficacement les processus d'analyses et d'interrogations, et d'offrir aux différents utilisateurs, des vues appropriées à leurs besoins ;

- Interrogation et analyse : l'exploitation de l'entrepôt, pour l'aide à la décision peut se faire des différentes façons, dont :

- La connexion à des composants de report, pour des représentations graphiques et tabulaires ;

I.4.1 Caractéristique d'un Data Warehouse

a. Un Data Warehouse est une collection de données conçue pour l'interrogation et l'analyse plutôt que le traitement de transactions. Il contient généralement des données historiques dérivées de données transactionnelles, mais il peut comprendre des données d'autres origines. Les Data Warehouse séparent la charge d'analyse de la charge transactionnelle. Ils permettent aux entreprises de consolider des données de différentes origines. Au sein d'une même entité fonctionnelle, le Data Warehouse joue le rôle d'outil analytique.

b. En complément d'une base de données, un Data Warehouse inclut une solution d'extraction, de transformation et de chargement (ETL), des fonctionnalités de traitement analytique en ligne (OLAP) et de Data mining, des outils d'analyse client et d'autres applications qui gèrent le processus de collecte et de mise à la disposition de données.

I.4.2 Les composants de base du Data Warehouse

a. Le système source : est le système d'opération d'enregistrement, dont la fonction consiste à capturer les transactions liées à l'activité.

b. Zone de préparation des données : ensemble des processus qui nettoient, transforment, combinent, archivent, suppriment les doublons, c'est-à-dire prépare les données sources en vue de leur intégration puis de leur exploitation au sein du Data Warehouse. La zone de préparation des données ne doit offrir ni service des requêtes, ni service de présentation.

c. Serveur de présentation : machine cible sur laquelle l'entrepôt de données est stocké et organisé pour répondre en accès direct aux requêtes émises par des utilisateurs, les générateurs d'état et les autres applications.

d. Data Mart : sous-ensemble logique d'un Data Warehouse, il est destiné à quelques utilisateurs d'un département.

e. Entrepôt de données : source de données interrogeable de l'entreprise. C'est tout simplement l'union des Data Marts qui le composent. L'entrepôt de données est alimenté par la zone de préparation des données. L'administrateur de l'entrepôt de données est également responsable de la zone de préparation des données.

f. OLAP (On Line Analytic Processing) : Activité globale de requêtage et de présentation de données textuelles et numériques contenues dans l'entrepôt de données ; style d'interrogation et de présentation spécifiquement dimensionnel.

g. ROLAP (Relational OLAP) : ensemble d'interface utilisateur et d'applications donnant une vision dimensionnelle des bases de données relationnelles.

h. MOLAP (Multidimensional OLAP) : ensemble d'interface utilisateur et d'applications dont l'aspect dimensionnel est prépondérant.

i. Application utilisateur : ensemble d'outils qui interrogent, analysent et présente des informations répondant à un besoin spécifique. L'ensemble des outils minimal se compose d'outil d'accès aux données, d'un tableur, d'un logiciel graphique et d'un service d'interface utilisateur, qui suscite les requêtes et simplifie la présentation de l'écran aux yeux de l'utilisateur.

k. Outil de requête : types spécifique d'outil d'accès aux données qui invite l'utilisateur à formuler ses propres requêtes en manipulant directement les tables et leurs jointures.

l. Application de modélisation : type de client de base de données sophistiqués doté de fonctionnalités analytiques qui transforment ou mettent en forme les résultats obtenus ; on peut avoir :

- les modèles prévisionnels, qui tentent d'établir des prévisions d'avenir ;

- les modèles de calcul comportemental, qui catégorisent et classent les comportements d'achat ou d'endettement des clients ;

g. Métadonnées : toutes informations de l'environnement du Data Warehouse qui ne constituent pas les données proprement dites.

I.4.3 Différence entre les Systèmes OLTP et le Data Warehouse

Les Data Warehouse et les Systèmes OLTP (On Line Transaction Processing) répondent à besoins très différents. Les Data Warehouse conçu pour prendre en charge des interrogations. La taille du Data Warehouse n'est pas connue à l'avance. Par conséquent, celui-ci doit être optimisé pour offrir de bonnes performances dans le cadre d'opérations d'interrogation très diverses.

Les systèmes OLTP prennent généralement en charge des opérations prédéfinies. Les applications peuvent être réglées ou conçues spécifiquement pour ces opérations. Un Data Warehouse est mise à jour régulièrement par les processus ETL (Extraction, Transformation and Loading), un système de chargement de données en masse soigneusement défini et contrôlé. Il n'est pas mise à jour directement par les utilisateurs.

Dans les systèmes OLTP, les utilisateurs exécutent régulièrement des instructions qui modifient les données de la base. La base de données OLTP est à jour en permanence et elle reflète l'état actuel de chaque transaction. Les Data Warehouse utilisent souvent des schémas dénormalisés ou partiellement dénormalisés (tels que le schéma en étoile) pour optimiser les performances des interrogations. A l'inverse, les systèmes OLTP ont souvent recours à des schémas totalement normalisés pour optimiser les performances des opérations de mise à jour, d'insertion et de suppression, et pour garantir la cohérence des données. Il s'agit là des différences générales, elles ne doivent pas être considérées comme des distinctions strictes et absolues.

De manière générale, une interrogation portant sur un Data Warehouse balaye des milliers voire des millions de lignes. En revanche, une opération OLTP standard accède à quelque enregistrement seulement. Le Data Warehouse contient généralement des données correspondant à plusieurs mois ou années. Cela permet d'effectuer des analyses historiques. Les systèmes OLTP contiennent généralement des données quelque semaine ou mois. Ils conservent uniquement des données historiques nécessaires à la transaction en cours.

I.5. MODELISATION DIMENSIONNELLE

Cette modélisation est une méthode de conception logique qui vise à présenter les données sous une forme standardisée intuitive et qui permet des accès hautement performants. Elle adhère totalement à la dimensionnalité ainsi qu'à une discipline qui exploite le modèle relationnel en le limitant sérieusement. Chaque modèle dimensionnel se compose d'une table contenant une clé multiple, table des faits, et d'un ensemble de tables plus petite nommées, tables dimensionnelles. Chacune de ces dernières possède une clé primaire unique, qui correspond exactement à l'un des composants de la clé multiple de la table des faits.

Dans la mesure où elle possède une clé primaire multiple reliée à au moins deux clés externes, la table des faits exprime toujours une relation n,n (plusieurs à plusieurs).

I.5.1 Relation entre la Modélisation Dimensionnelle et la Modélisation Entité/Relation

Pour mieux appréhender la relation qui existe entre la modélisation dimensionnelle et la modélisation entité/relation, il faut comprendre qu'un seul schéma entité/relation se décompose en plusieurs schémas de table des faits.

La modélisation dimensionnelle ne se met pas à son avantage en représentant sur un même schéma plusieurs processus qui ne coexistent jamais au sein d'une série de données et à un moment donné. Ce qui le rend indûment complexe. Ainsi, la conversion d'un schéma entité/relation en une série de schémas décisionnels consiste à scinder le premier en autant de sous schémas qu'il y a de processus métier puis de les modéliser l'un après l'autre.

La deuxième étape consiste à sélectionner les relations n,n (plusieurs à plusieurs) contenant des faits numériques et additifs (autres que les clés) et d'en faire autant de table des faits.

La troisième étape consiste à dénormalisés toutes les autres tables en table non séquentielle dotées de clés uniques qui les relient directement aux tables des faits. Elles deviennent ainsi des tables dimensionnelles. S'il arrive qu'une table dimensionnelle soit reliée à plusieurs tables des faits, nous représentons cette table dimensionnelle dans les deux schémas et dirons des tables dimensionnelles qu'elles sont conformes d'un modèle à l'autre.

I.5.2 Avantages de la modélisation dimensionnelle

Le modèle dimensionnel possède un grand nombre d'avantages dont le modèle entité/relation est dépourvu. Premièrement, le modèle dimensionnel est une structure prévisible et standardisée. Les générateurs d'états, outils de requête et interfaces utilisateurs peuvent reposer fortement sur le modèle dimensionnel pour faire en sorte que les interfaces utilisateurs soient plus compréhensibles et que le traitement soit optimisé. La deuxième force du modèle dimensionnel est que la structure prévisible du schéma en étoile réside aux changements de comportement inattendus de l'utilisateur. Toutes les dimensions sont équivalentes. Le troisième avantage du modèle dimensionnel réside dans le fait qu'il est extensible à pour accueillir des données et des besoins d'analyse non prévus au départ. Ainsi, il est possible d'accomplir :

Ø Décomposer les enregistrements d'une dimension existante en un niveau de détail plus fin à partir d'une date déterminée ;

I.6 SCHÉMAS D'UN DATA WAREHOUSE

Un schéma est un ensemble d'objets de la base de données tels que les tables, des vues, des vues matérialisé, des index et des synonymes. La conception du schéma d'un Data Warehouse est guidée par le modèle des données source et par les besoins utilisateurs. L'idée fondamentale de la modélisation dimensionnelle est que presque tous les types de données peuvent être représentés dans un cube de données, dont les cellules contiennent des valeurs mesurées et les angles les dimensions naturelles de données .

A. les objets d'un schéma de Data Warehouse

Les deux types d'objet les plus courants dans les schémas de Data Warehouse sont les tables de faits et les tables de dimension.

La table de faits est la clef de voûte du modèle dimensionnel où sont stockés les indicateurs de performances. Le concepteur s'efforce de considérer comme indicateurs les informations d'un processus d'entreprise dans un système d'information. Les indicateurs étant les données les plus volumineuses d'un système d'information, on ne peut se permettre de les dupliquer dans d'autres tables mais de les rationaliser au sein de la table de faits.

Une table de faits comprend généralement des colonnes de deux types : celles qui contiennent des faits numériques (souvent appelés indicateurs) et celles qui servent de clé étrangère vers les tables de dimension. Une table de faits peut contenir des faits détaillés ou agrégées. Les tables contenant des faits agrégés sont souvent appelées tables agrégées. Une table de faits contient généralement de faits de même niveau d'agrégation. La plupart des faits sont additifs, mais ils peuvent être semi additifs ou non additifs.

Les faits additifs peuvent être agrégés par simple addition arithmétique. C'est par exemple le cas des ventes. Les faits non additifs ne peuvent pas être additionnés du tout. C'est le cas des moyennes. Les faits semi additifs peuvent être agrégés selon certaines dimensions mais pas selon d'autres. C'est le cas, par exemple des niveaux de stock. Une table de faits doit être définie pour chaque schéma. Du point de vue de la modélisation, la clé primaire de la table de faits est généralement une clé composée qui est formée de toutes les clés étrangères associées.

Une dimension est une structure comprenant une ou plusieurs hiérarchies qui classe les données en catégories. Les dimensions sont des étiquettes descriptives fournissant des informations complémentaires sur les faits, qui sont stockées dans les tables de dimension. Il s'agit normalement de valeurs textuelles descriptives. Plusieurs dimensions distinctes combinées avec les faits permettant de répondre aux questions relatives à l'activité de l'entreprise.

Les données de dimension son généralement collectées au plus bas niveau de détail, puis agrégées aux niveaux supérieurs en totaux plus intéressants pour l'analyse, ces agrégations ou cumuls naturels au sein d'une table de dimension sont appelés des hiérarchies. Les hiérarchies sont des structures logiques qui utilisent les niveaux ordonnées pour organiser les données.

Pour une dimension temps, par exemple, une hiérarchie peut agréger les données selon le niveau mensuel, le niveau trimestriel, le niveau annuel. Au sein d'une hiérarchie, chaque niveau est connecté logiquement aux niveaux supérieurs et inférieurs. Les valeurs des niveaux inférieurs sont agrégées en valeurs de niveau supérieur.

I.6.1 Le Schéma en Etoile

Le schéma en étoile peut être le type le plus simple de schéma de Data Warehouse, il est dit en étoile parce que son diagramme entité/relation ressemble à une étoile, avec des branches partant d'une table centrale.

Un schéma en étoile est caractérisé par une ou plusieurs tables de faits, très volumineuses, qui contiennent les informations essentielles du Data Warehouse et par un certain nombre de tables de dimension, beaucoup plus petites, qui contiennent chacune des informations sur les entrées associées à un attribut particulier de la table de faits. Une interrogation en étoile est une jointure entre une table de faits et un certain nombre de table de dimensions. Chaque table de dimension est jointe à la table de faits à l'aide d'une jointure de clé primaire à clé étrangère, mais les tables de dimension ne sont pas jointes entre elles.

Dans un schéma en étoile, une table centrale de faits contenant les faits à analyser, référence les tables de dimensions par des clefs étrangères. Chaque dimension est décrite par une seule table dont les attributs représentent les diverses granularités possibles.

Les schémas en étoile présentent les avantages suivants : ils fournissent une correspondance directe et intuitive entre les entités fonctionnelles analysées par les utilisateurs et la conception du schéma. Ils sont pris en charge par un grand nombre d'outils décisionnels. La manière la plus naturelle de modéliser un Data Warehouse est la représenter par un schéma en étoile dans lequel une jointure unique établit la relation entre la table de faits et chaque table de dimension. Un schéma en étoile optimise les performances en contribuant à simplifier les interrogations et à raccourcir les temps de réponse. Les schémas en étoile présentent néanmoins quelques limites.

I.6.2 Le Schéma en Flocon

Les schémas en flocons normalisent les dimensions pour éliminer les redondances. Autrement dit, les données de dimension sont stockées dans plusieurs tables et non dans une seule table de grande taille. Cette structure de schéma consomme moins d'espace disque, mais comme elle utilise davantage de tables de dimension, elle nécessite un plus grand nombre de jointures de clé secondaire. Les interrogations sont par conséquent plus complexes et moins performantes.

Dans un schéma en flocon, cette même table de faits, référence les tables de dimensions de premier niveau, au même titre que le schéma en étoile. La différence réside dans le fait que les dimensions sont décrites par une succession de tables (à l'aide de clefs étrangères) représentant la granularité de l'information. Ce schéma évite les redondances d'information mais nécessite des jointures lors des agrégats de ces dimensions.

Le principal avantage du schéma en flocons est une amélioration des performances des interrogations due à des besoins réduits en espace de stockage sur disque et la petite taille des tables de dimension à joindre.

Le principal inconvénient de ce schéma est le travail de maintenance supplémentaire imposé par le nombre accru de tables de dimension.

1.6.3 Les schémas en constellation de faits

Dans un schéma en constellation, plusieurs modèles dimensionnels se partagent les mêmes dimensions, c'est-à-dire, les tables de faits ont des tables de dimensions en commun.

Pour conclure, les différences entre ces trois modèles sont faibles et ne peuvent donner lieu à des comparaisons de performance. Ce sont des schémas issus de la modélisation dimensionnelle utilisés par les outils décisionnels.

1.7 CONSTRUCTION DU DATA WAREHOUSE

Supposons que votre entreprise ait décidée de construire un Data Warehouse. Vous avez défini les besoins et la portée de votre application et vous avez crée un projet conceptuel. Vous devez ensuite traduire vos besoins en une solution système. Pour ce faire, vous créez la conception logique et la conception physique du Data Warehouse.

1.7.1 La Conception logique

Une conception logique est conceptuelle et abstraite. A ce stade, il n'est pas nécessaire de s'intéresser aux détails de l'implémentation physique. Il suffit de définir les types d'informations correspondant à vos besoins. L'une des techniques utilisée pour modéliser vos besoins logiques en matière d'informations est la modélisation entité/relation (E/R).

La modélisation E/R consiste à identifier les données importantes (entités), leurs propriétés (attributs) et les liens entre entités (relations). Dans le cadre de la modélisation, une entité représente une tranche d'informations. Dans les bases de données relationnelles, une entité correspond souvent à une table, un attribut est un composant d'une entité qui permet de définir l'unicité de cette entité. Dans les bases de données relationnelles, un attribut correspond à une colonne. Pour garantir la cohérence des données, vous devez utiliser des identifiant uniques. Un identifiant unique est ajouté aux tables pour permettre de distinguer les éléments qui apparaissent à différents endroits.

En pratique, il s'agit habituellement d'une clé primaire. La technique de modélisation entité/relation est traditionnellement associée à des modèles très normalisés comme les applications OLTP. Elle est néanmoins utile pour la conception de Data Warehouse, sous la forme d'une modélisation multidimensionnelle.

Dans le cadre d'une telle modélisation, vous identifiez les informations qui appartiennent à une table de faits centrale et celles qui appartiennent à une table de dimension associées. Vous identifiez les sujets ou champs de données, vous définissez les relations entre ces sujets et vous nommez les attributs correspondant à chaque sujet.

La conception logique doit inclure un ensemble d'entités et d'attributs correspondant à des faits et des tables de décision, un modèle de transformation des données opérationnelles source en informations orientées sujet dans le schéma de Data Warehouse cible.

1.7.2 La Conception Physique

Pendant le processus de la conception physique, vous convertissez les données collectées pendant la phase de la conception logique en une description de la structure physique de la base de données. Les principaux aspects qui orientent les décisions relatives à la conception physique sont les performances des interrogations et la maintenance de la base de données. Le processus de conception physique consiste à convertir les schémas prévus en structures de base données réelles. A ce stade, vous devez associer :

1.7.3 Alimentation du Data Warehouse par les outils ETL

Les données contenues dans un data warehouse sont issues des différentes bases de données de l'entreprise. Ces bases de production, systèmes opérants de l'entreprise, correspondent à l'ensemble des applications informatiques utilisées au quotidien dans l'entreprise pour son activité (gestion de production, gestion bancaire, gestion commerciale,...). Les informations qui y sont stockées, propres à chaque application, peuvent parfois être utilisées par d'autres programmes, par l'intermédiaire de transferts de données, couramment appelés interfaces.

Nous allons donc voir les outils et les méthodes permettant d'alimenter un data warehouse tout en minimisant l'impact sur les systèmes de productions.

La majorité des systèmes d'information d'entreprise sont de nature hétérogène car les systèmes d'informations de l'entreprise s'élaborent le plus souvent sur de longues périodes. Bien que la standardisation des échanges entre les divers outils informatiques avance à grand pas, la disparité des formats des données en circulation est toujours une réalité. C'est le principal obstacle technologique aux échanges d'informations.

Avant d'être utilisables, les données de l'entreprise doivent être mises en forme, nettoyées et consolidées. Les outils ETL (Extract, Transform, Load) permettent d'automatiser ces traitements et de gérer les flux de données qui alimentent l'entrepôt. Ces outils d'alimentation permet aussi de paramétrer des règles de gestion, propres à l'entreprise et à son secteur d'activité. Ces règles visent elles aussi à assurer la cohérence entre les données et à ne stocker dans l'entrepôt de données que des informations préalablement mises en relation les unes avec les autres.

Les outils ETL font référence à plusieurs opérations qui s'articulent autour de trois axes majeurs :

L'extraction des données est la première des étapes des systèmes ETL. Le but de cette étape, est comme son nom l'indique , la lecture et l'extraction des données du système source. On imagine facilement que cette étape s'avère être critique. En effet, dans le cas ou le système source doit fonctionner en permanence (24h/24 et 7jours sur 7), il faut que l'extraction, opération coûteuse en ressources, doit être fait le plus rapidement possible et souvent durant un laps de temps précis (souvent nommé « extract window »), décidé en collaboration des équipes chargés de la gestion et/ou de l'exploitation de ce système source.

La complexité de l'extraction n'est pas dans le processus de lecture, mais surtout dans le respect de l'extract window. Cette contrainte est la principale raison de la séparation extraction / transformation. D'autre part, on essaye au maximum d'extraire seulement les données utiles (Mise à jour ou ajoutée après la dernière extraction) et pour ce faire on pourrait s'entendre avec le responsable du système source pour ajouter soit un flag ou encore des dates dans chacune des tables extraites, au moins deux dates : Date de création de l'enregistrement dans la table et la date de mise à jour (En général la plupart des systèmes sources disposent de ces deux dates).

Par ailleurs pour ne pas perdre des données suites à des problèmes d'extraction, il est important de s'assurer que le système source ne purge pas les données avant que l'entrepôt ne les ait extraits. Le processus d'extraction est une des taches ETL les plus consommatrices de temps car, outre la complexité des différents systèmes source, la détermination exacte des données à extraire est difficile. De plus, ce processus est répétitif, parfois dans des intervalles de temps très rapprochés. La définition du processus d'extraction revient à choisir une méthode d'extraction des données source, un processus de transport et un processus de mise à jour de l'entrepôt (Data Warehouse).

c' est l'opération qui réalise le déplacement des données du système source vers le système cible. Par exemple, le transport s'effectue :

ü D'un système source vers l'entrepôt ou vers une zone de préparation (zone intermédiaire de stockage) ;

La transformation est la tâche la plus complexe et qui demande beaucoup de réflexion.

Le chargement permet de transférer les données vers leur destination finale. 3 cas de figures se présentent, celons l'architecture mise en place.

Ø De charger les données dans l'entrepôt de données :si la politique retenue a été de construire un entrepôt de données avec une base de données, alors les données seront chargées dans l'entrepôt. Cette approche est proche à celle de Bill Inmon. Il sera dés lors possible d'utiliser des fonctionnalités analytiques comme Oracle le permet.

Ø De les charger dans des cubes de données la deuxième possibilité est de charger les données directement dans des cubes de données sans les stocker dans un DW. Cette approche est certainement la plus proche à celle de Ralph Kimball. Un bon exemple est l'utilisation directe des cubes de données.

Ø le mode hybride :la troisième possibilité est celle qui offre le plus d'avantages mais demande par contre plus d'effort. Le chargement des données s'effectue à la fois sur le data warehouse et les data marts : Un premier chargement des données dans un entrepôt de données.

Un deuxième chargement dans des cubes de données : par contre cette approche ajoute une charge de travail très considérable pour l'équipe de développement (Aucun impact sur les utilisateurs) :Une base de données à créer et à maintenir,un exercice de réflexion sur le modèle de données du data warehouse, un autre exercice de réflexion sur le modèle des méta-données.

Le schéma suivant illustre une transformation de données par étapes successives avec création d'une table intermédiaire après chaque modification.

Quand au chargement de données, il consiste à insérer les données dans le Data Warehouse, elles sont ensuite disponibles pour les différents outils d'analyse et de présentation que son le Data mining, l'analyse multidimensionnelle OLAP, les analyses géographiques, les raquetteurs et autres reportings.

I.8 LE DATA MART

Un Data Mart est un entrepôt qui stock des données provenant de systèmes opérationnels ou d'autre sources, conçu pour répondre aux besoins spécifiques d'un département ou d'un groupe d'utilisateurs en termes d'analyse, de contenu, de présentation et de facilité d'emploi. Les informations y sont stockées dans un format qui est familier aux utilisateurs. Un Data Mart ressemble en fait à un Data Warehouse sauf qu'il est moins générique. Une approche courante consiste à maintenir des informations détaillées au niveau du Data warehouse et à les synthétiser dans un Data mart pour chaque groupe ou département fonctionnel. Un autre choix de conception consiste à créer des Data marts pour chaque département puis à fusionner ultérieurement ces données dans l'entrepôt global. Chacune de ces méthodes présente l'avantage de centraliser les informations pour les utilisateurs finaux.

Ø Les données sont spécialisées pour un groupe ou département particulier ;

Ø Les différents Data Marts indépendants peuvent être dynamiquement couplé pour se métamorphoser en Data Warehouse ;

En raison de la nature simplifiée et spécialisée des Data Marts, les entreprises choisissent ces magasins de données comme solution rapide à leurs besoins en matière d'aide à la décision.

Les Data Marts représentent de toute évidence une réponse rapide aux besoins des différents départements de l'entreprise. Leur coût moindre et leur facilité d'emploi permettent une implémentation rapide et un retour à l'investissement presque immédiat. Il faut toute fois être prudent lorsque des Data marts sont ainsi crées pour plusieurs divisions. Ces dernières utilisent souvent des représentations différentes de certains concepts de gestion. Par exemple, les départements finances et marketing peuvent tous deux effectué un suivi des ventes réalisées par l'entreprise, mais défini différemment ce concept. Plus tard, si un employé du marketing a besoin de recueillir certaines informations à partir du Data Marts des finances, l'entreprise sera confrontée à un problème. Par conséquent, une vision unifiée est nécessaire même pour concevoir des Data marts par département.

I.9 OLAP

I.9.1 Introduction

OLAP signifie « On Line Analytical Processus » repose sur une base de données multidimensionnelle, destinée à exploiter rapidement les dimensions d'une population de données. Le modèle OLAP sera celui du Data Warehouse, il sera construit pour sélectionner et croiser plusieurs données provenant des sources diverses afin d'en tirer une information implicite. Ceci a évolué pour aboutir à une méthode d'analyse permettant aux décideurs un accès rapide et de manière pertinente présentée sous divers angles, dimensions sous forme de cube. L'outil OLAP repose sur la restructuration et le stockage des données dans un format multidimensionnel issues de fichiers plats ou de bases de données relationnelles. Ce format multidimensionnel est connu sous le nom d'hyper cube, ce dernier organise les données le long de dimensions. Ainsi, les utilisateurs analysent les données suivant les axes propres à leur métier. OLAP est un mode de stockage prévu pour l'analyse statistique des données. Une base de données OLAP peut se représenter comme un cube à N dimensions où toutes les intersections sont pré calculées.

I.9.2 les différents outils OLAP

Il est plus facile et plus cher à mettre en place, il est conçus exclusivement pour l'analyse multidimensionnelle avec un mode de stockage optimisé par rapport aux chemins d'accès prédéfinis. MOLAP repose sur un moteur spécialisé, qui stocke le données dans format tabulaire propriétaire (Cube). Pour accéder aux données de ce cube, on ne peut pas utiliser le langage de requête SQL, il faut utiliser une API spécifique.

Il est plus facile et moins cher à mettre en place, il est moins performant lors des phases de calculs. En effet, il fait appel à beaucoup de jointure et donc les traitements sont plus conséquents. Il superpose au dessus des SGBD/R bidimensionnels un modèle qui représente les données dans un format multidimensionnel. ROLAP propose souvent un composant serveur, pour optimiser les performances lors de la navigation dans les données. Il est déconseillé d'accéder en direct à des bases de données de production pour faire des analyses tout simplement pour des raisons des performances.

HOLAP est une solution hybride entre les deux (MOLAP et ROLAP) qui recherche un bon compromis au niveau du coût et de la performance. HOLAP désigne les outils d'analyse multidimensionnelle qui récupèrent les données dans de bases relationnelles ou multidimensionnelles, de manière transparente pour l'utilisateur. Ces trois notions se retrouvent surtout lors du développement des solutions. Elles dépendent du software et hardware. Lors de la modélisation, on ne s'intéresse qu'à concevoir une modélisation orientée décisionnelle, indépendamment des outils utilisés ultérieurement.

I.10 LA NAVIGATION DANS LES DONNEES

I.10.1 Drill-Down et Drill-Up

Le Drill-Down et Drill-up désigne la faculté d'aller du niveau global vers le niveau détaillé, et inversement. Ce mécanisme est totalement basé sur la notion de hiérarchie.

Chacun des axes d'analyse se décompose en attributs reliés entre eux par des relations père /fils. Une dimension doit normalement pouvoir comporter plusieurs hiérarchies. Par exemple, la dimension produits peut contenir une hiérarchie marque-article et une hiérarchie secteur-segment-article. Le mécanisme de Drill-Down se fera ainsi de la marque vers l'article et du secteur vers le segment puis vers l'article. La mise en oeuvre de cette fonctionnalité n'est cependant pas toujours aussi simple.

I.10.2 Data Surfing

Le Data Surfing est la possibilité de laissée à l'utilisateur de circuler librement, de manière intuitive et ergonomique dans un modèle dimensionnel, au-delà d'un simple Drill-Down ou Slice and dice. L'utilisateur peut alors modifier dynamiquement ses axes d'analyse ou appliquer un nouveau filtre à ses données. Ces mécanismes s'appliquent sur le modèle défini soit par l'administrateur, soit par l'utilisateur.

I.10.2 Conclusion

Ainsi, un data warehouse correctement alimenté permet aux décideurs, au service de marketing d'établir des statistiques d'évolution ou de construire des plans. Cela est rendu possible par le fait qu'un data warehouse regroupent l'ensemble des données de l'entreprise. Celles-ci sont Historisées et non modifiable. Mais extraire une synthèse à partir d'un tel volume de donnée (souvent de l'ordre de plusieurs téraoctets) n'ai pas chose aisée. Il faut une architecture du système adéquate. Les données peuvent être séparées par vue métier au sein de mini data warehouse nommé data marts et couplé avec un mode de stockage en cube OLAP. Chaque dimension d'un cube OLAP contenant une famille de donnée. Mais cela ne suffit pas, des outils de recherche spécialisés dans la recherche et l'élaboration de schéma logique (corrélation sur les évolutions des données ) doivent être utilisés.

CHAPITRE II: LES TECHNIQUES DE DATA MINING [1], [8], [11], [10],[12], [14]

II.1 INTRODUCTION

Le terme Data mining est souvent employé pour désigner un ensemble d'outils permettant aux utilisateurs d'accéder aux données de l'entreprise et des analyses. Les outils d'aide à la décision, qu'ils soient relationnels ou OLAP, laissent l'initiative à l'utilisateur de choisir les éléments qu'il veut observer ou analyser. Au contraire, dans le cas du data mining, le système a l'initiative et découvre lui-même les associations entre les données, sans que l'utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser des hypothèses. Les modèles classiques de recherche d'informations ne sont pas adaptés pour traiter des masses gigantesques de données, souvent hétérogènes. C'est ce constat qui a permis au data mining d'émerger et vulgariser les méthodes d'analyse.

Le data mining (ou la fouille de données) a pour objet l'extraction d'un savoir à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. La fouille de données repose sur un ensemble de fonctions mais aussi sur une méthodologie de travail.

Le terme de data mining signifie littéralement exploitation des données. Comme dans toute exploitation, le but recherché est de pouvoir extraire de la richesse. Ici, la richesse est la connaissance de l'entreprise. Fort du constat qu'il existe au sein des bases de données de chaque entreprise une ressource de données cachées et surtout inexploitée, le data Mining permet de faire les apparaître, et cela grâce à un certain nombre de techniques spécifiques. Nous appellerons data mining l'ensemble des techniques qui permettent de transformer les données en connaissances. Le périmètre d'exploitation du data mining ne se limite pas à l'exploitation des Data warehouse. Il veut d'être capable d'exploiter toutes bases de données contenant de grandes quantités de données telles que des bases relationnelles, des entrepôts de données mais également des sources plus ou moins structurées comme internet. Dans ces cas, il faut néanmoins construire une base de données ou un entrepôt de données qui sera dédié à l'analyse.

Le data mining est un processus itératif qui met en oeuvre un ensemble de techniques hétéroclites tel que le data warehouse , de la statistique, de l'intelligence artificielle, de l'analyse des données et des interfaces de communication homme - machine. Le résultat du datamining peut se présenter sous différent format : texte plat, tableau, graphique...

Le datamining est un ensemble d'outils d'analyse d'entrepôt de données et de cube apportant aux décideurs des éléments supplémentaire de prise de décisions qui ne sont pas forcement visible aux premiers abords.

II.1.1 Définition

La fouille de données consiste à rechercher et extraire de l'information (utile et inconnue) de gros volumes de données stockées dans des bases ou des entrepôts de données.

L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par similitudes, segmentation (ou clustérisation), description et, dans une moindre mesure, l'optimisation.

II.1.2 Triple objectif du data mining

Ø Expliquer :le data mining pourra tenter d'expliquer un événement ou un incident indiscernable. Par la consultation des informations contenues dans l'entrepôt de données de l'entreprise, on peut être en mesure de formuler la question suivante :pour qu'elle raison perd-t-on des clients pour tel produit spécifique dans telle région? tout en se basant sur des données collectées ou des mises en signification de paramètres liés, le data mining va essayer de trouver un certain nombre d'explication à cette question. Le Data Mining va aider à trouver des hypothèses d'explications.

Ø Confirmer : le data Mining aidera à confirmer un comportement ou une hypothèse. Dans le cas où le décideur aurait un doute concernant une hypothèse, le data Mining pourra tenter de confirmer cette hypothèse en la vérifiant en appliquant des méthodes statistiques ou d'intelligence artificielle.

Ø Explorer :enfin, le data mining peut explorer les données pour découvrir un lien "inconnu" jusque là. Quand le décideur n'as pas d'hypothèse ou d'idée sur un fait précis, il peut demander au système de proposer des associations ou des corrélations qui pourront aboutir a une explication. Il est utopique de croire que le data mining pourrait remplacer la réflexion humaine. Le data mining ne doit être vu et utiliser uniquement en tant qu'aide à la prise de décision. Par contre, l'informatique décisionnelle dans son ensemble, et plus particulièrement le data mining permet de suggérer des hypothèses. La décision finale appartiendra toujours au décideur.

II.2 LES DIFFERENTES ETAPES D'EXTRATION DE CONNAISSANCES

a. Etape 1 : identification du (ou des) problème(s) :les systèmes de Business Intelligence ne se construisent sur des données techniques, mais sur la compréhension des objectifs métiers de l'entreprise. Cette recherche préliminaire aboutit à la définition de problèmes auxquels la fouille de données tentera d'apporter une réponse.

b. Etape 2 : rassemblement de données :la plupart du temps, les projets data mining assemblent une grande quantité de données en combinant plusieurs sources de données hétérogènes. Lorsque la source n'est pas directement un entrepôt de données, une première phase consiste à repartir les données brutes et à les stocker localement sous forme d'une base de données.

c. Etape 3 : préparation des données : dans la réalité, les données extraites doivent être filtrées, mise en forme, traitées avant de pouvoir être exploitées par les algorithmes de data mining. La préparation des données est donc un point crucial, et les développeurs doivent pouvoir s'appuyer sur les fonctionnalités d'une base de données pour effectuer les traitements préliminaires tels que l'élimination des valeurs erronées ou régénération de valeurs manquantes.

Ø Les fonctions supervisées : elles travaillent avec une cible, permettent de prédire une valeur. La modélisation et la décision se fondent sur l'observation du passé. Les fonctions supervisées sont aussi désignées par les termes fonctions distinctes ou fonctions prédictives.

Ø Les fonctions non supervisées : elles détectent des relations, des analogies ou concordances entre les données. Ces fonctions n'utilisent aucune cible. Ces fonctions s'appuient sur le clustering hiérarchique, les centres mobiles, les règles d'association, etc. pour extraire des similitudes dans les données. Les fonctions non supervisées sont aussi désignées par les termes fonctions indirectes ou fonctions descriptives.

Ø Etape 5 : évaluation des modèles : l'évaluation du (ou des modèle(s) est une étape importante qui permet de vérifier que les questions posées lors de l'étape 1 ont bien trouvé une réponse fiable. Une fois les modèles construits, il peut s'avérer nécessaire de revoir les étapes 2 et 3 afin d'affiner la collecte et la préparation des données. Le succès de cette étape conditionne le déploiement.

Ø Etape 6 : déploiement : après avoir été validés, les modèle data mining sont déployés dans leurs domaines d'application respectifs. Le déploiement couvre des domaines aussi divers que la production de rapports ou l'automatisation de l'acquisition de données dans l'entrepôt.

II.3 PRINCIPALES METHODES DU DATA MINING

Pour arriver à exploiter ces quantités importantes de données, le data mining utilise des méthodes d'apprentissages automatiques. Une amalgame est faite à tord entre toutes ces méthodes. Ces méthodes sont de deux types : les méthodes descriptives et les méthodes prédictives, selon qu'il existe ou non une variable "cible" que l'on cherche à expliquer.

II.3.1 Méthodes descriptive

Le principe de ces méthodes est de pouvoir mettre en évidence les informations présentes dans le data warehouse mais qui sont masquées par la masse de donnée.

Parmi les techniques et algorithmes utilisés dans l'analyse descriptive, on cite :

II.3.2 Méthode prédictive

Contrairement à l'analyse descriptive, cette technique fait appels à de l'intelligence artificielle . L'analyse prédictive, est comme son nom l'indique une technique qui va essayer de prévoir une évolution des événements en se basant sur l'exploitation de données stockés dans le data warehouse.

En effet, l'observation et l'historisation des événements peuvent permettre de prédire une suite logique. Le meilleur exemple est celui des prévisions météorologiques qui se base sur des études des évolutions météorologiques passées. En marketing, l'objectif est par exemple de déterminer les profils d'individus présentant une probabilité importante d'achat ou encore de prévoir à partir de quel moment un client deviendra infidèle.

Parmi les techniques et algorithmes utilisés dans l'analyse prédictive, on cite :

II.4 LES TACHES DU DATA MINING

Contrairement aux idées reçues, le data mining n'est pas le remède miracle capable de résoudre toutes les difficultés ou besoins de l'entreprise. Cependant, une multitude de problèmes d'ordre intellectuel, économique ou commercial peuvent être regroupés, dans leur formalisation, dans l'une des tâches suivantes :

Afin de lever toute ambiguïté sur des termes qui peuvent paraître similaires, il semble raisonnable de les définir.

II.4.1 La classification

La classification se fait naturellement depuis déjà bien longtemps pour comprendre et communiquer notre vision du monde (par exemple les espèces animales, minérales ou végétales).

« La classification consiste à examiner des caractéristiques d'un élément nouvellement présenté afin de l'affecter à une classe d'un ensemble prédéfini. »

Dans le cadre informatique, les éléments sont représentés par un enregistrement et le résultat de la classification viendra alimenter un champ supplémentaire.

La classification permet de créer des classes d'individus (terme à prendre dans son acception statistique). Celles-ci sont discrètes : homme / femme, oui / non, rouge / vert / bleu, ...

II.4.2 Estimation

Contrairement à la classification, le résultat d'une estimation permet d'obtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les données en entrée. Le résultat d'une estimation permet de procéder aux classifications grâce à un barème. Par exemple, on peut estimer le revenu d'un ménage selon divers critères (type de véhicule et nombre, profession ou catégorie socioprofessionnelle, type d'habitation, etc ...). Il sera ensuite possible de définir des tranches de revenus pour classifier les individus.

Un des intérêts de l'estimation est de pouvoir ordonner les résultats pour ne retenir si on le désire que les n meilleures valeurs. Cette technique sera souvent utilisée en marketing, combinée à d'autres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est facile de mesurer la position d'un élément dans sa classe si celui-ci a été estimé, ce qui peut être particulièrement important pour les cas limitrophes.

La technique la plus appropriée à l'estimation est : les réseaux de neurones.

II.4.3 La prédiction

La prédiction ressemble à la classification et à l'estimation mais dans une échelle temporelle différente. Tout comme les tâches précédentes, elle s'appuie sur le passé et le présent mais son résultat se situe dans un futur généralement précisé. La seule méthode pour mesurer la qualité de la prédiction est d'attendre !

II.4.4 Le regroupement par similitude

Le regroupement par similitudes consiste à grouper les éléments qui vont naturellement ensembles. La technique la plus appropriée au regroupement par similitudes est : L'analyse du panier de la ménagère

II.4.5 L' Analyse des clusters

L'analyse des clusters consiste à segmenter une population hétérogène en sous-populations homogènes. Contrairement à la classification, les sous populations ne sont pas préétablies.

La technique la plus appropriée à la clustérisation est : L'analyse des clusters

II.4.6 La description

C'est souvent l'une des premières tâches demandées à un outil de data mining. On lui demande de décrire les données d'une base complexe. Cela engendre souvent une exploitation supplémentaire en vue de fournir des explications.

La technique la plus appropriée à la description est : L'analyse du panier de la ménagère

II.4.7 L' Optimisation

Pour résoudre de nombreux problèmes, il est courant pour chaque solution potentielle d'y associer une fonction d'évaluation. Le but de l'optimisation est de maximiser ou minimiser cette fonction. Quelques spécialistes considèrent que ce type de problème ne relève pas du data mining.

La technique la plus appropriée à l'optimisation est : Les réseaux de neurones.

II.5 LA CONNAISSANCE

II.5.1 Définition

La connaissance peut être considérée comme une combinaison d'intuitions, de modèles, de méthodes de règles de gestion, de programme et de principes d'utilisation qui guident les décisions et les actions.

II.5.2 La découverte de connaissances

Il s'agit d'une approche ascendante : cette technique consiste à partir des données pour tenter d'en extraire une information pertinente et inconnue. La découverte de connaissances est l'approche du data mining la plus significative et la plus souvent mise en avant. On distinguera la découverte de connaissances dirigée et non dirigée.

Nota : La découverte de connaissances non dirigée sert à reconnaître les relations exprimées par les données tandis que la découverte dirigée permet d'expliquer ces relations une fois qu'elles ont été trouvées.

Ø La découverte de connaissances non dirigée :cette technique est également appelée apprentissage sans supervision. Historiquement, c'était la vocation des logiciels de data mining. On fournit au logiciel une base de données et celui-ci recherche des structures significatives et retourne un ensemble de connaissances. Celles-ci sont généralement exprimées sous forme de règles, du type :si achat de riz ET de vin blanc, alors achat de poisson. A chaque règle est associé un indicateur de confiance (ici : nombre de personnes ayant acheté riz, vin blanc et poisson divisé par le nombre de personnes ayant acheté riz et vin blanc) qui permet de quantifier la fiabilité de la règle. Une valeur de 0.84 signifie que 84 % des gens qui ont acheté du riz et du vin blanc ont acheté du poisson. Ce critère n'est pas suffisant car il faut en outre que l'effectif soit significatif. En effet, si une règle ne concerne qu'un ou deux individus même avec 100 % de confiance, elle devra être rejetée car non suffisamment significative.Les règles d'association peuvent également se dérouler dans le temps : telle action à un instant t entraînera tel résultat à un autre instant t'. Il faut alors posséder suffisamment de données Historisées pour avoir une bonne fiabilité des résultats. La technique qui consiste à prévoir le comportement d'une variable dans le temps en fonction du passé s'appelle le « forecasting ».

Ø Méthodologie de connaissances non dirigée :la découverte de connaissances non dirigée se déroule en suivant les étapes suivantes :

- Identifier les cibles potentielles pour la découverte de connaissances dirigée

a. Identifier les sources de données disponibles

Les processus de découvertes de connaissances sont basés sur le fait que la connaissance ou la réponse aux questions que l'on se pose se trouve dans les données. Par conséquent, la qualité des données est la première exigence de ce type d'analyse.

L'idéal est de travailler à partir des données archivées dans l'entreprise. Mais celles-ci sont prévues généralement pour la production, avec des formats adaptés aux meilleurs temps de réponse, voire même conservés sur des bandes magnétiques. Il va donc falloir identifier les données, les localiser, identifier les formats et codages, ... Un travail organisationnel et logistique important est nécessaire pour disposer des données sous une forme utile en vue de la découverte de connaissances.

b. Préparer les données pour l'analyse

Après le travail de repérage et d'identification décrit dans l'étape précédente, il faut préparer les données pour l'analyse. Cette étape est de loin la plus importante car la qualité des résultats obtenus est très fortement liée à la qualité de cette préparation.

On distinguera plusieurs étapes dans cette préparation : regrouper les données et les transformer. Enfin, distribuer les donnée

1°) Regrouper les données et les transformer

C'est la première étape qui consiste à regrouper, rapatrier, transcoder, transformer les données. Il faut faire face aux incompatibilités entre les différents systèmes informatiques de l'entreprise, importer les données externes, regrouper l'ensemble dans un format propice à l'exploitation par une application de data mining.

Enfin, il est souvent utile de rajouter des champs supplémentaires, issus de résultats de calculs ou transformations depuis des champs existants. Ceci est particulièrement vrai si l'on cherche des relations entre champs ou pour suivre des évolutions dans le temps. A titre d'exemple, on pourrait citer :

Ces travaux sont prévus voire automatisés dans le cadre de la mise en oeuvre d'un data warehouse.

2°) Distribuer les données

Ces trois ensembles devront être distincts (n'avoir aucun enregistrement en commun)

L'ensemble d'apprentissage est utilisé pour construire le modèle initial. C'est depuis cet ensemble que le système va calculer ses différents paramètres.

Une fois les paramètres calculés, il faut vérifier comment ils se comportent sur l'ensemble de test. Celui-ci va permettre d'ajuster les valeurs trouvées à l'étape précédente et les rendre moins sensibles à l'ensemble d'apprentissage.

Enfin, les paramètres seront testés sur l'ensemble d'évaluation. Si les résultats obtenus sont proches de ceux attendus, on pourra alors valider le système. Dans le cas contraire, il faudra analyser les raisons de cette différence. Pour mesurer la validité des résultats obtenus, on utilisera les outils statistiques traditionnels (le khi2 par exemple).

Dans une analyse statistique traditionnelle, il est fréquent de choisir les variables à analyser pour tenter par exemple de déterminer la corrélation de l'une par rapport à une autre. De même, on supprime souvent certains champs trop complexes ou insuffisamment alimentés (valeurs absentes). Dans une approche de data mining, il est préférable de soumettre l'ensemble des données et laisser l'outil déterminer lui-même les données utiles car les champs absents ou complexes peuvent déboucher sur des connaissances importantes.

II.6 LES TECHNIQUES DU DATA MINING

Derrière ces analyses se positionnent des outils basés sur des techniques différentes. Nous vous proposons une présentation des plus importante de ces techniques.

II.6.1 Analyse du panier de la ménagère

L'analyse du panier de la ménagère est un moyen de trouver les groupes d'articles qui vont ensembles lors d'une transaction. C'est une technique de découverte de connaissances non dirigée (de type analyse de clusters) qui génère des règles et supporte l'analyse des séries temporelles (si les transactions ne sont pas anonymes). Les règles générées sont simples, faciles à comprendre et assorties d'une probabilité, ce qui en fait un outil agréable et directement exploitable par l'utilisateur métier.

II.6.2 Analyse des liens

L'analyse des liens est une technique de description qui s'inspire et repose sur la théorie des graphes. Elle consiste à relier des entités entre elles (clients, entreprises, ...) par des liens. A chaque lien est affecté un poids, défini par l'analyse, qui quantifie la force de cette relation. Cette technique peut être utilisée pour la prédiction ou la classification mais généralement une simple observation du graphe permet de mener à bien l'analyse.

II.6.3 Les arbres de décision

Les arbres de décision sont utilisés dans le cadre de la découverte de connaissances dirigée. Ce sont des outils très puissants principalement utilisés pour la classification, la description ou l'estimation. Le principe de fonctionnement est le suivant : pour expliquer une variable, le système recherche le critère le plus déterminant et découpe la population en sous populations possédant la même entité de ce critère. Chaque sous population est ensuite analysée comme la population initiale. Le modèle rendu est facile à comprendre et les règles trouvées sont très explicites. Ce système est donc très apprécié.

Le but de cette technique est de créer un arbre de décision procédant a une analyse critère par critère. La détermination de ces critères significatifs est faite selon les poids statistiques des valeurs. L'outil de data mining va parcourir les différents critères possibles, dont la finalité sera de trouver des liens entre les chemins qui ont une signification par rapport à la problématique donnée.

On donne un ensemble X de N dont les éléments sont notés xi et dont les P attributs sont quantitatifs. Chaque élément de X est étiqueté, c'est-à-dire qu'il lui est associé une classe ou un attribut cible que l'on note y appartenant à Y.

A partir de ce qui précède, on construit un arbre dit « de décision » tel que :

- chaque noeud correspond à un test sur la valeur d'un ou plusieurs attributs ;

- chaque branche partant d'un noeud correspond à une ou plusieurs valeurs de ce test ;

Leur fonctionnement est basé sur un enchaînement hiérarchique de règles exprimées en langage courant.

Un arbre de décision est une structure qui permet de déduire un résultat à partir de décisions successives. Pour parcourir un arbre de décision et trouver une solution il faut partir de la racine. Chaque noeud est une décision atomique. Chaque réponse possible est prise en compte et permet de se diriger vers un des fils du noeud. De proche en proche, on descend dans l'arbre jusqu'à tomber sur une feuille. La feuille représente la réponse qu'apporte l'arbre au cas que l'on vient de tester.

Très souvent on considère qu'un noeud pose une question sur une variable, la valeur de cette variable permet de savoir sur quels fils descendre. Pour les variables énumérées il est parfois possible d'avoir un fils par valeur, on peut aussi décider que plusieurs variables différentes mènent au même sous arbre. Pour les variables continues il n'est pas imaginable de créer un noeud qui aurait potentiellement un nombre de fils infini, on doit discrétiser le domaine continu (arrondis, approximation), donc décider de segmenter le domaine en sous ensembles. Plus l'arbre est simple, et plus il semble techniquement rapide à utiliser. En fait, il est plus intéressant d'obtenir un arbre qui est adapté aux probabilités des variables à tester. La plupart du temps un arbre équilibré sera un bon résultat. Si un sous arbre ne peut mener qu'à une solution unique, alors tout ce sous-arbre peut être réduit à sa simple conclusion, cela simplifie le traitement et ne change rien au résultat final.

L'algorithme ID3 fut proposé par Quinlan en 1979 afin de générer des arbres de décisions à partir de données. Imaginons que nous ayons à notre disposition un ensemble d'enregistrements. Tous les enregistrements ont la même structure, à savoir un certain nombre de paires attribut ou valeur. L'un de ses attributs représente la catégorie de l'enregistrement. Le problème consiste à construire un arbre de décision qui sur la base de réponses à des questions posées sur des attributs non cibles peut prédire correctement la valeur de l'attribut cible. Souvent l'attribut cible prend seulement les valeurs vrai, faux ou échec, succès.

Dans l'arbre de décision chaque noeud correspond à un attribut non cible et chaque arc à une valeur possible de cet attribut. Une feuille de l' arbre donne la valeur escomptée de l'attribut cible pour l'enregistrement testé décrit par le chemin de la racine de l'arbre de décision jusqu'à la feuille.

Dans l'arbre de décision, à chaque noeud doit être associé l'attribut non cible qui apporte le plus d'information par rapport aux autres attributs non encore utilisés dans le chemin depuis la racine. (Critère d'un bon arbre de décision)

L'entropie est utilisée pour mesurer la quantité d'information apportée par un noeud. (Cette notion a été introduite par Claude Shannon lors de ses recherches concernant la théorie de l'information qui sert de base à énormément de méthodes du data mining.)

Ø En y classant de nouvelles données (un noeud racine par lequel entre les enregistrements),

Ø En extrayant un jeu de règles de classification concernant l'attribut cible,

Ø En interprétant la pertinence des attributs de noeuds feuilles qui correspondent à un classement.

Cet algorithme a été publié en 1984 par L.Briemen. Il est utilisé dans de nombreux outils du marché.

La première bifurcation est celle qui divise le mieux les enregistrements en groupes. Ainsi pour déterminer le critère qui effectuera le meilleur partage entre les éléments, un indice de diversité est calculé, selon la formule suivante :

Max. de : diversité (avant division) - (diversité fils gauche + diversité fils droit)

Une fois la première bifurcation établie, nous avons donc le noeud racine qui se sépare en deux. L'étape suivante est donc de développer l'arbre complet en divisant de la même façon les nouveaux noeuds crées, et ainsi de suite tant que le résultat de la division a une valeur significative. Le dernier noeud étant le noeud feuille qui donne le classement final d'un enregistrement.

L'arbre résultant n'est pas obligatoirement le meilleur, la prochaine étape est de calculer le taux d'erreur pour chaque noeud. Si nous supposons que 11 enregistrements sur 15 sont classés correctement d'après l'ensemble d'apprentissage, la probabilité pour ce noeud est de 11/15 soit 0,7333. Le taux d'erreur attribué est de 1 - 0,7333 = 0,2667.

Le calcul du taux d'erreur de chaque noeud étant fait, il est possible de calculer le taux d'erreur de l'arbre entier soit :

Le danger de l'arbre de décision, tel qu'il est constitué à l'issue du premier passage, est que certains noeuds feuilles ne contiennent pas suffisamment d'enregistrements pour être significatifs. Il faut élaguer, le plus complexe étant de trouver la bonne limite à appliquer.

Le choix des branches à supprimer, se fait par l'intermédiaire du taux d'erreur ajusté d'un arbre qui se calcule, sur chaque sous arbre possible, comme suit :

Un premier sous arbre est candidat lorsque son taux d'erreur ajusté devient plus petit ou égal au taux d'erreur ajusté de tout l'arbre. Toutes les branches, qui n'en font pas partie, sont élaguées, et le processus recommence ainsi de suite jusqu'au noeud racine.

Il faut donc maintenant choisir parmi tous les sous arbres candidats. Pour cela, chaque sous arbre va être exécuter avec un ensemble de test, celui qui aura le plus petit taux d'erreur sera considéré comme le meilleur.

Enfin pour contrôler l'efficacité du sous arbre sélectionné, un ensemble d'évaluation va lui être soumis. Son taux d'erreur obtenu donnera une estimation des performances de l'arbre.

Tout d'abord, CHAID utilise pour choisir les bifurcations le test du chi-2, que l'on ne détaillera pas ici.

Et enfin, contrairement aux autres il ne développe pas l'arbre complet, pour ensuite l'élaguer, mais tente dès le premier passage de limiter sa croissance.

Le principe de l'algorithme ID3 pour déterminer l'attribut à placer à la racine de l'arbre de décision peut maintenant être exprimée : rechercher l'attribut qui possède le gain d'information maximum, le placer en racine, et itérer pour chaque fils, c'est à dire pour chaque valeur de l'attribut. Cela étant dit, on peut donner L'ALGORITHME ID3.

II.6.4 Les réseaux de neurones

Les réseaux de neurones représentent la technique de data mining la plus utilisée. Pour certains utilisateurs, elle en est même synonyme. C'est une transposition simplifiée des neurones du cerveau humain. Dans leur variante la plus courante, les réseaux de neurones apprennent sur une population d'origine puis sont capables d'exprimer des résultats sur des données inconnues. Ils sont utilisés dans la prédiction et la classification dans le cadre de découverte de connaissances dirigée. Certaines variantes permettent l'exploration des séries temporelles et des analyses non dirigées (réseaux de Kohonen). Le champ d'application est très vaste et l'offre logicielle importante.

Cependant, on leur reproche souvent d'être une "boite noire" : il est difficile de savoir comment les résultats sont produits, ce qui rend les explications délicates, même si les résultats sont bons.

Donc, Utiliser des technologies d'intelligence artificielle afin de découvrir par l'apprentissage du moteur des liens non procéduraux. Ces deux dernières techniques s'appuient sur des algorithmes mathématiques et tentent à travers des méthodes d'apprentissage de constituer des logiques non procédurales.

II.6.4.1 Découverte des règles

Le but étant de construire une règle logique et empirique applicable dans un contexte précis. Le principe de cette technique est double. On peut d'une part demande au système de valider une règle en la justifiant ou l'invalidant grâce a ses données, ou bien d'autre part demander au système d'établir une règle en fonction des données qu'il possède.

Mise en évidence d'un comportement de données en les filtrant. Cette technique consiste à appliquer un filtre à travers une hypothèse afin de faire apparaître un lien entre ces données.

Technique se basant sur des algorithmes mathématique. Composer des segmentations à partir de modèles mathématiques basés sur des regroupements irréguliers de données.

CHAPITRE III MODELISATION EN UML [11],[12], [16], [17]

Ce chapitre a consisté à créer une représentation simplifiée de l'attrition de la clientèle dans une entreprise de télécommunication. Nous avons utilisé la modélisation unifiée qui est l'UML (unified modeling language). Grâce à l'UML, nous avons représenté le problème sous forme des diagrammes( use case, classes, et déploiement) afin de bien évidemment simuler le problème et le comprendre.

III.1 OBJECTIF DU TRAVAIL

Le but de notre étude est de réduire le cout de la perte de la clientèle. Sur ce, opérer des classes homogènes des abonnés par rapport à un critère de similarité à une période donnée pour dégager les tendances afin de savoir sur quels facteurs agir pour les fidéliser. Les abonnés modifiant continuellement leurs comportements (la structure de leurs dépenses et l'utilisation de leurs lignes).

Enfin, mettre en place un entrepôt de données et l'utilisation des outils de datamining pour en dégager des connaissances pour une prise de décision.

IV.1.1 Diagramme de cas d'utilisation (use case)

Le diagramme de cas d'utilisation recense les besoins des utilisateurs. En d'autre terme modélise un service rendu par le système.

Sur ce, l'entreprise Vodacom Congo et les responsables de marketing en particulier ont besoin de savoir:

Ø Quels sont les abonnés fragiles au vu de leurs profils d'utilisation du réseau ;

Ø Quelle est la zone géographique la plus affectée par l'attrition de la clientèle;

Figure n° 6 : Diagramme de cas d'utilisation

IV.1.2 Diagramme de classe

Le diagramme de classe exprime la structure statique du système. Ils déscrivent l'ensemble des classes et leurs associations.

IV.1.3 Diagramme de déploiement

Ce diagramme illustre la disposition physique des différents matériels qui entre dans la composition du système. La répartition des composants au sein des noeuds et support des communications entre eux.

Généralement, de nombreuses applications fonctionnent selon un environnement client/serveur, cela signifie que des machines clientes (des machines faisant partie du réseau) contactent un serveur, une machine généralement très puissante en termes de capacités d'entrée-sortie, qui leur fournit des services. Ces services sont des programmes fournissant des ressources telles que données, des fichiers, une connexion et aussi des ressources matériels. Les services sont exploités par des programmes, appelés programmes clients, s'exécutant sur les machines clientes. On parle ainsi de client (client FTP, client de messagerie, etc.)

Ø Serveurs : ordinateurs spécialisés dans la fourniture et le stockage des ressources partagées entre les utilisateurs du réseau.

Ø Clients : ordinateurs qui accèdent aux ressources partagées fournies par un serveur du réseau

Cette image illustre d'une manière moins technique la disposition physique des différents matériels qui entre dans la composition du sytème :

Ø Le client émet une requête vers le serveur grâce à son adresse IP et le port, qui désigne un service particulier du serveur.

Ø Le serveur reçoit la demande et répond (réponse) à l'aide de l'adresse de la machine cliente et son port.

CHAPITRE IV : APPLICATION

IV. 1 MISE EN PLACE DE L'ENTREPOT DE DONNEES

Nous avons choisi Business Intelligence Développement Studio, comme environnement de développement, permettant bien évidemment de déployer des entrepôts de données avec Analysis Services de Microsoft.

SQL Server Analysis Services (SSAS) est une plate forme de développement et d'administration permettant de créer des applications OLAP (On Line Analytical Processing) et de Datamining. Elle est incluse dans SQL 2008 et a pour but d'aider les utilisateurs à analyser les données historiques et à découvrir des corrélations ou des modèles de comportement entre les données.

Du coté client, un outil de requetage et filtrage doit etre installé (Excel ou tout autre outil tiers: Proclarty, Panorama, Powerplay, Crystal, Report builder, etc.). Du coté serveur, analysis services doit être installé et correctement paramétré au niveau de la sécurité afin d'autoriser l'accès aux données selon le profil des utilisateurs.

Le composant central de l'infrastructure OLAP est le cube multidimensionnel. Il s'agit d'une de données spécialement conçue pour permettre un accès immédiat aux données d'entreprise stockées dans les entrepôts de données.

FIG.9 : Création de la base source en SQL Server avec le management

FIG 14 : visualisation des abonnés en Excel à partir des cubes des données

IV.2 LA CLASSIFICATION AUTOMATIQUE HIERARCHIQUE

IV.2.1 Introduction

La classification regroupe des techniques de synthèse des grands volumes de données. Avec la multiplication actuelle des bases de données et des entrepôts de données, on comprend le regain d'intérêt pour ces techniques et parallèlement le soin que les éditeurs de logiciels mettent à bien traiter le problème. Pour l'essentiel, les techniques de classification font appel à une démarche algorithmique et non à des techniques mathématiques complexes : les résultats sont obtenus au terme d'une série d'opérations simples et répétitives. Autre avantage, la classification conduit à des résultats souvent faciles à décrire et à caractériser : les classes. Ces traits particuliers expliquent la présence en bonne place de la classification dans les techniques pratiquées en Data mining et en Analyses des données. Des logiciels majeurs dans ce domaine comme SAS et SPAD lui consacrent une place privilégiée pour les différentes analyses.

IV.2.2 Spad

Le SPAD est un logiciel de datamining et d'analyse prédictive , permet à partir des données de l'entreprise permettant d'anticiper les risques, d'identifier les opportunités , et d'optimiser les différentes opérations métier.

IV.3 ANALYSE ET RESULTATS

Tel est le tableau de contingence qui illustre les données de notre entrepôt de données.

var Num TEL	Durée d'ap sort	Durée d'ap ent	SMS Ent	SMS sort	Mgb	Bip entr	Bip sort	Zgéo	Tarif
813407865	76	45	167	123	23	23	34	2	1
082602345	372	26	13	1	10	16	19	3	1
825471230	119	22	27	13	24	32	21	4	1
810042141	278	354	35	45	31	11	79	3
813358298	32	97	14	74	19	39	98	4	2
819834560	80	39	239	39	231	12	731	2	2
815637882	65	83	15	63	78	43	11	1	2
815700380	7	15	40	2	6	10	3	5	1
823143387	500	276	80	4	57	52	12	3	2
810041143	19	24	9	12	36	52	35	2	2
816135454	46	0	13	45	89	45	23	5	1
813407865	76	45	37	123	23	23	34	2	2
826002545	26	26	13	29	10	37	56	1	1
825792386	119	22	27	13	24	32	21	4	2
10042141	278	41	35	45	31	11	79	3	1
13358298	32	97	14	74	46	39	98	5	1
819834567	49	313	35	95	231	12	37	2	2
1537882	167	83	15	63	78	43	78	3	2
19702387	7	15	40	2	18	10	89	1	1
829789237	321	29	90	4	57	52	6	3	2

813101218	103	25	9	12	36	46	76	3	1
816145317	14	26	7	2	27	58	90	4	1
813407865	76	34	21	123	85.000	78.000	34.000	2	2
826002345	179	40	89	29	10	37	36	3	2

V.3.1 Filière d'exécution

IV.3.2 Representation de l'arbre hierarchique (Dendrogramme)

La méthode de classification hierarchique automatique nous a permis ici de classifier les abonnés au vu de leurs comportements sur le réseau afin de savoir sur quels facteurs s'appuyer pour les cibler et les fideliser. Tel est le cas de l'illustration du dendrogramme suivant qui regroupe les abonnés par rapport à leurs durées d'appels sortants.

Cet arbre hiérarchique classifie les abonnés selon la durée d'appels sortant à une période. Ce qui permettra aux décideurs les fidéliser par rapport à leurs comportements. Car ce n'est pas seulement la classe fragile mais aussi même la plus fidèle ; on pourra par exemple améliorer la qualité de service pour n'est pas les perdre ultérieurement.

La subdivision en quatre classes des abonnés les plus homogènes toujours par rapport à la durée des appels sortants. Et cela sans oublier de signaler que cette classification est pratique pour tous les critères de regroupement qui vous semble utile. Entre autres ; regroupement des abonnés selon leurs durées d'appels entrants, par nombre des sms entrants, sms sortants, méga téléchargé, ou bien évidemment la zone géographique pour vérifier par exemple la plus rentable ou la plus fragile afin justement procéder à une offre ciblée.

IV.3.3 Représentation de la partition en 4 classes

CONCLUSION

Nous avons montré dans ce travail, les spécificités de l'attrition de la clientèle dans une entreprise de télécommunication et nous avons mise en place un système décisionnel permettant de maitriser le phénomène. Notre étude qui a porté sur « l'analyse et détection de l'attrition des abonnés dans une entreprise de télécommunication, étude menée au sein de Vodacom Congo/Kananga ».Celle-ci a été menée dans l'objectif d'étudier les comportements des abonnés afin de réduire le cout de la perte de la clientèle ; les opérations de marketing étant très couteuses, les décideurs ont besoin d'avoir la clarté sur les abonnés afin de savoir sur quels facteurs agir pour les fidéliser.

Ensuite, mettre en place un entrepôt de données et l'utilisation des outils de datamining pour en dégager des connaissances pour une prise de décision.

Pour y parvenir, nous avons subdivisé notre travail a quatre chapitres ;dont le premier donne bien évidement une idée sur les généralités sur les entrepôts de données. Le deuxième sur les différentes techniques de datamining ; celui-ci détaille les panoramas des techniques de datamining de résolution. Suivi du troisième sur la modélisation En UML ;qui est en fait, une image nous aidant à comprendre le problème. et l'application qui présentent les résultats trouvés par notre expérience.

Le logiciel coheris SPAD qui nous a aidé de faire une classification automatique hiérarchique. La classification est la technique de datamining retenue par notre étude afin de regrouper les abonnés par rapport à un critère de similarité dans une période de 6 mois pour s'imprégner sur quel facteur agir pour maitriser ce phénomène.

Notre réflexion se « termine » ainsi sur une ouverture, une enquête à poursuivre et à approfondir par des études ultérieures.

BIBLIOGRAPHIQUE

1. Benzécri, J.P., Benzécri, F. (1985) - Introduction à la Classification Ascendante hiérarchique d'après un exemple de Données Economiques. J. Soc.Stat. de Paris, 1, 14-34

2. Archaux C., Martin A. , Khenchaf A., Détection par SVM-Application à la détection de churn en téléphonie mobile prépayée, Extraction et Gestion des connaissances (EGC), in Revue des Nouvelles Technologies de l'Information, Vol 2, pp 597, Clérmont Ferrand, France, 20-23 Janvier 2004.

3. E. F. Codd, Providing OLAP to user-analysts: an IT mandate, Technical Report, E. F. Codd and associates, 1993;

4. Georges Gardarin, Internet, Intranet et bases de données, Edition DUNOD, 2000 ;

5. Jean Michel Franco et Sandrine de lignerolles, Piloter l'entreprise grâce au data ware house, Ed Eyrolles, 2000, P25 ;

6. Kimball R.,Ross M. Entrepot de données. Guide pratique de modelisation dimensionnelle,2^e éd., ISBN :Vuibert, 2003

7. R.E. Shannon, Systems Simulation, the art and science, Prentice Hall 1975;

8. SEAN KELLY, DataWarehousing: the route to mass customization, John Wiley & Sons, 1996;

9. W. Inmon. Building the Data Warehouse. QED Technical Publishing Group, Wellesley, Massachusetts, U.S.A., 1996

10. Zighed D.A., Rakotomala R., Extraction des connaissances à partir des données IBN :2746200724,Hermès,2000. BURQUIER Bertrand, «Business Intelligence avec SQL server 2008, DUNORD 2008.

Analyse et détection de l'attrition dans une entreprise de télécommunication

EPIGRAPHE