Une contribution du datamining àƒÂ la segmentation du marché et au ciblage des offres àƒÂ l'aide de la statistique de Bayes

( Télécharger le fichier original )
par samuel Kalombo
UNiversité de Kinshasa - Licence 2011

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE I. LA FOUILLE DE DONNEES [2, 5, 6,10, 11,12]

I.1 Définitions et historique

Le «data mining» que l'on peut traduire par «fouille de données» apparaît au milieu des années 1990 aux États-Unis comme une nouvelle discipline à l'interface de la statistique et des technologies de l'information : bases de données, intelligence artificielle, apprentissage automatique (« machine learning »).

David Hand (1998) en donne la definition suivante: « Data Mining consists in the discovery of interesting, unexpected, or valuable structures in large data sets».

La métaphore qui consiste à considérer les grandes bases de données comme des gisements d'où l'on peut extraire des pépites à l'aide d'outils spécifiques n'est certes pas nouvelle. Dès les années 1970, Jean-Paul Benzécri n'assignait-il pas le même objectif à l'analyse des données ? : « L'analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature ».

On a pu donc considérer que bien des praticiens faisaient du data mining sans le savoir. On confondra ici le « data mining », au sens étroit qui désigne la phase d'extraction des connaissances, avec la découverte de connaissances dans les bases de données (KDD ou Knowledge Discovery in Databases) .

La naissance du data mining est essentiellement due à la conjonction des deux facteurs suivants :

Ø l'accroissement exponentiel dans les entreprises de données liées à leur activité (données sur la clientèle, les stocks, la fabrication, la comptabilité ...) qu'il serait dommage de jeter car elles contiennent des informations-clé sur leur fonctionnement stratégiques pour la prise de décision.

Ø Les progrès très rapides des matériels et des logiciels.

L'objectif poursuivi par le data mining est donc celui de la valorisation des données contenues dans les systèmes d'information des entreprises. »

Les premières applications se sont faites dans le domaine de la gestion de la relation client qui consiste à analyser le comportement de la clientèle pour mieux la fidéliser et lui proposer des produits adaptés. Ce qui caractérise la fouille de données (et choque souvent certains statisticiens) est qu'il s'agit d'une analyse dite secondaire de données recueillies à d'autres fins (souvent de gestion) sans qu'un protocole expérimental ou une méthode de sondage ait été mis en oeuvre.

La fouille de données consiste à rechercher et extraire de l'information (utile et inconnue) de gros volumes de données stockées dans des bases ou des entrepôts de données. Le développement récent de la fouille de données (depuis le début des années 1990) est lié à plusieurs facteurs :

Ø une puissance de calcul importante est disponible sur les ordinateurs de bureau ou même à domicile ;

Ø le volume des bases de données augmente énormément ;

Ø l'accès aux réseaux de taille mondiale, ces réseaux ayant un débit sans cesse croissant, qui rendent le calcul possible et la distribution d'information sur un réseau d'échelle mondiale viable ;

Ø la prise de conscience de l'intérêt commercial pour l'optimisation des processus de fabrication, vente, gestion, logistique, ...

La fouille de données a aujourd'hui une grande importance économique du fait qu'elle permet d'optimiser la gestion des ressources (humaines et matérielles).

Quand elle est bien menée, la fouille de données a apporté des succès certains, à tel point que l'engouement qu'elle suscite a pu entraîner la transformation (au moins nominale) de services statistiques de grandes entreprises en services de data mining.

La recherche d'information dans les grandes bases de données médicales ou de santé (enquêtes, données hospitalières etc.) par des techniques de data mining est encore relativement peu développée, mais devrait se développer très vite à partir du moment où les outils existent. Quels sont les outils du data mining et que peut-on trouver et prouver ?

Le datamining peut aussi être défini comme un processus inductif, itératif et interactif de découverte dans les bases de données larges de modèles de données valides, nouveaux, utiles et compréhensibles.

Ø Inductif: Généralisation d'une observation ou d'un raisonnement établis à partir de cas singuliers.

Ø Itératif : nécessite plusieurs passes

Ø Interactif : l'utilisateur est dans la boucle du processus

Ø Valides : valables dans le futur

Ø Nouveaux : non prévisibles

Ø Utiles : permettent à l'utilisateur de prendre des décisions

Ø Compréhensibles : présentation simple

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Nous voulons explorer la bonté contrée énorme où tout se tait" Appolinaire