Une contribution du datamining àƒÂ la segmentation du marché et au ciblage des offres àƒÂ l'aide de la statistique de Bayes

( Télécharger le fichier original )
par samuel Kalombo
UNiversité de Kinshasa - Licence 2011

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE III. CIBLAGE DES OFFRES [3,7]

III.1 Définition

Définition 1

On dispose d'un ensemble X de N données étiquetées. Chaque donnée xi est caractérisée par P attributs et par sa classe yi € Y. Dans un problème de classification, la classe prend sa valeur parmi un ensemble fini. Le problème consiste alors, en s'appuyant sur l'ensemble d'exemples

X = À prédire la classe de toute nouvelle donnée x D.

On parle de classification binaire quand le nombre de classes |Y| est 2 ; il peut naturellement être quelconque. Dans tous les cas, il s'agît d'un attribut qualitatif pouvant prendre un nombre fini de valeurs.

Dans l'absolu, une donnée peut appartenir à plusieurs classes : c'est alors un problème multi-classes. Ici, on considère que chaque donnée appartient à une et une seule classe.

Définition 2

Un exemple est une donnée pour laquelle on dispose de sa classe. On utilise donc un ensemble d'exemples classés pour prédire la classe de nouvelles données ; c'est une tâche d'« apprentissage à partir d'exemples », ou de « apprentissage supervisé ».

Définition 3

Un « classeur » est une procédure (un algorithme) qui, à partir d'un ensemble d'exemples, produit une prédiction de la classe de toute donnée.

D'une manière générale, un classeur procède par « induction » : à partir d'exemples (donc de cas particuliers), on construit une connaissance plus générale. La notion d'induction de connaissances implique la notion de « généralisation » de la connaissance : à partir de connaissances éparses, les exemples, on induit une connaissance plus générale. Naturellement, même si l'on suppose que la classe des étiquettes n'est pas erronée, il y a un risque d'erreur lors de la généralisation ; ce risque est quantifié par la notion de « taux d'échec », ou d'« erreur en généralisation ».

Quand on tente d'induire de la connaissance, il faut déterminer, au moins implicitement, la pertinence des attributs pour la prédiction de l'étiquette d'une donnée quelconque : c'est cela « généraliser ». D'une manière ou d'une part, explicitement ou pas, généraliser implique de construire un modèle des données.

La taille de ce modèle est un paramètre important. à l'extrême, il est aussi gros que l'ensemble des exemples : dans ce cas, on n'a rien appris, rien généralisé et on est incapable d'effectuer une prédiction fiable pour une donnée qui ne se trouve pas dans l'ensemble des exemples : on a sur-appris.

A un autre extrême, on peut n'avoir appris que les proportions des différentes étiquettes dans l'espace des données : par exemple, 1=3 des données sont bleues et les autres sont rouges, cela sans lien avec la description des données ; prédire la classe revient alors à tirer la classe au hasard avec ces proportions un tiers/deux tiers : on a pris trop de recul et on n'est plus capable d'effectuer une prédiction fiable pour une donnée particulière.

Entre ces deux extrêmes, il y a un juste milieu ou le modèle a pris du recul par rapport aux exemples, a su extraire les informations pertinentes du jeu d'exemples pour déterminer l'étiquette de n'importe quelle donnée avec une probabilité élevée de succès ; le modèle est alors de taille modérée et la probabilité d'erreur de ce modèle est la plus faible que l'on puisse obtenir : on a un modèle optimisant le rapport qualité/prix, i.e. probabilité d'effectuer une prédiction correcte/coût du modèle. La recherche d'un modèle optimisant ce rapport est l'objectif de l'apprentissage automatique, lequel est l'un des outils indispensables pour la réaliser de la fouille de données.

On distingue deux grands types de classeurs :

Ø ceux qui utilisent directement les exemples pour prédire la classe d'une donnée ;

Ø ceux pour lesquels on a d'abord construit un modèle et qui, ensuite, utilisent ce modèle pour effectuer leur prédiction.

Le problème de classification présente de nombreuses difficultés ou problèmes à résoudre tels que :

Ø Méthode d'induction du classeur ;

Ø Comment utiliser le classeur obtenu ;

Ø Comment évaluer la qualité du classeur obtenu : taux d'erreur ou de succès ;

Ø Comment traiter les attributs manquants dans le jeu d'apprentissage ;

Ø Comment traiter les attributs manquants dans une donnée à classer ;

Ø Estimer la tolérance au bruit : le bruit concerne ici la valeur des attributs de l'exemple avec lequel on construit le classeur.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"La première panacée d'une nation mal gouvernée est l'inflation monétaire, la seconde, c'est la guerre. Tous deux apportent une prospérité temporaire, tous deux apportent une ruine permanente. Mais tous deux sont le refuge des opportunistes politiques et économiques" Hemingway