Apprentissage sur des données académiques en vue de faciliter l'orientation et l'aide à la décision

par Zelkifilou NJAMEN MOUNGNUTOU
Université de Douala - Master 2 recherche en informatique appliquée option SIS 2020

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

2.2. LE MACHINE LEARNING (APPRENTISSAGE AUTOMATIQUE)CHAPITRE 2. REVUE DE LA LITTÉRATURE

2.2.1.2 Apprentissage non supervisé

Dans l'apprentissage non superviséil n'y a pas de notion de sortie désirée, on dispose seulement d'un nombre fini de données d'apprentissage, constituées »d'entrées», sans qu'aucun label n'y soit rattaché.

Autrement dit, il s'agit d'un apprentissage dans lequel les données ne sont pas étiquetées d'après Wikipédia [16]. L'absence d'étiquetage ou d'annotation caractérise les tâches d'apprentissage non superviséet les distingue donc des tâches d'apprentissage supervisé.

L'introduction dans un système d'une approche d'apprentissage non superviséest un moyen d'expérimenter l'intelligence artificielle. En général, des systèmes d'apprentis-sage non supervisépermettent d'exécuter des tâches plus complexes que les systèmes d'apprentissage supervisé, mais ils peuvent aussi être plus imprévisibles. Même si un système d'IA d'apprentissage non superviséparvient tout seul, par exemple, à faire le tri entre des chats et des chiens, il peut aussi ajouter des catégories inattendues et non désirées, et classer des races inhabituelles, introduisant plus de bruit que d'ordre d'après

Wikipédia [16]. Les techniques de résolution des problèmes d'apprentissage non supervis^ésont multiples. Cependant, nous allons citer quelques unes telles que :

1) Estimation de densité:

Dans un problème d'estimation de densité, on cherche à modéliser convenablement la distribution des données. L'estimateur obtenu f(x) doit pouvoir donner un bon estiméde la densitéde probabilitéà un point de test x issu de la même distribution (inconnue) que les données d'apprentissage.

2) Le Partitionnement (clustering) :

Le problème du partitionnement est le pendant non-superviséde la classification. Un algorithme de partitionnement tente de partitionner l'espace d'entrée en un certain nombre de classes en se basant sur un ensemble d'apprentissage fini, ne contenant aucune information de classe explicite. Les critères utilisés pour décider si deux points devraient appartenir à la même classe ou à des classes différents sont spécifiques à chaque algorithme, mais sont très souvent liés à une mesure de distance entre points.

3) Réduction de dimensionalité:

2.3. LES ALGORITHMES DE MACHINE LEARNING CHAPITRE 2. REVUE DE LA LITTÉRATURE

Mémoire de Master II en Informatique 19 c~NJAMEN M. ZELKIF 2020-2021

Le but d'un algorithme de réduction de dimensionalitéest de parvenir à résumer l'information présente dans les coordonnées d'un point en haute dimension (x E Rⁿ, n grand) par un nombre plus réduit de caractéristiques

(y = f(x), y E R^m, in < n). Le but espéréest de préserver l'information importante, de la mettre en évidence en la dissociant du bruit, et possiblement de révéler une structure sous-jacente qui ne serait pas immédiatement apparente dans les données

précédent sommaire suivant