3.9. LIMITES ET PRÉCAUTIONS DANS LA
MODÉLISATION AVEC LES
RÉSEAUX DE NEURONES FORMELS
Dans la modélisation avec les Réseaux de neurones
Formels, deux questions reviennent de façons récurrentes. La
problématique des minima locaux et celle de la
généralisation.
3.9.1. Problème des minima locaux
Pendant l'apprentissage, les paramètres tels que les
poids et les biais peuvent converger vers des valeurs qui représentent
des minima locaux de la fonction coût et non un minimum global. Atteindre
le minimum global est une utopie, à cause de la complexité de la
surface de la fonction de coût. Il faut, cependant y être le plus
près possible pour représenter fidèlement les variables
cibles à simuler ou à prévoir. Chitra, (1993)
préconise trois approches pour éviter le plus possible les minima
locaux et s'approcher des minima globaux :
i. réinitialiser plusieurs fois les différents
poids et recommencer le processus d'apprentissage ;
ii. augmenter légèrement ces poids pour
s'éloigner du minimum local et recommencer l'apprentissage ;
iii. utiliser les techniques plus complexes d'optimisation
stochastique globale. 3.9.2. Problème de
généralisation
La modélisation avec les réseaux de neurones
formels est un compromis entre le sous apprentissage et le sur apprentissage.
Il s'agit généralement d'éviter les minima locaux et de se
rapprocher des maxima globaux. Le sou apprentissage est facile à
résoudre, grâce à l'augmentation de la taille du
réseau. Concernant le sur-apprentissage, plusieurs méthodes ont
tenté de le résoudre, notamment l'élagage, l'arrêt
prématuré et la régularisation (Awadallah, 1999).
3.9.2.1. Elagage
L'élagage est une méthode d'élimination
par pas descendant (stepwise en anglais) qui tend à éliminer les
poids d'un réseau de neurones formels entièrement
connecté. Cette méthode admet deux variantes, le dommage optimal
du cerveau (optimal brain damage) et la variante du chirurgien optimal du
cerveau (optimal brain surgeon). La première variante est basée
sur le calcul de la matrice de dérivées secondes de la fonction
coût en fonction des paramètres ; tandis que la seconde variante
est basée sur le calcul de l'augmentation minimale de la fonction
coût due à l'élimination d'un poids. Le réseau ainsi
allégé est entraîné à nouveau et sa
capacité de généralisation est testée à
chaque fois. Cette méthode est coûteuse du point de vue temps et
il existe un risque de tomber sur des réseaux instables pendant le
processus. Dans la littérature, une méthode inverse existe
(Awadallah, 1999). Avec cette méthode inverse, on commence par un
réseau simple et on le rend complexe en ajoutant des neurones
cachés. Le réseau de neurones formels retenu à la fin de
tous ces processus est celui qui minimise au mieux l'erreur de
généralisation.
|