3.9.2.2. Arret prematuré
L'arrêt prématuré ou précoce
(utilisé dans ce travail) consiste à utiliser beaucoup de
neurones cachés pour éviter les minima locaux et en même
temps réduire le temps d'apprentissage. Cette méthode agit
indirectement sur le nombre effectif de paramètres. Elle est
basée sur le concept statistique de la division d'échantillon
(split-sampling). Les données d'entrée du modèle sont
subdivisées en trois ensembles : un premier groupe pour l'apprentissage,
un deuxième groupe pour la validation (pour arrêter
l'apprentissage) et un troisième groupe pour le test (pour tester la
généralisation du modèle). L'apprentissage est
arrêté, avant qu'il atteigne le minimum, lorsque le critère
d'erreur, mesuré sur l'ensemble de validation, commence à
augmenter de façon constante. Le résultat obtenue avec cette
méthode est biaisée vers l'ensemble de validation. Elle est
très critiquée ; car, ni l'ensemble d'apprentissage, ni celui de
validation, n'utilise l'échantillon dans sa totalité (Awadallah,
1999).
3.9.2.3. Régularisation
La troisième méthode joue sur les normes de la
matrice des paramètres. Elle consiste à introduire un terme de
pénalité dans la fonction coût pour restreindre
progressivement l'espace du vecteur des paramètres dans un voisinage de
zéro. L'expression de la fonction coût résultant est
détaillée dans les travaux d'Awadallah (1999), McKay (1992) et
Neal (1996). Ces travaux ont élaboré un cadre statistique
basé sur la théorie baryesienne pour la détermination d'un
coefficient de régularisation.
|