WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

La formation réticulée médiane : un substrat pour la sélection de l'action ? modélisation via réseaux de neurones et algorithmes évolutionnistes.

( Télécharger le fichier original )
par Franck Dernoncourt
ENS Ulm  - Master Recherche en Sciences Cognitives 2011
Dans la categorie: Informatique et Télécommunications
  

Disponible en mode multipage

La formation réticulée médiane : un substrat
pour la sélection de l'action ? Modélisation via
réseaux de neurones et algorithmes
évolutionnistes.

Franck Dernoncourt
franck.dernoncourt@gmail.com

Supervisépar Stéphane Doncieux et Benoàýt Girard

Table des matières

Table des matières i

Table des figures iii

1 Introduction 3

1.1 Remarques liminaires 3

1.2 Sélection de l'action 5

1.3 Données anatomiques internes 7

1.4 Démonstration de P(l) > 45 × P(p) 9

1.5 Modèles existants 10

1.5.1 Le modèle de Kilmer-McCulloch - 1969 10

1.5.2 Le modèle de Humphries - 2006 13

1.6 Démarche et objectifs de ce rapport 14

2 Matériel théorique 15

2.1 Les réseaux de neurones 15

2.2 Les algorithmes évolutionnistes 18

2.2.1 Définitions 18

2.2.2 Application 20

3 Tâche désincarnée : la tâche vectorielle abstraite 23

3.1 Expérience 23

3.2 Résultats 26

4 Tâche incarnée : la tâche de survie minimale 31

4.1 Expérience 31

4.2 Résultats 34

5 Discussions et perspectives 40

6 Conclusion 44

Bibliographie 46

TABLE DES MATI`ERES ii

A Notes techniques sur l'implémentation 51

B Exemple d'une mRF a` 4 clusters 53

C Exemple d'un cluster de la mRF 55

Table des figures

1.1 Tronc c'er'ebral chez un cerveau humain (partie en rouge) 4

1.2 Localisation de la mRF 4

1.3 Projections sur et depuis la mRF 4

1.4 Coupes du cerveau au niveau post'erieur du tronc c'er'ebral. 6

1.5 Coupe sagittale de la mRF 8

1.6 mRF et structures smallworld 11

1.7 Modèle de Humphries 13

2.1 Exemple d'un neurone avec 2 entr'ees 16

2.2 Exemple d'une mRF a` 4 clusters 17

2.3 Exemple d'un cluster de la mRF 17

2.4 Fonctionnement d'un algorithme 'evolutionniste 19

2.5 Exemple de front de Pareto de dimension 2 21

2.6 Mono vs multi-objectif 21

3.1 Tâche d'esincarn'ee 24

3.2 Front de Pareto de dimension 2 27

3.3 Front de Pareto de dimension 3 28

3.4 Front de Pareto 2D sans contraintes lors des mutations 29

3.5 Front de Pareto 2D de l''evolution sans aucune contrainte 30

4.1 Environnement de la tâche de survie minimale 32

4.2 Comparaison des contrôleurs al'eatoire et WTA dans la tâche de survie 35
4.3 Front de Pareto 2D de l''evolution d'un contrôleur mRF 36

4.4 Comparaison des contrôleurs dans la tâche de survie 37

4.5 Comparaison des contrôleurs dans la tâche de survie 37

4.6 Front de Pareto 2D de l''evolution d'un contrôleur mRF avec modulation 38
4.7 Front de Pareto 2D de l''evolution d'un contrôleur mRF sans saliences 39

A.1 Statistiques sur le code source 52

B.1 Exemple d'une mRF a` 4 clusters 54

C.1 Exemple d'un cluster de la mRF 56

Résumé

La formation r'eticul'ee m'ediane (mRF) est une r'egion du tronc c'er'ebral recevant des entr'ees sensorielles très riches, en mesure de controler les actions motrices via ses connexions vers la moelle spinale et les nerfs cràaniens. Phylog'en'etiquement, la mRF est l'une des plus anciennes structures nerveuses du tronc c'er'ebral, lui-même 'etant ce qu'on peut consid'erer comme un des centres les plus anciens du système nerveux central. Elle semble donc constituer un proto système de s'election de l'action.

Le premier modèle de la mRF a 'et'e propos'e par [Kilmer et al., 1969], il interprète d'ejàle role de cette r'egion comme un s'electeur de mode de fonctionnement. [Humphries et al., 2005] ont voulu tester l'efficacit'e de ce modèle en tant que m'ecanisme de s'election de l'action de bas niveau en le confrontant a` la tàache de survie minimale propos'ee dans [Girard et al., 2003]. Le modèle original s'est av'er'e peu efficace, ce qui a conduit [Humphries et al., 2006] a` proposer un second modèle exprim'e dans un formalisme de r'eseau de neurones et prenant quelques donn'ees anatomiques et physiologiques suppl'ementaires. N'eanmoins, ce second modèle n'a qu'un succès mitig'e sur la tàache de survie minimale et est assez peu plausible anatomiquement en raison de sa forte abstraction.

Nous proposons dans ce rapport un nouveau modèle de la mRF :

- contraint par les informations anatomiques quant a` sa structuration;

- construit sur la base de r'eseaux de neurones g'en'er'es par 'evolution artificielle; - 'evalu'e sur des tàaches de s'election de l'action.

Le modèle obtenu r'eussit avec succès les tàaches de s'election, ce qui montre que la mRF peut servir de système de s'election de l'action. Nous d'emontrerons 'egalement une propri'et'e anatomique de la mRF qui coupl'ee aux r'esultats de l'article [Humphries et al., 2006] montre qu'il est très probable que la mRF r'eseau ait une structure de type small-world.

Ce projet est financ'e par l'ANR (ANR-09-EMER-005-01) dans le cadre du projet EvoNeuro (http :// pages.isir.upmc.fr/EvoNeuro).

Remerciements

Je souhaite tout d'abord exprimer ma plus profonde gratitude envers mes deux encadrants, Stéphane Doncieux et Benoit Girard: outre leurs précieux conseils indispensables pour mener a` bien ce projet, ils ont suivi avec minutie l'avancée de mes travaux tout au long du stage et leurs exigences élevées m'ont pousséa` donner le meilleur de moi-même. La complémentaritéde leurs compétences, Stéphane étant spécialiste de l'évolution artificielle et Benoit expert en modeles neuro-computationnels de sélection de l'action, revêtit une importance cruciale dans la réalisation des travaux que nous allons présenter dans ce rapport et m'a permis personnellement de gagner considérablement en compétences sur ces deux problématiques en quelques mois seulement.

Je tiens également a` remercier tres chaleureusement Jean Liénard, Tony Pinville et Paul Tonelli, doctorants a` l'ISIR : leur aide généreuse et leurs avis spontanés ont orientémes réflexions vers des chemins plus fructueux, notamment en partageant leurs diverses expériences de these.

Enfin, mes pensées de remerciements vont a` toutes les autres personnes du CogMaster et de l'ISIR avec qui j'ai pu échanger sur mon projet de stage et qui m'ont permis par leurs réflexions de màurir ce projet et d'avancer dans mes recherches, et en particulier a` mon tuteur du CogMaster et d'HEC, Philippe Mongin, dont la gentillesse, la perspicacitéet l'ouverture d'esprit pour ne citer que quelques-unes de ses qualités sont sans limite. Beaucoup de choses n'eurent pas étépossibles sans lui.

Chapitre 1

Introduction

Ce chapitre présente une vue d'ensemble de la formation réticulée médiane : après quelques remarques préliminaires, nous résumerons des études qui tendent a` montrer que la mRF est un proto-système de sélection de l'action. Dans un second temps, nous présenterons de façon synoptique l'ensemble des données anatomiques connues de la mRF permettant de la modéliser. Enfin, nous étudierons les deux et uniques modèles existants de la formation réticulée médiane afin de voir leurs lacunes, tout en tirant parti de leurs points forts pour construire le nôtre.

1.1 Remarques liminaires

La formation r'eticul'ee, dont fait partie la formation r'eticul'ee m'ediane, est un composant du système nerveux central qui doit son nom (tir'e du latin reticulum signifiant filet) a` sa pr'esentation anatomique en r'eseau dense et intriqu'e. Situ'ee sur le plancher du tronc c'er'ebral entre la moelle allong'ee et le m'esenc'ephale, elle projette et reçoit des fibres nerveuses de toute la moelle spinale ainsi que de nombreux autres composants du n'evraxe tels que le cortex c'er'ebral, l'hypothalamus ou le cervelet (cf figures 1.1, 1.2 et 1.3).

Nous nous int'eresserons dans ce rapport a` une partie de la formation r'eticul'ee appel'ee formation r'eticul'ee m'ediane (ou m'ediale), que nous abrègerons par mRF dans la suite d'après la traduction anglaise medial Reticular Formation.

FIGURE 1.1: Tronc c'er'ebral chez un cerveau humain (partie en rouge)

FIGURE 1.2: Localisation de la mRF (zone en noir) dans le cerveau d'un chat. RF : reticular formation. CPu : caudate-putamen. SC : superior colliculus. SN : substantia nigra. Source : [Humphries et al., 2006]

La phylog'enèse du système nerveux montre que la mRF est l'une des plus anciennes structures nerveuses du tronc c'er'ebral, lui-même 'etant ce qu'on peut consid'erer comme un des centres les plus anciens du système nerveux central. Ainsi, parmi les diff'erentes espèces animales, la mRF est très comparable, comme le montre par exemple [Ramón-Moliner and Nauta, 1966] entre les requins et les humains, ce qui nous permettra d'agr'eger directement les donn'ees issues d''etudes sur des animaux diff'erents.

1.2 S'election de l'action

La s'election de l'action d'esigne le problème crucial que rencontre tout agent autonome, qu'il soit de nature animale ou robotique, qui consiste a` choisir et coordonner continuellement ses comportements dans l'optique de mener a` bien ses objectifs au long terme, tels que la survie, la reproduction, ou tout autre tàache d'efinie par le concepteur dans le cas d'un robot. Les animaux doivent donc n'ecessairement mettre en oeuvre des solutions efficaces de s'election de l'action, d'o`u notre recherche au sein du système nerveux d'un tel m'ecanisme.

Plusieurs donn'ees tendent a` montrer que la mRF est impliqu'ee dans la s'election de l'action, nous allons les r'esumer succinctement dans cette section.

Tout d'abord, la mRF semble disposer de toutes les informations auxquelles ont accès les systèmes de monitoring et sensoriels aussi bien externe qu'interne d'un animal : elle reçoit ainsi une quantit'e consid'erable d'entr'ees sensorielles, comme le synth'etise [Humphries et al., 2007], provenant notamment des sytèmes sensoriel, respiratoire, visc'eral, vestibulaire, proprioceptif, nociceptif ou encore cardio-vasculaire. Ces donn'ees sont corrobor'ees par les divers enregistrements effectu'es sur la mRF montrant que cette dernière r'eagit a` des stimuli très vari'es [Segundo et al., 1967, Bowsher, 1970, Langhorst et al., 1983].

De façon compl'ementaire, la mRF projette en masse sur tous les niveaux de la moelle spinale ainsi que sur les nerfs cràaniens [Torvik and Brodal, 1957, Eccles et al., 1976, Jones, 1995], ce qui lui donne la capacit'e de contrôler aussi bien la musculature axiale que la face. Par cons'equent, la mRF dispose des entr'ees et des sorties n'ecessaires a` tout candidat de système de s'election de l'action.

Exp'erimentalement, il a 'et'e montr'e que des rats qui avaient subi une coupe complète au niveau post'erieur du tronc c'er'ebral, plus pr'ecis'ement post'erieur au thalamus et a` l'hypothalamus, en enlevant toute la partie rostrale du cerveau par rapport a` cet axe de coupe (cf les 3 axes de coupe sur la figure 1.4), pr'esentaient un comportement

surprenamment coh'erent [Woods, 1964], hormis les erreurs engendr'ees par la perte de la vision, de l'odorat ainsi que des troubles de la r'egulation hormonale. Les rats de l'exp'erience 'etaient toujours capable d'effectuer des s'elections de l'action de bas niveau, tel manger, se mouvoir, boire ou dormir en fonction des stimuli. Les r'esultats très importants de cette exp'erience furent plus tard confirm'es par [Lovick, 1972, Berntson and Micco, 1976, Berridge, 1989], mettant l'accent sur le fait que ces rats peuvent effectuer des combinaisons d'actions coordonn'ees, tel tenir, ronger et màacher de la nourriture, combinaisons plus complexes que de simples r'eflexes qui pourraient 'emaner de la moelle spinale.

FIGURE 1.4: Coupes du cerveau au niveau post'erieur du tronc c'er'ebral. Les lignes en pointill'es montrent 3 coupes, toute la partie du cerveau situ'ee du côt'e rostral des lignes a 'et'e enlev'ee. GP : globus pallidus. RF : reticular formation. SN : substantia nigra. STN : subthalamic nucleus. SC : superior colliculus. Source : [Humphries et al., 2007]

Pour v'erifier le role de la mRF, des stimulations locales 'electriques et chimiques ont 'et'e faites sur des animaux normaux, stimulations qui eurent pour r'eaction de les faire changer de comportement, par exemple manger, dormir, boire, s'enfuir, chercher ou encore se laver [Magoun and Rhines, 1946, Glickman and Schiff, 1967]. Ces r'esultats montrent l'ampleur des diff'erents comportements que controle au moins en partie la mRF.

A contrario, des 'etudes ont port'e sur l'impact de l'esions a` la mRF. Elles t'emoignent de troubles s'evères du comportement, notamment des troubles du sommeil, les sujets 'etudi'es montrant d'un d'ephasage entre le sommeil c'er'ebral et le reste du corps [Birkmayer and Pilleri, 1966], ou aussi des alternances fr'equentes entre sommeil pro-fond et rage extreme [Jouvet, 1967]. [Parvizi and Damasio, 2003] ont meme montr'e

que des l'esions de certaines parties de la mRF peuvent provoquer le coma, voire la mort chez un être humain.

Enfin, contrairement a` la plupart des structures neuronales, les cellules de la mRF existent d`es la naissance [Hammer Jr et al., 1981], ce qui peut repr'esenter une indication de l'importance de leur pr'esence pour la survie de l'individu.

A` la lueur de ces diff'erentes 'etudes, il semble raisonnable de supposer que la mRF constitue un proto-syst`eme de s'election de l'action, proto car les actions en question semblent être d'un niveau assez rudimentaire et en raison de l'anciennet'e phylog'en'etique.

1.3 Données anatomiques internes

Dans cette section, nous allons rassembler toutes les donn'ees anatomiques qui seront utiles pour construire un mod`ele de la mRF.

Premi`ere remarque d'ordre g'en'eral, la litt'erature neuroscientifique montre que les m'ecanismes de s'election de l'action sont impl'ement'es suivant deux architectures diff'erentes dans le cerveau des mammif`eres :

- une architecture de type centralis'ee, o`u chaque module neuronal projette sur un syst`eme de d'ecision central. Les ganglions de la base auraient ce type d'architecture [Redgrave et al., 1999, Prescott et al., 1999].

- une architecture de type modulaire, o`u chaque module neuronal est en comp'etition, inhibant ou excitant les autres modules. La mRF aurait ce type d'architecture [Humphries et al., 2007].

Une des particularit'es de la mRF est son organisation en clusters ('egalement appel'es stacks ou chips selon les articles) [Scheibel and Scheibel, 1967], comme le montre la coupe sagitalle de la mRF pr'esent'ee sur la figure 1.5.

La mRF d'un rat mesure environ 7 mm sur l'axe rostral-caudal et contient entre 35 et 75 clusters [Humphries et al., 2006]. La mRF d'une grenouille contient approximativement 0.75 million de neurones, tandis que celle d'un être humain en contient 2 millions [Kilmer et al., 1969]. Les clusters sont de la même taille en terme de dimension et de nombre de neurones [Humphries et al., 2007]. Ils reçoivent tous les mêmes entr'ees et projettent vers les mêmes zones [Humphries and Prescott, 2006].

Il existe deux cat'egories principales de neurones dans la mRF :

- Les interneurones : de taille petite ou moyenne, ils sont tous inhibiteurs (quelques exceptions existent cependant) et projettent quasi exclusivement dans leur propre

FIGURE 1.5: Coupe sagittale de la mRF sur un rat, montrant son organisation en clusters. Source : [Scheibel and Scheibel, 1967]

cluster, aussi bien sur des neurones de projection que sur des interneurones. Ils représentent environ 20% des neurones de la mRF [Humphries et al., 2006].

- Les neurones de projection : de taille moyenne a` très grande, ils sont tous excitateurs (quelques exceptions existent cependant) et ils projettent quasi exclusivement en dehors de leur propre cluster, vers d'autres clusters ou bien en dehors de la mRF [Humphries et al., 2006]. Environ 45% des synapses en entrée des neurones de projection sont GABAergiques, c'est-à-dire inhibiteurs, donc provenant d'interneurones [Humphries et al., 2007]. Les neurones de projection représentent environ 80% des neurones de la mRF.

La probabiliténotée P(c) qu'un neurone de projection projette sur un cluster donnéest l'objet de deux modèles différents dans la littérature. Selon [Grantyn et al., 1987],

P(c) = 0.25 quel que soit le cluster source (o`u se trouve le noyau du neurone de projection) et le cluster destination (vers lequel projette le neurone de projection). Selon [Kilmer et al., 1969], la probabilitéP(c) dépend de la distance entre le cluster source et le cluster destination : P(c) = d-a, o`u d est la distance et a un paramètre supérieur ou égal a` 1.

La probabiliténotée P(p) qu'un neurone de projection projette sur un neurone donné, sachant qu'il projette dans le cluster de ce dernier, ainsi que la probabiliténotée P(l) qu'un interneurone forme une connexion avec un neurone donnéde son cluster sont toutes les deux faibles, probablement inférieures a` 0.1 d'après [Schuz, 1998, Albert and Barabási, 2002].

entièrement la structure du r'eseau :

- c : le nombre de clusters (entre 35 et 75);

- n : le nombre de neurones dans un cluster (environ 1500000/55 30000);

- p : le pourcentage de neurones de projection (environ 80%). Le pourcentage d'interneurones est donc de 1 - p;

- P(c) : la probabilit'e qu'un neurone de projection projette sur un cluster donn'e

(P(c) = 0.25 ou bien P(c) = d--a avec d la distance et a un paramètre);

- P(p) : la probabilit'e qu'un neurone de projection projette sur neurone donn'e,

sachant qu'il projette dans le cluster de ce dernier (P(p) < 0.1);

- P(l) : la probabilit'e qu'un interneurone forme une connexion avec un neurone donn'e de son cluster (P(l) < 0.1).

Après avoir pr'esent'e les donn'ees anatomiques connues sur la mRF, nous allons main-tenant pr'esenter une d'emonstration que nous avons r'ealis'e au cours des recherches anatomiques montrant que P(l) > 45 × P(p).

1.4 D'emonstration de P(l) > 45 × P(p)

Soient, en plus des notations vues dans la section pr'ec'edente :

- P(I ? I) la probabilit'e qu'un interneurone forme une connexion avec un inter-neurone donn'e du même cluster (le signe ? symbolise une connexion dans le graphe);

- P(I ? P) la probabilit'e qu'un interneurone forme une connexion avec un neurone de projection donn'e du même cluster;

- nbI le nombre d'interneurones dans un cluster de la mRF;

- nbP le nombre de neurones de projection dans un cluster de la mRF.

Supposons :

- qu'un interneurone ne projette que dans son propre cluster (le nombre de projections d'interneurones en dehors de leur cluster est n'egligeable);

- que P(c) = 0.25. C'est un des deux modèles anatomiques connus pour P(c). Le second modèle, faisant d'ependre P(c) de la distance entre le cluster source et le cluster destination, favorise une structure de type small-world par rapport a` 0.25 comme le montre la figure 1.6. Par cons'equent, l'hypothèse prise ici permettra de g'en'eraliser le r'esultat de la d'emonstration au second modèle, 'etant donn'e que pour obtenir une structure small-world, intuitivement et comme le montre aussi la figure 1.6, il faut un nombre 'elev'e de connexions dans un même cluster (d'efini par P(l)) par comparaison au nombre de connexions inter-cluster (d'efini par P(p)), ce que favorise le second modèle par rapport au premier oiP(c) = 0.25.

Par construction :

- nous avons P(l) = P(I ? I) + P(I ? P) (car nous consid'erons qu'un interneurone ne projette que dans son propre cluster);

- nous avons nbP/(nbP +nbI) = 80% (c'est la proportion de neurones de projection, connue dans la litt'erature), donc nbP = 4 × nbI.

Comme nous l'avons vu pr'ec'edemment, 45% des synapses de neurones de projection sont GABAergiques. Autrement dit, 45% des connexions entrantes sur un neurone de projection proviennent d'un interneurone, car les interneurones sont tous inhibiteurs et GABAergiques (il se peut qu'il y ait des exceptions, mais n'egligeables).

nbI xP(I-+P)

Formellement, cela signifie que = 45%

nbIxP (I-+P )+nbP xP (p)xP (c)xc

ce qui est 'equivalent a` nbI × P(I ? P) = (45%/55%) × (nbP × P(p) × P(c) × c) ce qui peut s''ecrire 'egalement P(I ? P) = 4 × (45%/55%) × (P(p) × P(c) × c) (car nbP = 4 × nbI).

Remplaçons par les valeurs par P(c) = 0.25 et c = 55 (moyenne entre 35 et 75) : Cela donne donc P(I ? P) = 45 × P(p)

Or P(l) = P(I ? I) + P(I ? P)

D'o`u P(l) > 45 × P(p)

Ce r'esultat 'etaie fortement la thèse selon laquelle la mRF a une structure de type small-world [Humphries et al., 2006], comme le montre la figure 1.6.

Après avoir pr'esent'e la structure de la mRF, nous allons maintenant analyser les deux uniques modèles publi'es de la mRF.

1.5 Modèles existants

1.5.1 Le modèle de Kilmer-McCulloch - 1969

Au cours des ann'ees 1960, W.L. Kilmer, W.S. McCulloch, and J. Blum ont publi'e plusieurs articles proposant un premier modèle de la mRF en se basant sur les 'etudes anatomiques de Scheibel & Scheibel. En 1969, ils ont synth'etis'e l'ensemble de leurs recherches dans un seul article, qui devint un article de r'ef'erence sur le sujet [Kilmer et al., 1969].

Le fil conducteur de leur modèle est le concept de mode de fonctionnement : un animal a` un instant donn'e suit un et un seul mode de fonctionnement, comme par exemple manger ou dormir. La mRF a pour fonction de passer d'un mode a` un autre. Pour appuyer cette hypothèse, lorsque la RF est endommag'ee il est constat'e des changements de mode de fonctionnement pathologique [Jouvet, 1967]. Il est pos'e comme hypothèse qu'àun cluster est associ'e a` un et un seul mode de fonctionnement.

FIGURE 1.6: Cette figure montre a` quel degréla mRF peut être considérée comme étant un réseau de type small-world selon les valeurs de P(l), (P(p) et p. En hauteur, la valeur Smax montre le degréde small-world : si elle est supérieure a` 1, alors le réseau est considérécomme étant small-world. Nous voyons clairement que la démonstration de P(l) > 45 × P(p) accroàýt fortement les chances que la mRF ait une structure de type small-world. Source : [Humphries et al., 2006]

Trois variantes du modèle sont propos'ees :

1. S-RETIC (S pour Simple, Retic pour Reticular) : Comme le nom l'indique, ce premier modèle se veut simple et directement issu des donn'ees anatomiques. Ce modèle est compos'e d'une douzaine de modules recevant des stimuli et devant d'eterminer le mode a` choisir, un module correspondant a` un cluster de la mRF. Ces modules reçoivent des informations leur permettrant d'êtrea` la fois les g'en'eralistes, afin de pallier toute d'efaillance de modules, et sp'ecialis'es afin d'être a` même de prendre une d'ecision. Les modules sont plus ou moins li'es entre eux en fonction de la distance qui les s'epare. Chaque module prend une d'ecision et lui donne une probabilit'e, et la d'ecision finale prend en compte l'ensemble des modules. Si le consensus pour un mode est assez grand, il y a alors convergence vers ce mode. Ce modèle peut facilement être 'etendu a` davantage de modes et modules. Ce modèle donne des r'esultats corrects, cependant il souffre de plusieurs manques, que la seconde variante va essayer de combler.

discrimination, habituation et conditionnement. Pour introduire ses propriétés, il faut fournir des informations supplémentaires permettant d'indiquer si un stimuli ou un choix de mode de fonctionnement est bon, neutre ou mauvais, a` l'instar de l'apprentissage par renforcement. Cet apprentissage se fait au niveau de chaque module et de façon coopérative entre les différents modules. Les résultats pour ce modèle ne sont pas détaillés. L'article souligne que STCRETIC a plusieurs caractéristiques peu attrayantes : ses connexions ne respectent pas strictement le modèle anatomique de la RF et il ne peut changer de mode que si un nouveau stimulus arrive.

3. H-RETIC (H pour Hardware) : c'est une version hardware du modèle, mais en cours d'élaboration au moment de l'écriture de l'article, et jamais achevée par

la suite, STC-RETIC étant implémentéen un software devenu trop compliquéa` maintenir et développer efficacement avec les outils de l'époque.

Néanmoins, les résultats obtenus par les auteurs avec ce modèle ne sont jamais vraiment exposés, et les imprécisions concernant sa description font qu'il est difficile d'implémenter le modèle pour l'analyser concrètement. En outre, beaucoup de considérations de l'article sont certes intéressantes, mais nullement explorées : ainsi exposé, le modèle ne satisferait pas les exigences de publications scientifiques actuelles. Il en résulte que ce premier modèle permet davantage d'avoir une vue d'ensemble sur le mRF tout en donnant des pistes intéressantes, a` défaut d'être précisément décrit et réellement utilisable.

Pendant presque 40 ans, aucun nouveau modèle de la mRF ne fut proposé. En 2005, Mark Humphries [Humphries et al., 2005] tenta de reproduire le modèle de Kilmer-McCulloch et, afin d'évaluer ses performances, il implémenta le modèle dans un robot simuléainsi que dans un robot réel. Ce dernier fut placédans le cadre une tàache de survie minimale inspirée de [Girard et al., 2003] que nous détaillerons plus tard dans le chapitre 4.1 : dans cette expérience, le robot a accès a` 4 variables (inputs de la mRF), a` partir desquelles il doit choisir une action (output de la mRF) parmi 5 a` sa disposition, étant donnéque le but pour le robot est de survivre le plus longtemps possible et que le temps de survie reflète la qualitédu choix des actions.

Les résultats obtenus furent plutôt décevants : certes le modèle de la mRF obtient des résultat souvent meilleurs qu'un modèle purement aléatoire (c'est-à-dire dans lequel les décisions sont prises aléatoirement sans prendre en compte les variables en entrée), néanmoins le modèle de la mRF est bien inférieur a` un simple modèle de type Winner-Takes-All (WTA) dont la décision prise correspond simplement a` la plus élevée des variables en entrée.

1.5.2 Le modèle de Humphries - 2006

En 2006, Mark Humphries et ses collègues présentèrent leur propre modèle de la mRF dans [Humphries and Prescott, 2006], le second donc dans la littérature de la mRF. Ils adoptèrent le formalisme classique des réseaux de neurones et choisirent d'utiliser un modèle de population, o`u chaque neurone du modèle représente un ensemble de neurones réels de la mRF, comme le montre le schéma 1.7. Ils reprirent l'hypothèse de Kilmer-McCulloch qui suppose qu'àun cluster est associée une et une seule action.

Chaque cluster est composéde 2 neurones, modélisant chacun l'activitémoyenne des neurones de chaque type de ce cluster :

- 1 neurone excitateur, projetant sur tous les autres neurones hormis ceux de son cluster;

- 1 neurone inhibiteur, ne projetant que sur lui-même et sur le neurone excitateur de son cluster.

FIGURE 1.7: Modèle de Humphries. Ce schema montre deux clusters, les entrees qu'il recoit ainsi que les connexions des neurones du cluster de gauche. Chaque cluster contient un neurone inhibiteur notei et un neuron excitateur notec. Source : [Humphries and Prescott, 2006]

Les poids des connexions reflètent d'une part les probabilités des connexions issues des données anatomiques et d'autre part le poids des connexions réelles dans la mRF, inconnues dans la littérature.

[Girard et al., 2003] et certains paramètres ont 'et'e optimis'es avec des algorithmes 'evolutionnistes, dont nous parlerons plus en d'etail dans le chapitre 2.2. Les r'esultats s'av'erèrent 'egalement plutôt d'ecevants en terme de dur'ee de survie, la plupart des simulations de ce modèle ne furent que l'egèrement meilleures par rapport au modèle purement al'eatoire.

1.6 Démarche et objectifs de ce rapport

Bien que leurs r'esultats n'eurent pas de très bonnes performances sur la tàache de survie en comparaison avec un contrôleur al'eatoire, les deux modèles de la mRF ont eu le m'erite de proposer des pistes de r'eflexion int'eressantes ainsi que, dans le cas du second, des m'ethodes d''evaluation du modèle.

Notre d'emarche sera de construire un nouveau modèle de la mRF, en observant strictement le formalisme des r'eseaux de neurones et en respectant les donn'ees anatomiques, tout en diminuant le niveau d'abstraction en augmentant le nombre de neurones par cluster. Nous avons d'ecid'e de supprimer l'hypothèse pos'ee par les concepteurs des deux pr'ec'edents modèles qu'un cluster correspond a` une et une seule action, car aucune donn'ee anatomique n'appuie cette hypothèse et au vu de la diversit'e des actions, il semble raisonnable de ne pas garder une telle contrainte.

Afin de ne pas avoir a` d'efinir tous les paramètres du r'eseau a` la main et trouver les meilleurs r'eseaux, meilleur en terme de tàaches de s'election de l'action et de respect des contraintes anatomiques, nous utiliserons des algorithmes 'evolutionnistes a` l'instar de Humphries. A` la diff'erence de ce dernier qui ne fixait qu'un seul objectif dans ses 'evolutions, nous utiliserons un algorithme 'evolutionniste multi-objectifs, ce qui nous permettra de mieux optimiser et 'etudier nos r'eseaux.

Nous 'evaluerons notre modèle sur deux tàaches de s'election de l'action : une tàache désincarnée montrant de façon statique la capacit'e d'un r'eseau a` s'electionner des actions, et une tàache incarnée mettant le modèle de la mRF en situation r'eelle en s'inspirant de la tàache de survie minimale qu'utilise 'egalement Humphries pour ses 'evaluations.

Le chapitre suivant expliquera en d'etail notre d'emarche et les outils que nous avons utilis'es pour mener a` bien ce travail.

Chapitre 2

Matériel théorique

Pour commencer, nous allons expliquer comment la mRF dans notre modèle sera formalisée en un réseau de neurones. Puis, comme nous la ferons évoluer par algorithmes évolutionnistes, nous allons présenter le fonctionnement de ces derniers et voir ce qu'ils peuvent nous apporter. Les aspects techniques de l'implémentation de ces outils théoriques seront évoqués dans l'annexe A.

2.1 Les réseaux de neurones

Un r'eseau de neurones est compos'e d'un ensemble de neurones et d'un ensemble de connexions orient'ees liant certains neurones d'entre eux. Formellement, nous pouvons le consid'erer comme 'etant un graphe orient'e et pond'er'e, chaque noeud correspondant a` un neurone.

Il existe diff'erents types de neurones : dans notre modèle, nous utiliserons une variante des neurones a` taux de d'echarge de type int'egrateurs a` fuite, appel'es lPDS (locally Projected Dynamical Systems) car ils permettent de mod'eliser une population de neurones. Nous avons choisi les lPDS en raison de leur propri'et'e de stabilit'e int'eressante, puisqu'il a 'et'e montr'e, par exemple, que la stabilit'e (au sens de la contraction) d'un système non lin'eaire compos'e de lPDS d'ecoule directement de la stabilit'e du même système sans lPDS, ce qui n'a pas 'et'e montr'e pour les int'egrateurs a` fuite standard [Girard et al., 2008]. Comme nous cherchons ici a` construire un système permettant la s'election de l'action, la stabilit'e est pr'ef'erable a` l'instabilit'e.

Un neurone lPDS est caract'eris'e par 2 paramètres : - ô, correspondant a` la constante de temps;

- threshold, correspondant au seuil d'activation.

Par simplicite, afin de ne pas multiplier les param`etres libres, nous avons fixeô a` 5ms et mis le threshold a` 0. Nous avons egalement fixele pas d'iteration dt, qui doit etre par construction toujours inferieur a` ô, a` 1ms.

La premi`ere operation realisee par le neurone consiste en une somme des grandeurs
recues en entrees, ponderees par les coefficients synaptiques, c'est-`a-dire la somme

w1x1 + .. . + wmxm =

Xm
j=1

wjxj, o`u les xi etant les entrees et wi les coefficients

synaptiques.

(m

threshold +

Nous devons ajouter le seuil threshold a` cette formule : Ewjxj

j=1

Nous utiliserons l'integration des lPDS par la methode approchee d'Euler. La fonction d'activation sera donc la suivante, an etant la valeur interne actuelle du neurone, an+1 sa future valeur interne, egale a` la valeur de sortie :

an+1(x) = #177;max (1,min (0, (an + (x - an) * dt)))

ô

Comme x correspond a` la somme ponder'ee des grandeurs recues en entrees, cela nous donne au final :

? an+1 = #177;max 1, min (0, an + (threshold + Ewjxj - an) X dtô

j=1

Le #177; present dans la formule traduit le fait qu'un neurone lPDS peut etre soit excitateur, soit inhibiteur.

La figure 2.1 montre un exemple de neurone, et le graphe B.1 represente un reseau de neurones issu de notre mod`ele correspondant a` une mRF avec 4 clusters.

FIGURE 2.1: Exemple d'un neurone avec 2 entrées et une fonction d'activation a` seuil.

FIGURE 2.2: Exemple d'une mRF a` 4 clusters. Les neurones oranges sont excitateurs, les neurones bleus foncésont inhibiteurs. Un cluster correspond a` un rectangle bleu. Les neurones situés en dehors des rectangles bleus représentent les entrées que recoit la mRF ainsi que les neurones vers lesquels elle projette. Cette figure se trouve également dans l'annexe B en version agrandie.

FIGURE 2.3: Exemple d'un cluster de la mRF. Les neurones oranges sont excitateurs, les neurones bleus foncésont inhibiteurs. Chaque connexion synaptique a` un poids entre 0 et 1. Les 3 neurones en bleu clair sont les entrées (neurones d'entrée), les 3 neurones en rouge sont les sorties de la mRF (neurones de sortie). Cette figure se trouve également dans l'annexe C en version agrandie.

De même, chaque cluster de la mRF a le même nombre de sorties. Au niveau global de la mRF, les valeurs de sorties correspondent a` la moyenne des valeurs des sorties de chaque cluster. La figure C.1 montre un cluster. Un cluster a un nombre de neurones et de connexions variables.

Ces réseaux comportant une quantitéimportante de neurones, de connexions et de paramètres, il serait fastidieux de les optimiser a` la main pour étudier en quelle mesure leur structure permet la sélection de l'action. Par conséquent, nous avons choisi d'utiliser les algorithmes évolutionnistes pour trouver des solutions par cette méthode d'optimisation qui a des propriétés particulièrement intéressantes pour notre problème comme nous allons le voir dans la section suivante.

2.2 Les algorithmes 'evolutionnistes

2.2.1 D'efinitions

Les algorithmes 'evolutionnistes, 'egalement appel'es algorithmes 'evolutionnaires, sont une famille d'algorithmes d'optimisation s'inspirant du principe de s'election naturelle de la th'eorie darwinienne. Dans le cadre de la s'election naturelle, un environnement donn'e contient une population d'individus qui sont en concurrence pour la survie et la reproduction. L'aptitude de chaque individu a` r'ealiser ces deux objectifs d'etermine leur chance d'avoir des enfants, autrement dit de transmettre leurs gènes a` des individus de la g'en'eration suivante, lesquels auront pour des raisons g'en'etiques une chance accrue de bien r'eussir a` leur tour, voire mieux, ces deux objectifs.

Ce principe d'am'elioration constante au cours des g'en'erations est repris par les algorithmes 'evolutionnistes pour optimiser des solutions a` un problème. A` la g'en'eration initiale, une population compos'ee d'individus diff'erents est g'en'er'ee, al'eatoirement ou bien selon d'autres m'ethodes. Un individu correspond a` une solution au problème, plus ou moins bonne : la qualit'e de l'individu par rapport au problème est appel'ee fitness, le terme anglais traduisant le degr'e d'ad'equation de la solution par rapport au problème a` r'esoudre. Plus la fitness d'un individu est 'elev'ee, plus ce dernier a des chances de transmettre une partie ou la totalit'e de son g'enotype dans des individus de la g'en'eration suivante.

Un individu est cod'e sous la forme d'un g'enotype, qui peut avoir n'importe quelle forme, telle une chaàýne de caractères (algorithmes g'en'etique) ou bien un vecteur de r'eels (strat'egies d''evolution). Chaque g'enotype est transform'e en un ph'enotype au moment de l''evaluation de l'individu, autrement dit lorsque que sa fitness est calcul'ee. Dans certains cas, le ph'enotype est identique au g'enotype : on parle alors de codage direct. Sinon, le codage est dit indirect. Par exemple, imaginons que l'on souhaite optimiser la taille d'un parall'el'epipède rectangle d'efini par sa longueur, sa hauteur et sa largeur. Pour simplifier l'exemple, supposons que ces trois quantit'es soient des nombres entiers compris entre 0 et 15. On peut alors d'ecrire chacune d'elles en utilisant un nombre binaire de 4 bits. Un exemple de solution potentielle peut avoir pour g'enotype 0001 0111 01010. Le ph'enotype correspondant serait un parall'el'epipède de 1 de long, 7 de haut et 10 de large.

Dernière d'efinition avant d'appliquer ces th'eories a` notre modèle de la mRF, au moment du passage de l'ancienne a` la nouvelle g'en'eration, sont appliqu'ees des op'erateurs de variation dont le but est de manipuler les individus. Il existe deux types d'op'erateurs de variation distincts :

- les op'erateurs de mutation, qui servent a` introduire des variations au sein d'un même individu, a` l'instar des mutations g'en'etiques;

- les opérateurs de croisement, qui servent a` se faire croiser au moins deux génotypes différents, a` l'instar des croisements génétiques issus de la reproduction.

Population initiale La fitness du

phénotype est calculée

Les individus sont classés en fonction de leur fitness

Les descendants sont ajoutés à la population

Les individus avec les meilleurs fitness sont croisés entre eux ; des mutations aléatoires sont ajoutées

Les individus avec les plus mauvaises fitness sont enlevés de la population

FIGURE 2.4: Fonctionnement d'un algorithme évolutionniste : a` partir d'une population initiale de solutions, ces dernières sont classées selon leur fitness, les moins bonnes sont éliminées et les meilleurs sont utilisées pour produire de nouvelles solutions. Source : [Doncieux et al., 2004]

Nous avons choisi les algorithmes évolutionnistes car ils ont fait leurs preuves dans des domaines divers tels la recherche opérationnelle, la robotique, la biologie, la finance ou encore la cryptographie. De plus, ils permettent d'optimiser plusieurs objectifs en parallèle et nous pouvons les utiliser comme des boàýtes noires car ils ne présupposent aucune propriétémathématique sur le modèle a` optimiser, permettant ainsi dans notre cas d'optimiser un système dynamique et non linéaire tel un modèle neuronal. Leur seule réelle limite est la complexitécomputationnelle, d'o`u la décision de coder notre programme dans un langage rapide (C++), multi-threadé, et de l'exécuter sur une grappe de serveurs. L'annexe A expose en détail les aspects techniques de l'implémentation.

2.2.2 Application

Dans notre modèle, la mRF est modélisée sous forme d'un réseau de neurones. Le génotype choisi lors de l'implémentation est un ensemble de réseaux de neurones correspondant chacun a` un cluster de la mRF ainsi qu'un vecteur contenant l'ensemble des connexions entre les clusters, que nous appellerons interconnexions. Le phénotype est obtenu a` partir du génotype en copiant chacun de ces réseaux dont un grand réseau, la mRF, sans oublier d'y rajouter les interconnexions.

Nos opérateurs de mutation sont :

- Ajout/suppression d'un neurone;

- Ajout/suppression/modification d'une connexion (intra-réseau) ou d'une interconnexion (inter-réseau).

Nous aurions pu au cours des mutations modifier d'autres paramètres, par exemple certaines propriétés des neurones (e.g. inhibiteur/excitateur), néanmoins nous avons préférélimiter le degréde libertéde l'évolution. 'Egalement, nous n'avons pas choisi d'opérateurs de croisement : bien qu'intuitivement nous pourrions penser qu'il serait intéressant de croiser des mRF en leur permettant de mélanger leurs clusters, une telle opération est d'une part très délicate a` implémenter car les interconnexions sont propres a` chaque cluster et chaque mRF, et d'autre part de tels croisements ne seraient pas vraiment interprétables au niveau de l'évolution étant donnéque le ràole de chacun des clusters n'est pas défini a priori.

Une partie très délicate fut l'implémentation des contraintes anatomiques de la mRF afin que l'évolution produise des réseaux de neurones cohérents avec les connaissances anatomiques. Nous l'avons implémentéa` deux niveaux complémentaires :

- en amont, au niveau des opérateurs de mutation : a` chaque mutation, nous veillons

a` rester aux alentours des données anatomiques;

- en aval, au niveau du calcul de la fitness : nous avons utiliséun algorithme évolutionniste multi-objectif, ce qui nous permet de définir un objectif de plausibilitéanatomique, poussant ainsi les réseaux a` respecter les contraintes anatomiques.

La définition des objectifs impacte considérablement les résultats. Nous avons mis en place un objectif de plausibilitéanatomique, en plus des objectifs propres tàaches de sélection de l'action que nous détaillerons dans la section suivante.

Enfin, nous avons choisi d'utiliser l'algorithme NSGA-II [Deb, 2001, Deb et al., 2002], qui est a` ce jour un des plus performants algorithmes évolutionnistes multi-objectifs et de loin le plus utilisé. Contrairement a` un algorithme mono-objectif o`u il n'y a qu'un seul meilleur individu (avec possiblement des individus ex æquo), les meilleurs individus issus d'une évolution multi-objectif formeront un front appeléfront de Pa-

reto, d'une dimension égale au nombre d'objectifs fixés. La figure 2.5 montre un front de Pareto de dimension 2 et la figure 2.6 compare l'ensemble de résultats obtenus par un algorithme mono-objectif par rapport a` l'ensemble de résultats obtenus par un algorithme mono-objectif.

FIGURE 2.5: Exemple de front de Pareto de dimension 2 : sauf mention contraire, les algorithmes évolutionnistes maximisent les objectifs contrairement a` la majoritédes algorithmes d'optimisation dont le but est de les minimiser.

FIGURE 2.6: Mono vs multi-objectif. Un algorithme mono-objectif donnera 1 résultat, tandis qu'un algorithme multi-objectif donne un ensemble de résutat. Sur la figure de gauche, 11 et 12 correspondent respectivement aux scores obtenus pour l'objectif 1 et 2. w1 et w2 sont des poids affectés aux deux scores, la combinaison linéaire correspondant a` un objectif unique afin de pouvoir utiliser un algorithme mono-objectif. Source: Stéphane Doncieux et Jean-Baptiste Mouret.

A` présent que nous avons présentéd'une part la mRF et d'autre part les outils théoriques que nous avons utilisés pour le projet, tout en expliquant leur ràole dans la modélisation de la mRF, nous allons dans le chapitre suivant détailler les expériences de sélection de l'action réalisées et analyser les résultats obtenus.

Chapitre 3

Tâche désincarnée : la tâche

vectorielle abstraite

Dans ce chapitre, nous allons présenter la première expérience pour évaluer notre modèle de la mRF. Dans un premier temps, nous détaillerons l'expérience réalisée, et dans un second temps nous analyserons les résultats.

3.1 Expérience

La tàache d'esincarn'ee correspond a` une tàache abstraite de s'election. Le principe est simple : nous donnons en entr'ee de la mRF un vecteur de dimension 3, toutes les valeurs 'etant comprises entre 0 et 1. Ce vecteur d'entr'ee repr'esente un ensemble de valeurs issues de diverses sources de donn'ees.

L'objectif de la mRF est de s'electionner une action. Pour cela, nous avons d'ecid'e en nous inspirant de [Humphries et al., 2007] que pour que la mRF choississe la bonne action, son vecteur de sortie, 'egalement de dimension 3, doit avoir sa valeur maximum dans la même dimension que celle contenant la valeur maximum du vecteur d'entr'ee. Par exemple, si le vecteur d'entr'ee est (0.3, 0.5, 0.1), la mRF s'electionnera la bonne action si et seulement si son vecteur de sortie est de la forme (a, b, c), o`u b > a et b > c, comme le montre la figure 3.1.

Afin que l''evolution ne sur-apprenne pas un ensemble restreint de vecteurs, ce qui empêcherait une bonne g'en'eralisation, la mRF sera 'evalu'ee sur sa capacit'e a` s'electionner une action sur l'ensemble de vecteurs de dimension 3 o`u nous faisons varier chaque 'el'ement d'un entre 0 et 1 d'un pas de 0.1, et en supprimant les vecteurs ayant plusieurs composantes au maximum, afin d''eliminer les cas ambigus. Voici

contrast(X) = tu u u v

o`u k = arg max

n-1

i

xi.

?
??

(xi - xk

Xn
i=1

?

)2 ? ?

FIGURE 3.1: Ce schéma montre les deux premiers objectifs de la tâche désincarnée : le réseau recoit en entrée un vecteur de dimensions 3 dont les valeurs sont entre 0 et 1, et il doit a` la fois prendre la bonne décision (c'est-à-dire sélectionner la bonne dimension) et maximiser le contraste.

cet ensemble de vecteurs 'ecrit formellement, ensemble qui contient en tout 1155 { 'el'ements : }

X = (x1, x2, x3) | (x1, x2, x3) E S3 A (k = arg max xi, -+ ((i =6 k A i E 1, 3K) -+ x > xi)

i

o`u S = {0.1 x i | i E [0, 10K}

N'eanmoins, ce premier objectif admet des solutions inint'eressantes, comme par exemple un r'eseau de neurones qui copieraient simplement les entr'ees en sortie. Afin d'op'erer une r'eelle s'election de l'action, nous avons d'efini un second objectif forçant la mRF a` maximiser le contraste entre la valeur maximum du vecteur de sortie et ses autres valeurs. La formule g'en'erale pour calculer le contraste est la suivante, en notant xi le ième 'el'ement du vecteur X et n sa dimension :

/((0.6_0.5)2+(0.6_0.3)2)

contrast = 0.22. Plus le contraste est élevé, plus l'action

2

est clairement sélectionnée.

Le troisième et dernier objectif sera de respecter les contraintes anatomiques, pour que l'évolution produise des réseaux se rapprochant le plus possible d'une structure de réseau de type mRF. Le score de cet objectif de plausibilitéanatomiques correspond a` une combinaison linéaire de scores de sous-objectifs, ces derniers représentant chacun une des contraintes anatomique suivante (nous reprenons les notations du chapitre 1.3) :

- p doit être égal a` 80%, la formule du score est scorep = (-1) × (0.8 - p)2 ;

- P(c) doit être égal a` 25%, la formule du score est scorepc = (-1) × (0.25 - pc)2 ; - les synapses des neurones de projection sont a` 45% GABAergic, la formule du score

est scoregabaergic = (-1) × (0.45 - percentgabaergic)2 ;

- les interneurones ne peuvent pas projeter en dehors de leur cluster, nous notons nb interneuron not within chip le nombre d'interneurones ne respectant pas cette contrainte;

- les neurones de projection ne peuvent pas projetter dans leur cluster, nous no-tons nb projection within chip le nombre de projection ne respectant pas cette contrainte.

Nous n'avons pas mis de contraintes sur P(p) et P(l) car les données anatomiques connues a` leur sujet sont assez imprécises. Comme nous l'avons soulignédans le chapitre 2.2, les algorithmes évolutionnistes maximisent les objectifs, d'o`u les scores négatifs puisque se rapprocher des contraintes équivaut a` un score se rapprochant de la valeur 0.

La formule globale pour calculer le score du troisième objectif est :

scoreanat = 8×(scorep+scorepc+scoregabaergic)-1×nb interneuron not within chip- 0.5 × nb projection within chip

Les pondérations 8, 1 et 0.5 ont étéchoisies arbitrairement, le seul critère étant que chacun des scores pondérés ait une valeur très approximativement du même ordre de grandeur, afin de maximiser les chances que l'évolution optimise chacun d'entre eux, et non juste de certains potentiellement aux dépens des autres.

En résumé, voici les trois objectifs que nous avons retenus :

- Objectif 1 : nombre de bonnes décisions. Minimum : 0, maximum : nombre de vecteurs testés;

- Objectif 2 : importance du contraste. Minimum : 0, maximum : 1 (car toutes les valeurs des vecteurs sont comprises entre 0 et 1);

- Objectif 3 : plausibilitéanatomique. Minimum : -8, maximum : 0.

En plus de ces trois objectifs situ'es en aval, nous avons 'egalement pos'e des contraintes anatomiques en amont, c'est-à-dire au coeur de la d'efinition des op'erateurs de mutation, afin de pousser l''evolution a` respecter le plus possible les donn'ees anatomiques. Nous avions d'ejàmentionn'e dans le chapitre 2.2.2 cette double application des contraintes. Voici les contraintes que nous avons mises dans les op'erateurs de mutation :

- impossibilit'e pour un neuron de projection de projeter dans leur cluster;

- impossibilit'e pour un internerneurone de projeter en dehors de leur cluster; - P(c) doit être proche 25%;

- p doit être proche 80%.

Comme nous le voyons, ces contraintes ne contiennent qu'une partie des donn'ees anatomiques connues : l'int'erêt de les ajouter dans les op'erateurs de mutation est que l''evolution g'enère moins d'individus manifestement non plausibles d'un point de vue anatomique. Mettre trop de contraintes dans les op'erateurs des mutations serait n'eanmoins risqu'e car, outre son coit computationnel, restreindre excessivement l'espace de recherche peut rendre plus difficile l'obtention d'une bonne solution.

Nonobstant sa simplicit'e apparente, cette tàache d'esincarn'ee permet de valider ou d'invalider la possibilit'e pour une structure anatomiquement proche de la mRF d'effectuer des s'elections. Nous allons analyser les r'esultats obtenus dans la section suivante.

3.2 Résultats

Tout d'abord, voici les paramètres que nous utiliserons tout au long des exp'eriences, sauf indication contraire :

- taille de la population : 500 individus;

- nombre de g'en'erations : 500;

- nombre de clusters : 4;

- nombre de neurones initial par cluster (en plus des neurones d'entr'ee et de sortie) : tirage al'etoire uniforme entre 3 et 10, les clusters pouvant avoir un nombre de neurones diff'erents au sein de la même mRF;

- probabilit'e d'ajouter/supprimer un neurone/une connexion (inter ou intra-cluster) : 0.05;

- probabilit'e de modifier le poids d'une connexion (inter ou intra-cluster) : 0.1; - nombre d'it'erations pour propager une entr'ee dans le r'eseau : 100.

Les 'evolutions calcul'ees nous donnent des individus pr'esentant au bout de 300 g'en'e-
rations plus de 95% de bonnes d'ecisions, voire dans certains cas 100%, respectant
presque parfaitement les contraintes anatomiques et dont les vecteurs de sortie ont

un contraste supérieur a` 0.6. Le graphique 3.2 montre un front de Pareto 2D obtenu typiquement lorsque l'on représente les scores des objectifs de bonnes décisions et de contaste obtenus par chaque individu. Le graphique 3.3 montre un front de Pareto 3D montrant les scores des 3 objectifs.

1200

Numéro de génération

500

1000

400

800

300

600

200

100

0

400

200

0

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Objectif 1 : contraste

FIGURE 3.2: Front de Pareto de dimension 2 repr'esentant les scores des objectifs de contaste en abscisse et de bonnes d'ecisions en ordonn'ee obtenus par chaque individu de chaque g'en'eration au cours de l''evolution.

Prenons les 5 meilleurs individus présentant 1155 de bonnes décisions et regardons la moyenne de leurs résultats :

- score de nombre de bonnes décisions : 1155 (ce qui correspond au maximum théorique);

- score de contraste : 0.68761 (le maximum théorique est 1);

- score de plausibilitéanatomique : -1.20792e-15 (le maximum théorique est 0).

Le tableau suivant résuméles statistiques anatomiques moyennes de ces 5 individus.

Numéro de génération

0

0

-1

-2

-3

-4

-5

-6

-7

1200

1000

800

0.7

0.8

600

400

200

0.2

0.3

0.4 0.5

0.6

0

0

0.1

500

400

300

200

100

FIGURE 3.3: Front de Pareto de dimension 3 repr'esentant les scores des objectifs de bonnes d'ecisions, de contaste ainsi que de plausibilit'e anatomique obtenus par chaque individu de chaque g'en'eration au cours de l''evolution.

 

Statistiques sur
les 5 meilleurs
individus

Contrainte
dans op'erateurs
de mutation

Contrainte
dans objectif

Données
anatomiques
connues

nombre total
de neurones

57

Aucune

Aucune

NA

nombre total
de connexions

117

Aucune

Aucune

NA

p

80%

80%

80%

80%

percentgabaergic

45%

Aucune

45%

45%

P(c)

25%

25%

25%

25%

P(p)

8.73626%

Aucune

Aucune

< 10%

P(l)

8.61552%

Aucune

Aucune

< 10%

Nombre de
interneurones
projettant en
dehors de leur
cluster

0

0

0

0

Nombre de
neurones de
projection
projettant dans
leur cluster

0

0

0

0

Ce résultat montre qu'en respectant les données anatomiques connues de la mRF, cette dernière peut effectuer une tàache de sélection de l'action. Pour comparaison, [Humphries et al., 2007] dont cette tàache est inspirée obtient environ 75% de bonnes décisions, sans se pencher sur le contraste, et considère que cela suffit pour montrer la possibilitéd'une sélection de l'action.

Nous avons également fait tourner le programme en enlevant les contraintes situées dans les opérateurs de mutation. Comme le montre le graphique 3.4, cela a pour effet d'augmenter le nombre d'individus ayant une faible plausibilitéanatomique, car nous voyons que le front 2D représentant les scores des objectifs de bonnes décisions et de contaste obtenus par chaque individu est beaucoup moins nette que celui obtenu dans l'expérience initiale dont nous venons de présenter les résultats. Cette observation correspond a` l'intuition que nous avions. Néanmoins l'évolution présente toujours des individus, certes plus rares que dans l'expérience initiale, presque parfaitement plausibles anatomiquement, de contraste supérieur a` 0.5 et dont le taux de bonnes décisions est supérieur a` 95%.

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Numéro de génération

1200 400

1000

300

800

200

600

400

200

100

0

Objectif 1 : contraste

FIGURE 3.4: Front de Pareto 2D sans contraintes anatomiques lors des mutations. Le front represente les scores des objectifs de bonnes decisions et de contaste obtenus par chaque individu.

Une autre variante que nous avons essayée est d'enlever les contraintes des opérateurs
des mutations et d'éliminer en plus l'objectif de plausibilitéanatomique. Autrement
dit, nous avons cherchéa` voir comment évoluerait un réseau sans contrainte anato-

mique vis-à-vis de la tàache de sélection.

Les résultats montrent que d'une part les réseaux obtenus ont des performances similaires a` celles obtenues avec les réseaux contraints, voire légèrement meilleures (cf graphique 3.5) si nous considèrons le contraste, et que d'autre part en faisant des analyses statistiques sur la structure de ces réseaux, ils ne tendent pas vers des structures de type mRF. Cela signifie que les données anatomiques connues sur la mRF ne représentent ni un avantage (car il existe d'autres structures de réseau tout aussi performantes) ni un inconvénient pour la sélection.

1000

300

200

0

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Numéro de génération

1200

800

200

600

100

400

Objectif 1 : contraste

FIGURE 3.5: Front de Pareto 2D de l''evolution sans aucune contrainte anatomique (ni dans les mutations, ni dans un objectif). Le front repr'esente les scores des objectifs de contaste en abscisse et de bonnes d'ecisions en ordonn'ee obtenus par chaque individu de chaque g'en'eration au cours de l''evolution.

Cette première série d'expériences basées sur une tàache désincarnée a montréla
capacitécomputationnelle de la mRF a` effectuer une tàache de sélection. Notre modèle

est plus performant que celui de Humphries dans cette tàache et nous y avons ajoutécomme contrainte supplémentaire le contraste. Nous allons a` présent effectuer une

seconde série d'expériences pour analyser les performances de la mRF sur une tàache incarnée de simulation robotique.

Chapitre 4

Tâche incarnee : la tâche de

survie minimale

A` l'instar du chapitre pr'ec'edent, nous allons dans ce chapitre tout d'abord pr'esenter
l'exp'erience dans un premier temps, et dans un second nous analyserons les r'esultats.

4.1 Experience

La tàache de survie minimale que nous utiliserons ici est fortement inspirée de [Girard et al., 2003]. Il s'agit pour un robot de sélectionner efficacement ses comportements afin d'assurer sa survie, en maintenant ses variables d'état interne dans des intervalles tolérables, sa zone de viabilité[Ashby, 1952]. Cette survie dépend directement de la capacitédu robot a` se ravitailler auprès de deux types de ressources différents, en un temps limitépar son niveau de recharge. L'utilisation de deux ressources différentes force le robot a` se déplacer dans l'environnement pour accéder a` l'une puis a` l'autre et le met en situation de conflit pour déterminer quelle ressource est prioritaire a` un instant donné, susceptible de générer des oscillations comportementales. Cette tàache sera simulée sur ordinateur.

Le robot sera placédans un environnement o`u il pourra trouver deux types de ressources : des zones d'ingestion qui lui permettront de faire des réserves et des zones de digestion o`u il pourra assimiler ses réserves et les transformer en énergie utilisable. Sachant que tous les comportements du robot consomment de l'énergie, il va donc devoir alterner phases d'ingestion et de digestion pour survivre.

L'environnement expérimental est une surface plane de 400x400 unités entourée de
murs. Elle est recouverte de 25 carreaux de 80x80 unités, de trois types différents : 21

carreaux gris (zones neutres), 2 carreaux noirs (zones d'ingestion), dont les ressources sont inépuisables, et 2 carreaux blancs (zones de digestion). La figure 4.1 montre l'environnement.

FIGURE 4.1: Environnement de la tâche de survie minimale. Nous y voyons 21 carreaux gris, 2 carreaux noirs et 2 carreaux blancs, tous les carreaux étant de la même taille. Le cercle jaune représente le robot.

Le robot est un disque de rayon 20 unités et possède 2 variables internes :

- l'Energie Potentielle (EP) correspond aux réserves puisées sur les zones d'ingestion, entre 0 et 1;

- l'Energie (E) est l'énergie réellement utilisable pour survivre dans l'environnement, elle est obtenue par digestion de l'EP sur les zones claires. Pour survivre, le robot doit maintenir E au dessus de 0 et le maximum de E est 1.

Le robot a accès a` 4 capteurs externes :

- un pare-choc gauche (BL pour left bumper), valeur binaire, a` 1 si contacts avec le mur, a` 0 sinon;

- un pare-choc droit (BR pour left bumper), valeur binaire, a` 1 si contacts avec le mur, a` 0 sinon;

- un capteur de carreau noir (LD pour light darkness), valeur binaire, a` 1 si sur un carreau noir, a` 0 sinon;

- un capteur de carreau blanc (LB pour light brightness), valeur binaire, a` 1 si sur un carreau blanc, a` 0 sinon.

Le robot a 5 actions a` sa disposition :

- Explorer aléatoirement (wander) : le robot se déplace aléatoirement (rotation aléatoire entre 0 et 9° suivie d'un déplacement vers l'avant de 5 unités). A` noter qu'en l'absence de capacités de navigation et de mémoire sur l'environnement, seul ce comportement permet de trouver des zones de recharges (carreaux blancs ou noirs). Cette action dure 2 unités de temps.

- 'Eviter un obstacle (avoid) : le robot effectue une marche arrière de 60 unités suivie d'une rotation de 180°. Cette action dure 2 unités de temps.

- Recharger sur zone noire (reload on dark) : le robot s'arrête et recharge son EP : äEP = 0.027 × LD. Nous remarquons que le robot ne recharge réellement son EP que s'il se trouve sur une zone noire. Cette action dure 1 unitéde temps.

- Recharger sur zone blanche (reload on light) : le robot s'arrête et recharge son E : äE = 0.027 × LB et äEP = -0.027 × LB. Nous remarquons que le robot ne recharge réellement son E que s'il se trouve sur une zone blanche. Cette action dure 1 unitéde temps.

- Se reposer (rest) : le robot ne fait rien. Cette action dure 1 unitéde temps.

A` chaque unitéde temps, le robot consomme 0.002 de son énergie, même lorsqu'il choisit de se reposer. Si l'énergie devient négative ou nulle, alors le robot meurt.

Afin de choisir une action, la mRF reçoit en entrée la salience de chacune des actions
calculée a` partir des variables internes et externes. La salience correspond au degréd'urgence ou de motivation a` effectuer une action. Les formules utilisées ici pour le

calcul des saliences sont les mêmes que dans l'évaluation du modèle de la mRF par [Humphries et al., 2005] ainsi que dans l'évaluation d'un modèle des ganglions de la base par [Girard et al., 2003].

- Swander = -BL - BR + 0.8(1 - PE) + 0.9(1 - E)

- Savoid = 3BL + 3BR

- Sreload on dark = -2LB - BL - BR + 3LD(1 - PE)/

- Sreload on light = -2LD - BL - BR + 3LB(1 - E) 1 - (1 - PE)2

Si la mRF ne réussit pas a` converger avec les saliences données en entrée, alors l'action de repos est sélectionnée. Dans notre expérience, un nouveau vecteur de salience est propagépendant 100 itérations (1 itération durant 1ms) dans la mRF et nous considérons qu'il y a convergence dès lors que sur les 50 dernières itérations la variation de chacune des valeurs du vecteur de sortie de la mRF est inférieure a` 0.001. Lorsque la mRF converge, alors nous considérons que l'action sélectionnée correspond a` la sortie la plus élevée de la mRF. Nous testerons également une variante o`u l'action sélectionnée est modulée en fonction du contraste du vecteur de sortie de la mRF.

4.2 Résultats

Pour 'evaluer chaque contrôleur du robot, nous avons simul'e 5 tàaches de survie mini-male dans la fonction fitness, en plaçant a` chaque fois le robot a` un endroit al'eatoire sur la carte et initialis'e avec comme valeurs 0.5 en 'energie et 1 en 'energie potentielle. Comme a` chaque unit'e de temps le robot consomme 0.002 de son 'energie, sa dur'ee de vie minimale est de 500 unit'es de temps. Afin que l''evaluation prenne un temps raisonnable de calcul, nous avons limit'e les simulations a` 3000 unit'es de temps chacune.

Tout d'abord, afin de v'erifier une suffisante complexit'e de la tàache, nous avons 'evalu'e un contrôleur al'eatoire, qui d'ecidait au hasard une action parmi les cinq possibles. Les r'esultats de ce contrôleur montre une survie moyenne entre 500 et 600 unit'es de temps, ce qui confirme que la tàache ne peut être r'esolue par un contrôleur al'eatoire et fournit une base de comparaison.

Une seconde v'erification pr'ealable que nous avons effectu'ee fut de tester un contrôleur de type Winner-Takes-All (WTA), ce dernier choisissant l'action en se basant sur la plus forte salience. Nos premiers r'esultats ont montr'e que ces contrôleurs avaient une dur'ee de vie approchant souvent les 3000 unit'es de temps, ce qui signifiait que la tàache 'etait trop simple pour 'evaluer notre modèle de la mRF correctement. Nous avons subs'equemment essay'e de trouver un facteur complexifiant la tàache et nous avons trouv'e que la vitesse de d'eplacement du robot, non sp'ecifi'ee dans [Humphries et al., 2005], influe grandement sur les r'esultats. Initialement, dans notre exp'erience, lorsque le contrôleur du robot choisit l'action a` explorer al'eatoirement, il se d'eplace en avant de 10 unit'es après avoir effectu'e une rotation al'eatoire. Lorsque nous diminuons la vitessse d'eplacement a` 5 unit'es, la tàache devient plus difficile et un contrôleur WTA n'a plus qu'une dur'ee de vie moyenne d'environ 1250 unit'es de temps, ce qui est loin de la dur'ee de vie maximum (3000 unit'es de temps). Par cons'equent, la tàache semble non triviale a` r'ealiser. La figure 4.2 compare les temps de survie des contrôleurs al'eatoire et WTA sur 1000 tàaches de survie.

Les r'esultats du contrôleur mRF montrent qu'en quelques g'en'erations seulement le robot r'eussit a` vivre plus de 2500 unit'es de temps, voire le maximum 3000. N'eanmoins, il faut plusieurs centaines de g'en'erations pour que le contraste devienne important. La figure 4.3 pr'esente l''evolution du front de Pareto 2D d'un contrôleur mRF au bout de 500 g'en'erations : le temps de survie est proche ou 'egal a` la valeur maximum, le contraste est d'environ la moiti'e du maximum th'eorique pour les meilleurs individus. Les scores de l'objectif de plausibilit'e anatomique montrent que la mRF respecte presque exactement les donn'ees connues sur la mRF. Concernant le temps pass'e sur chacune des actions en moyenne pendant une tàache de survie, la figure 4.5 montre qu'il n'y a pas de diff'erence notable entre les diff'erents contrôleurs, a` l'exception

FIGURE 4.2: Comparaison des temps de survie des contrôleurs aléatoire et WTA sur 1000 tâches de survie.

triviale du contrôleur aléatoire.

Nous avons essayéde forcer la mRF a` avoir un contraste élevéen modulant les actions en fonction du contraste. A` cet effet, nous avons redéfini chacune des 5 actions en incluant la valeur du contraste, f étant la fonction de modulation du contraste :

- Explorer aléatoirement (wander) : le robot se déplace aléatoirement (rotation

aléatoire entre 0 et f(contrast)x9° d'un déplacement vers l'avant de f(contrast)x

5 unités).

- 'Eviter un obstacle (avoid) : le robot effectue une marche arrière de f(contrast)x 60 unités suivie d'une rotation de f(contrast) x 180°. Cette action dure 2 unités de temps.

- Recharger sur zone noire (reload on dark) : äEP = f(contrast) x 0.027 x LD. - Recharger sur zone blanche (reload on light) : äE = f(contrast) x 0.027 x LB et äEP = -f(contrast) x 0.027 x LB.

- Se reposer (rest) : le robot ne fait rien.

En prenant comme fonction de modulation f(x) = /x et en évaluant toujours chaque réseau sur 5 tàaches de survie, les réseaux mRF obtenus présentent des durées de survie similaires voire un peu inférieure aux contrôleurs WTA. Cependant, le contraste est un peu meilleur que lorsque nous introduisons une fonction de modulation, comme le

0.2

0

Numéro de génération

1

500

0.8

400

0.6

300

0.4

500 1000 1500 2000 2500 3000 3500

200

100

0

Objectif 1 : durée de survie

FIGURE 4.3: Front de Pareto 2D de l''evolution d'un contrôleur mRF repr'esentant les scores des objectifs de dur'ee de survie (abscisse) et de contaste (ordonn'ee) obtenus par chaque individu de chaque g'en'eration au cours de l''evolution. Le contrôleur mRF a 'et'e 'evalu'e sur 5 tâches de survie.

montre la figure 4.6. Par conséquent, la fonction de modulation introduit une pression de sélection favorisant le contraste aux dépens de la durée de survie. L'objectif de plausibilitéanatomique a toujours un score entre -1 et 0, ce qui signifie que les réseaux ont bien une structure de type mRF.

Autre variante de l'expérience initiale, nous avons essayéde rendre la tàache plus
réaliste en supprimant le calcul des saliences et donnant directement en entrée des
réseaux les 4 variables externes (BL, BR, LD et LB) ainsi que les 2 variables internes

(E et EP), ce qui a pour effet de complexifier la tàache. Nous avons également donnéen entrée 1-- E et 1-- EP afin d'éviter que la tàache soit trop complexe, en reprenant

ainsi la configuration de l'expérience de [Humphries and Prescott, 2006]. Les réseaux ont donc dans cette variante 8 entrées et 4 sorties.

Le graphique 4.7 montre les fronts de Pareto obtenus au bout de 1000 générations : nous voyons que certains réseaux ont une durée de vie dépassant 2000 unités de temps, néanmoins le contraste est très faible (inférieur a` 0.1). Par comparaison avec les résultats obtenus avec le modèle de Humphries [Humphries and Prescott, 2006], ce dernier indique que la plupart des réseaux obtenus par évolution réussissent a` faire a` peine mieux qu'un contrôleur aléatoire, mais les actions sont modulées en fonction du contraste a` l'instar de ce que nous avons fait dans l'expérience précédente. Ici,

FIGURE 4.4: Comparaison des meilleures moyennes de temps de survie sur 5 tâches obtenues par des contrôleurs aléatoire, WTA et mRF. Pour chaque type de contrôleur, nous avons effectué20 000 évaluations, chacune d'entre elles consistant a` faire 5 tâches de survie et calculer la moyenne de la durée de survie. Nous n'avons gardéici que la meilleure moyenne trouvée pour chaque type de contrôleur.

FIGURE 4.5: Comparaison du temps passésur chacune des actions par les contrôleurs aléatoire, WTA et mRF. Ces statistiques agrègent les données 500 tâches de survie pour chacun des contrôleurs ayant les durées de survie les plus élevées parmis 50 000 tâches de survie simulées.

nos réseaux réussissent clairement mieux qu'un contrôleur aléatoire, cependant les actions ne sont pas modulées.

Ces résultat montrent que la mRF est globalement plus efficace qu'un simple réseau WTA et encore plus qu'un contrôleur aléatoire, comme le résume la figure 4.4, contrairement aux expériences de [Humphries et al., 2005] qui n'avaient pas réussi a` évoluer la mRF de façon suffisamment optimale pour dépasser le WTA. Cela signifie que la mRF est non seulement apte a` faire de la sélection de l'action, mais que celleci peut faire face a` des situations complexes o`u un réseau WTA ne suffirait pas.

Numéro de génération

500

400

300

200

100

0

400 600 800 1000 1200 1400 1600 1800 2000 2200

1

0.8

0.6

0.4

0.2

0

Objectif 1 : durée de survie

FIGURE 4.6: Front de Pareto 2D de l''evolution d'un contrôleur mRF repr'esentant les scores des objectifs de dur'ee de survie (abscisse) et de contaste (ordonn'ee) obtenus par chaque individu de chaque g'en'eration au cours de l''evolution, avec modulation des actions en fonction du contraste. La fonction de modulation est f(x) = /x et le contrôleur mRF a 'et'e 'evalu'e sur 5 tâches de survie.

Néanmoins, dans les variantes o`u nous essayons de rendre la tàache de survie plus réaliste, en modulant les actions en fonction du contraste des vecteurs de sortie de la mRF ou en donnant a` cette dernière directement les variables internes et externes sans calcul préalable de saliences, les résultats que nous avons obtenus sont moins probants : il faudrait approfondir davantage ces variantes. Autre point a` creuser, il serait intéressant de quantifier la propension de nos réseaux mRF a` généraliser leurs performances en les évaluant sur un nombre plus important de tàaches de survie.

Numéro de génération

1000

1

0.8

0.6

0.4

0.2

0

800

600

400

200

0

500 1000 1500 2000 2500 3000

Objectif 1 : durée de survie

FIGURE 4.7: Front de Pareto 2D de l''evolution d'un contrôleur mRF repr'esentant les scores des objectifs de dur'ee de survie (abscisse) et de contaste (ordonn'ee) obtenus par chaque individu de chaque g'en'eration au cours de l''evolution. Le r'eseau recoit directement en entr'ee toutes les variables externes et internes, et le contrôleur mRF a 'et'e 'evalu'e sur 5 tâches de survie.

Chapitre 5

Discussions et perspectives

La nature de ce travail de modélisation de la mRF était avant tout exploratoire. Seuls deux modèles existaient et le nombre d'articles portant sur cette zone du cerveau est assez faible. Nous avons donc forcément dàu faire un certain nombre de choix et focaliser nos recherches sur certains points qui nous semblaient les plus essentiels pour initier un tel travail de modélisation. Cependant de nombreux axes d'études restent a` être explorés, nous allons les évoquer brièvement dans ce chapitre.

Pour commencer, nous n'avons pas approfondi les paramètres P(p) et P(l) du r'eseau : nous avons vu dans la première partie de ce rapport que la litt'erature laissait supposer que ces valeurs sont inf'erieures a` 0.1. Au cours de nos exp'eriences, nous n'avons mis ni P(p) ni P(l) dans les contraintes anatomiques, n'eanmoins les structures des meilleurs individus que nous avons obtenus montrent qu'en moyenne les valeurs de P(p) et P(l) tournent toutes les deux autour de 0.09. Cela est en coh'erence avec les donn'ees anatomiques connues de la mRF, cependant nous avons d'emontr'e a` partir des donn'ees anatomiques connues que P(l) > 45 × P(p), relation que nous ne retrouvons pas dans nos r'esultats. Par cons'equent, il serait int'eressant de rajouter cette contrainte afin de voir les performances des mRF ainsi 'evolu'ees.

Nous avons 'egalement laiss'e de côt'e l'analyse et l'impact du modèle de population de neurones choisi, le lPDS, que nous avons d'ecrit dans le chapitre 2.1 : en premier lieu, nous pourrions rendre libres les paramètres que nous avons fix'es (ô a` 5ms et threshold a` 0). En second lieu, il existe d'autres modèles de population de neurones dont nous pourrions comparer l'efficacit'e dans notre modèle de la mRF par rapport aux lPDS. Enfin, les r'eseaux que nous avons fait 'evoluer sont de taille assez importante pour une mod'elisation, d'autant plus que nous les faisons 'evoluer par algorithmes 'evolutionnistes, avec lesquels il est pr'ef'erable de manipuler des r'eseaux de

faible taille pour des raisons de vitesse de calcul ainsi que d'aisance d'interpr'etation : par cons'equent, il serait int'eressant de quantifier l'impact du nombre maximum de neurones que peut contenir un cluster.

Concernant la tàache incarn'ee, nous avons compar'e indirectement nos r'esultats avec ceux de Humphries via la comparaison avec les performances de contrôleurs WTA et al'eatoires. Il serait int'eressant de comparer directement nos r'esultats avec ceux de Humphries en impl'ementant le modèle de ce dernier dans notre programme.

En outre, la tàache incarn'ee comporte un certain niveau d'abstraction : une 'evaluation encore plus pouss'ee de la mRF serait par exemple de l'incorporer en tant que contrôleur d'une activit'e de m'etabolisme connue d'un animal, tels les comportements alimentaires et dipsiques de la souris [Guillot, 1988], et comparer les s'elections op'er'ees par la mRF avec le comportement r'eel de l'animal.

Autre voie d'exploration, il serait int'eressant d'analyser les r'eseaux de neurones obtenus suite a` l''evolution afin d'une part de mieux comprendre comment ils r'eussissent a` r'esoudre une tàache de s'election, et d'autre part d'essayer d'extraire les similarit'es entre les r'eseaux obtenus. Dans ce même esprit, nous pourrions 'etudier les propri'et'es de ces r'eseaux, comme par exemple la pr'esence de structures de type small-world, scale-free ou autre.

Du côt'e neuro-'evolution, nous avons fait un usage intensif des algorithmes 'evolutionnistes sans 'evaluer l'utilit'e de ces derniers ainsi que leur impact sur les r'eseaux obtenus après 'evolution. Parmi les diff'erents aspects qu'il serait utile d'approfondir, essayer d'introduire de nouveaux objectifs pourrait donner des r'esultats int'eressants, en particulier :

1. un objectif de generalisation, permettant de s'assurer que les d'ecisions prises par la mRF dans le cadre des tàaches originales peuvent se g'en'eraliser a` d'autres tàaches semblables. Plus pr'ecis'ement, dans la tàache d'esincarn'ee, cela consisterait a` s'assurer que si nous donnons en entr'ee de la mRF un vecteur non pr'esent dans l'ensemble de vecteurs d'entr'ee que nous avons utilis'e, par exemple (0.3, 0.5, 0.68), la mRF donne 'egalement la bonne sortie (0, 0, 1). Dans la tàache d'esincarn'ee, la g'en'eralisation pourrait se traduire par 'evaluer la mRF dans des cartes dont la disposition est diff'erente que celle que nous avons utilis'ee [Pinville et al., 2011].

2. un objectif de diversite, gràace auquel l''evolution v'erifierait si au sein de chaque population les individus (i.e. les mRF) ne sont pas tous semblables. Cet objectif permettrait de faire face au genetic drift (convergence vers un optimum local) souvent constat'e, a` l'instar de la s'election naturelle qui a vu se former des sous-groupes gràace aux contraintes g'eographiques. On

peut ainsi trouver autant d'optima locaux que de sous-groupes, permettant ainsi d'obtenir de meilleurs r'esultats en se rapprochant ainsi de l'optimum global [Mouret and Doncieux, 2009a, Mouret and Doncieux, 2009b, Doncieux and Mouret, 2009].

Une autre technique que nous pourrions utiliser pour essayer d'am'eliorer les r'esultats obtenus par algorithmes 'evolutionnistes serait d'effectuer l''evolution en plusieurs 'etapes. En effet, lorsque nous essayons de faire r'ealiser au r'eseau une tàache difficile, l'espace de recherche 'etant très important l''evolution peut rencontrer des difficult'es a` franchir certains seuils. Par exemple, nous avons vu que la variante de la tàache incarn'ee o`u nous nous donnions a` la mRF directement les variables internes et externes sans calculer de salience donnait des r'eseaux dont le contraste des vecteurs de sortie 'etait très faible, même après plus de 1000 g'en'erations. Une possibilit'e pour aider l''evolution a` optimiser davantage le contraste aurait pu être dans un premier temps de faire apprendre le calcul des saliences au r'eseau, et dans un second temps r'esoudre la tàache de survie. 'Etant donn'e que nous avons montr'e dans la tàache d'esincarn'ee que des r'eseaux de type mRF pouvaient agir comme un WTA, et qu'un contrôleur WTA peut effectuer la tàache de survie a` partir du calcul des saliences de façon moyennement efficace (environ 1500 unit'es de temps de survie sur un maximum de 3000) mais avec un contraste maximum, il est possible que cette introduction d'un objectif temporaire (apprentissage le calcul des saliences) dans l''evolution permette de franchir plus facilement des seuils dans l'optimisation des objectifs de dur'ee de vie et de contraste.

Du côt'e neurophysiologique, la litt'erature donne un certain nombre de pistes pour 'elaborer des modèles plus fins de la mRF, en particulier pour mieux prendre en compte la diversit'e des noyaux et des neurones, diviser la mRF selon ses 3 r'egions (m'esenc'ephalique, pontique, bulbaire) et consid'erer davantage les fonctions de la mRF. Pour cela, les diff'erentes 'etudes de l'activit'e neurophysiologique de la formation r'eticul'ee (RF) repr'esentent une source d'inspiration utile, en particulier la s'erie d''etudes physiologiques sur la RF r'ealis'ees par JM. Siegel dans les ann'ees 1970 et 1980. Ainsi,

- [Siegel and McGinty, 1977] a trouv'e que les neurones de la formation r'eticul'ee pontine (PRF) avaient un taux d'activit'e important en phase de forte activit'e oculaire constat'ee par 'electro-oculographie, ce qui est coh'erent avec les 'etudes ant'erieures. Les auteurs montrent 'egalement l'existence d'un lien entre les d'echarges des neurones de la PRF et l'activit'e motrice. Les donn'ees trouv'ees suggère un rôle majeur des neurones de la PRF dans la r'egulation des activit'es motrices. L''etude donne 'egalement une indication très int'eressante concernant les projections 'emanant de la PRF : «The PRF's medial zone [...] is the principal source of pontine reticular projections to the spinal cord; more than half of its neurons send their axons

directly into the ventral, motor areas of the cord.».

- [Siegel, 1979] montre l'existence chez les chats de trois classes de cellules dans la RF bulbaire (medullary reticular formation cells), classification basée sur la corrélation entre leur décharge et le type de mouvements effectués : une classe décharge lorsque le mouvement est latéralement asymétrique (54% des cellules), l'autre décharge lorsque le mouvement est latéralement symétrique (38% des cellules). Les 8% de cellules restantes correspondent a` la troisième classe et ne sont pas liés a` un comportement moteur. Il n'existe pas de corrélation entre la RF bulbaire et le mouvement oculaire, contrairement a` la RF pontine.

- [Siegel et al., 1979] signale la présence chez les chats d'une corrélation entre les décharges des neurones de la mRF au niveau moelle allongée (appelée medial medullary reticular formation, en français mRF bulbaire) et de certaines activités motrices durant les phases d'activitéainsi que pendant le sommeil paradoxal (REM sleep). L'étude remarque que les 3 types de cellules précédemment évoquées peuvent également être retrouvés dans le pont de Varole. Elle donne également une estimation de leurs proportions ainsi que leur localisation.

A` plus long terme, un de nos objectifs est de connecter notre modèle de la mRF avec les modèles de ganglions de la base existants, connexion qui soulèvera a` son tour un nombre important de problématiques : comment interagissent les réseaux, quel est le role précis de chacun, etc. Pour anecdote historique, l'article original présentant le premier modèle de la mRF s'achevait sur un dernier chapitre de considérations cybernétiques évoquant précisément ce genre de connexions entre zones du cerveau et en imaginant leurs équivalents dans un controleur robotique [Kilmer et al., 1969].

Chapitre 6

Conclusion

L'objectif de cette 'etude 'etait de proposer un nouveau modèle de la mRF plus proche des donn'ees anatomiques que les deux modèles pr'ec'edents existants dans la litt'erature et d''evaluer sa capacit'e a` faire de la s'election de l'action. Notre d'emarche bas'ee sur les algorithmes 'evolutionnistes nous a permis de montrer qu'un r'eseau pr'esentant une structure de type mRF peut être capable d'une part de prendre les d'ecisions attendues et d'autre part de les s'electionner de façon franche :

- la première s'erie d'exp'eriences bas'ees sur une tàache d'esincarn'ee a montr'e la capa-

cit'e computationnelle de la mRF a` effectuer une tàache de s'election (chapitre 3);
- la seconde s'erie d'exp'eriences bas'ees sur une tàache incarn'ee montre que la mRF

est capable d'effectuer une tàache de s'election de l'action en condition simul'ee

(chapitre 4).

Les r'esultats que nous avons obtenus sont meilleurs que ceux du modèle de Humphries dans les deux tàaches que nous avons analys'ees : affiner le modèle en y ajoutant davantage de neurones et supprimer l'hypothèse du modèle de Kilmer-McCulloch reprise par modèle de Humphries qu'àchaque cluster correspond une action nous a ainsi permis d'am'eliorer les performances en termes de s'election tout en respectant davantage les donn'ees anatomiques connues sur la mRF.

N'eanmoins, la structure de type mRF ne semble pas repr'esenter un avantage particulier par rapport a` un r'eseau de neurones sans contrainte. Ainsi, pour r'epondre a` la question originale, la mRF peut constituer un substrat pour la s'election de l'action, mais il ne semble pas que sa structure repr'esente un atout en particulier.

En outre, la d'emonstration de P(l) > 45 × P(p) dans le chapitre 1.4 nous permet
avec une certitude accrue d'affirmer que la mRF a une structure de r'eseau de type

small-world, résultat pouvant s'avérer très utile dans les analyses futures.

'Etant donnéla nature exploratoire de ce travail de modélisation de la mRF, beaucoup d'axes de recherche que nous avons évoqués dans la discussion restent toutefois a` être explorés pour affiner le modèle et approfondir les résultats. Cependant, les résultats de ce travail sont encourageants et outre leurs implications sur les capacités computationnelles de la mRF ils montrent l'apport potentiel des algorithmes évolutionnistes aux neurosciences computationnelles.

Bibliographie

[Albert and Barabási, 2002] Albert, R. and Barabási, A. (2002). Statistical mechanics of complex networks. Reviews of modern physics, 74(1) :47-97. [cited at p. 8]

[Ashby, 1952] Ashby, W. (1952). Design for a brain. [cited at p. 31]

[Berntson and Micco, 1976] Berntson, G. and Micco, D. (1976). Organization of brainstem behavioral systems. Brain Research Bulletin, 1(5) :471-483. [cited at p. 6]

[Berridge, 1989] Berridge, K. (1989). Progressive degradation of serial grooming chains by descending decerebration. Behavioural brain research, 33(3) :241-253. [cited at p. 6]

[Birkmayer and Pilleri, 1966] Birkmayer, W. and Pilleri, G. (1966). The brainstem reticular formation and its significance for autonomic and affective behavior. [cited at p. 6]

[Bowsher, 1970] Bowsher, D. (1970). Place and modality analysis in caudal reticular formation. The Journal of Physiology, 209(2) :473-486. [cited at p. 5]

[Deb, 2001] Deb, K. (2001). Multi-objective optimization using evolutionary algorithms.

Wiley. [cited at p. 20]

[Deb et al., 2002] Deb, K., Pratap, A., Agarwal, S., and Meyarivan, T. (2002). A fast and elitist multiobjective genetic algorithm : Nsga-ii. Evolutionary Computation, IEEE Transactions on, 6(2) :182-197. [cited at p. 20]

[Doncieux and Mouret, 2009] Doncieux, S. and Mouret, J. (2009). Single step evolution of robot controllers for sequential tasks. In Proceedings of the 11th Annual conference on Genetic and evolutionary computation, pages 1771-1772. ACM. [cited at p. 42]

[Doncieux et al., 2004] Doncieux, S., Mouret, J., Muratet, L., and Meyer, J. (2004). The robur project : towards an autonomous flapping-wing animat. Proceedings of the Journées MicroDrones. [cited at p. 19]

[Eccles et al., 1976] Eccles, J., Nicoll, R., Rantucci, T., Taborikova, H., and Willey, T. (1976). Topographic studies on medial reticular nucleus. Journal of Neurophysiology, 39(1) :109-118. [cited at p. 5]

[Girard et al., 2003] Girard, B., Cuzin, V., Guillot, A., Gurney, K., and Prescott, T. (2003). A basal ganglia inspired model of action selection evaluated in a robotic survival task. Journal of integrative neuroscience, 2 :179-200. [cited at p. 1, 12, 14, 31, 33]

[Girard et al., 2008] Girard, B., Tabareau, N., Pham, Q., Berthoz, A., and Slotine, J. (2008). Where neuroscience and dynamic system theory meet autonomous robotics : a contracting basal ganglia model for action selection. Neural Networks, 21(4) :628-641. [cited at p. 15]

[Glickman and Schiff, 1967] Glickman, S. and Schiff, B. (1967). A biological theory of reinforcement. Psychological Review, 74(2) :81-109. [cited at p. 6]

[Grantyn et al., 1987] Grantyn, A., Ong-Meang Jacques, V., and Berthoz, A. (1987). Reticulo-spinal neurons participating in the control of synergic eye and head movements during orienting in the cat. Experimental Brain Research, 66(2) :355-377. [cited at p. 8]

[Guillot, 1988] Guillot, A. (1988). Contribution a` l'etude des sequences comportementales de la souris : approches causale, descriptive et fonctionnelle. Diplôme de Doctorat de lUniversitéParis 7, SpécialitéBiomathématiques. [cited at p. 41]

[Hammer Jr et al., 1981] Hammer Jr, R., Lindsay, R., and Scheibel, A. (1981). Development of the brain stem reticular core : an assessment of dendritic state and configurationin the perinatal rat. Developmental Brain Research, 1(2) :179-190. [cited at p. 7]

[Humphries et al., 2005] Humphries, M., Gurney, K., and Prescott, T. (2005). Is there an integrative center in the vertebrate brain-stem? a robotic evaluation of a model of the reticular formation viewed as an action selection device. Adaptive Behavior, 13(2) :97-

113. [cited at p. 1, 4, 12, 33, 34, 37]

[Humphries et al., 2006] Humphries, M., Gurney, K., and Prescott, T. (2006). The brainstem reticular formation is a small-world, not scale-free, network. Proceedings of the Royal Society B : Biological Sciences, 273(1585) :503-511. [cited at p. 1, 4, 7, 8, 10, 11]

[Humphries et al., 2007] Humphries, M., Gurney, K., and Prescott, T. (2007). Is there a brainstem substrate for action selection? Philosophical Transactions of the Royal Society B : Biological Sciences, 362(1485) :1627-1639. [cited at p. 5, 6, 7, 8, 23, 29]

[Humphries and Prescott, 2006] Humphries, M. and Prescott, T. (2006). Distributed action selection by a brainstem neural substrate : An embodied evaluation. From Animals to Animats 9, pages 199-210. [cited at p. 7, 13, 36]

[Jones, 1995] Jones, B. (1995). Reticular formation: cytoarchitecture, transmitters, and projections. The rat nervous system, pages 155-171. [cited at p. 5]

[Jouvet, 1967] Jouvet, M. (1967). Neurophysiology of the states of sleep. Physiological Reviews, 47(2) :117-177. [cited at p. 6, 10]

[Kilmer et al., 1969] Kilmer, W., McCulloch, W., and Blum, J. (1969). A model of the vertebrate central command system. International Journal of Man-Machine Studies, 1(3) :279-

309. [cited at p. 1, 7, 8, 10, 43]

[Langhorst et al., 1983] Langhorst, P., Schulz, B., Schulz, G., Lambertz, M., and Krienke, B. (1983). Reticular formation of the lower brainstem. a common system for cardiorespiratory and somatomotor functions : discharge patterns of neighboring neuronsinfluenced by cardiovascular and respiratory afferents. Journal of the autonomic nervous system, 9(2- 3) :411-432. [cited at p. 5]

[Lovick, 1972] Lovick, T. (1972). The behavioural repertoire of precollicular decerebrate rats. The Journal of physiology, 226(2) :4P-6P. [cited at p. 6]

[Magoun and Rhines, 1946] Magoun, H. and Rhines, R. (1946). An inhibitory mechanismin
the bulbar reticular formation. Journal of neurophysiology, 9(3) :165-171. [cited at p. 6]

[Mouret and Doncieux, 2009a] Mouret, J. and Doncieux, S. (2009a). Overcoming the bootstrap problem in evolutionary robotics using behavioral diversity. In Evolutionary Computation, 2009. CEC'09. IEEE Congress on, pages 1161-1168. IEEE. [cited at p. 42]

[Mouret and Doncieux, 2009b] Mouret, J. and Doncieux, S. (2009b). Using behavioral exploration objectives to solve deceptive problemsin neuro-evolution. In Proceedings of the 11th Annual conference on Genetic and evolutionary computation, pages 627-634. ACM.

[cited at p. 42]

[Mouret and Doncieux, 2010] Mouret, J. and Doncieux, S. (2010). Sferesv2 : Evolving in the multi-core world. In Evolutionary Computation (CEC), 2010 IEEE Congress on, pages 1-8. IEEE. [cited at p. 52]

[Parvizi and Damasio, 2003] Parvizi, J. and Damasio, A. (2003). Neuroanatomical correlates of brainstem coma. Brain, 126(7) :1524-1536. [cited at p. 6]

[Pinville et al., 2011] Pinville, T., Koos, S., Mouret, J., and Doncieux, S. (2011). How to promote generalisation in evolutionary robotics: the progab approach. [cited at p. 41]

[Prescott et al., 1999] Prescott, T., Redgrave, P., and Gurney, K. (1999). Layered control
architectures in robots and vertebrates. Adaptive Behavior, 7(1) :99-127. [cited at p. 7]

[Ramón-Moliner and Nauta, 1966] Ramón-Moliner, E. and Nauta, W. (1966). The isodendritic core of the brain stem. The Journal of Comparative Neurology, 126(3) :311-335.

[cited at p. 5]

[Redgrave et al., 1999] Redgrave, P., Prescott, T., and Gurney, K. (1999). The basal ganglia: a vertebrate solution to the selection problem? Neuroscience, 89 :1009-1024. [cited at p. 7]

[Scheibel and Scheibel, 1967] Scheibel, M. and Scheibel, A. (1967). Anatomical basis of attention mechanisms in vertebrate brains. The neurosciences : A study program, pages

577-602. [cited at p. 7, 8]

[Schuz, 1998] Schuz, A. (1998). Neuroanatomy in a computational perspective. In The
handbook of brain theory and neural networks, pages 622-626. MIT Press. [cited at p. 8]

[Segundo et al., 1967] Segundo, J., Takenaka, T., and Encabo, H. (1967). Somatic sensory properties of bulbar reticular neurons. Journal of neurophysiology, 30(5) :1221-1238.

[cited at p. 5]

[Siegel, 1979] Siegel, J. (1979). Behavioral relations of medullary reticular formation cells. Experimental Neurology, 65(3) :691-698. [cited at p. 43]

[Siegel and McGinty, 1977] Siegel, J. and McGinty, D. (1977). Pontine reticular formation neurons : relationship of discharge to motor activity. Science, 196(4290) :678. [cited at p. 42]

[Siegel et al., 1979] Siegel, J., Wheeler, R., and McGinty, D. (1979). Activity of medullary reticular formation neurons in the unrestrained cat during waking and sleep. Brain Research, 179(1) :49-60. [cited at p. 43]

[Torvik and Brodal, 1957] Torvik, A. and Brodal, A. (1957). The origin of reticulospinal fibers in the cat. an experimental study. The Anatomical Record, 128(1) :113-137.

[cited at p. 5]

[Woods, 1964] Woods, J. (1964). Behavior of chronic decerebrate rats. Journal of Neurophysiology. [cited at p. 6]

Appendices

Notes techniques sur

l'implémentation

Nous tenons a` 'evoquer les outils informatiques que nous avons utilis'es pour mener a` bien ce projet, car ils repr'esentèrent d'une part un travail très important au cours du stage, et d'autre part il est toujours int'eressant d'avoir une vision concrète des moyens techniques utilis'es pour trouver les r'esultats du rapport, que ce soit par curiosit'e, en vue de reproduire les exp'eriences ou bien encore pour trouver des pistes de solutions pour impl'ementer ses propres modèles.

Nous voulons 'egalement mettre l'accent sur le fait que les travaux r'ealis'es au cours du stage n'ont nullement pour but unique la production de ce rapport mais aussi de donner la possibilit'e a` de potentiels futurs successeurs d'être rapidement op'erationnels sans qu'ils aient besoin de construire leurs propres outils informatiques a` partir de rien. Nous rejoignons en cela l'initiative Plume du CNRS (http :// www.projet-plume.org), dont le but est de Promouvoir les Logiciels Utiles, Maàýtris'es et 'Economiques (d'o`u l'acronyme PLUME) a` destination de la communaut'e de l'Enseignement Sup'erieur et de la Recherche.

A` cet effet, une attention particulière a 'et'e port'ee sur la qualit'e du d'eveloppement et tout le code est disponible sous la licence libre CeCILL (http ://www.cecill.info/) a` l'adresse TODO. Le tableau A.1 montre quelques statistiques sur le code source ainsi que sur les scripts 'ecrits afin d'automatiser certains processus et analyser les r'esultats (contenus dans des fichiers de logs du programme principal).

Les r'eseaux de neurones ainsi que les algorithmes 'evolutionnistes ont 'et'e d'evelopp'es
en C++ pour des raisons de rapidit'e, les algorithmes 'evolutionnistes deman-

FIGURE A.1: Statistiques sur le code source du programme et des scripts d'analyse écrits en plus du framework Sferes2 et des librairies existantes. La taille élevée des C/C++ headers s'explique par l'utilisation intensive des templates.

dant des ressources computationnelles très importantes, en s'appuyant sur le fra-
mework Sferes2 (http ://pages.isir.upmc.fr/ mouret/sferes2/) dévéloppéa` l'ISIR

[Mouret and Doncieux, 2010]. Pour les besoins du développement, nous avons portéSferes2 sous Windows. Le programme est multi-threadéet repose sur les libraires

Boost, notamment la Boost Graph Library qui permet de gérer aisément les graphes, TBB (Intel Threading Building Blocks) pour le multi-threading, Eigen2 pour les calculs matriciels et SDL pour le rendu graphique de la tàache de survie minimale que nous verrons plus tard.

Graphviz a étéutilisépour générer graphiquement les réseaux de neurones représentant les mRF, et le programme ffpmeg a étéutilisépour générer des vidéos a` partir de ces graphes. MATLAB a étéretenu pour analyser les résultats.

Enfin, nous avons fait un usage intensif de la grappe de serveurs du laboratoire ISIR pour exécuter notre programme, ce dernier nécessitant une forte puissance de calcul. L'ensemble des programmes utilisés dans ce projet tournent aussi bien sous Windows que sous Linux.

L'ensemble du code source ainsi que des scripts d'analyse est disponible a` l'adresse http :// pages.isir.upmc.fr/evorob db/moin.wsgi/mRF2011.

Miroir : http :// bit.ly/mRF-xp

Exemple d'une mRF a` 4 clusters

Cf. page suivante.

FIGURE B.1: Exemple d'une mRF a` 4 clusters. Les neurones oranges sont excitateurs, les neurones bleus foncésont inhibiteurs. Un cluster correspond a` un rectangle bleu. Les neurones situés en dehors des rectangles bleus représentent les entrées que recoit la mRF ainsi que les neurones vers lesquels elle projette.

Exemple d'un cluster de la mRF

Cf. page suivante.

FIGURE C.1: Exemple d'un cluster de la mRF. Les neurones oranges sont excitateurs, les neurones bleus foncésont inhibiteurs. Chaque connexion synaptique a` un poids entre 0 et 1. Les 3 neurones en bleu clair sont les entrées (neurones d'entrée), les 3 neurones en rouge sont les sorties de la mRF (neurones de sortie).