WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp

Home | Publier un mémoire | Une page au hasard

Memoire Online >

Sciences

Controle neuro-flou robuste des systèmes non-linéaires

( Télécharger le fichier original )
par fouzia madour
Université de Sétif Algérie - Magistere 2007

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Chapitre I

Chapitre 1 : La logique floue

La logique floue

I.1 Introduction :

Depuis l'apparition de la logique floue , la philosophie de commande des procédés mal définis ou complètement inconnus qui ne peuvent pas être modélises soigneusement d'une manière mathématique , a connu un changement radical , ceci est du au fait que les lois de commande conventionnelles sont remplacées par une série de règles linguistique de type :

SI (condition ) ALORS( action )

La logique floue s'avère mieux adaptée au monde réel que la logique binaire , du fait de sa maîtrise du concept d'incertitude et d'imprécision qui sont des conséquences logique de la complexité des systèmes .

La logique floue est une technique très puissante issue de la théorie des ensembles flous , pour combler la lacune entre la précision de la logique classique et l'imprécision du monde réel .

Sa caractéristique fondamentale est l'utilisation des variables linguistiques au lieu des variables numériques dans des situations conditionnelles floues .

La logique floue est très utile dans des situations ou il y a de large incertitude set des variations inconnus dans les paramètres et la structure du systèmes , ou bien , lorsque des experts humains sont disponibles pour fournir des descriptions subjectives et qualitatives du comportement du système avec des termes en langage naturel .

I.2 Historique :

Le pionnier était un mathématicien polonais J. Lukasiewiczi qui a développé en premier le concept de la logique multi-variable durant les années 1920 .

Cette logique admet des valeurs de vérité appartenant à l'intervalle [ 0 , 1 ] , ce qui ne suffit pas pour traiter des connaissance imprécises , puisque cette extension de la logique classique n'admet une gradualité que dans les valeurs de vérité et qu'elle n'autorise pas une proposition à être imprécisement énoncée .

Et c'est par là que la logique floue est entrer en scène .

La théorie des ensembles flous est apparaît en 1965 avec Pro . Zadeh Lotfi (Californie) , et cela comme un outil mathématique capable de représenter et manipuler l'information qualitative convoyée dans des termes du langage naturel [ 1 ] .

En 1974 Mamdani proposa la premier application du contrôleur flou pour moteur à

vapeur .

En 1987 , l'explosion du flou au japon et qui atteint son apogée en1990 .

Depuis lors, les systèmes flous soulèvent un large intérêt dans une variété de domaines (commande , identification , traitement du signal .... ) [ 2 ] .

Et aujourd'hui , une vaste gamme de nouveaux produits ont une étiquette

« produit flou » .

Chapitre 1 : La logique floue

I.3 La théorie de la logique flou :

La logique floue vise a modéliser les models imprécis du raisonnement qui jouent un rôle très important dans la capacité humaine de prendre des décisions rationnelles dans un environnement incertain et imprécis .

L'avantage d'un tel système flou est que seules les connaissances du comportement de procédé à commander sont suffisante pour la synthèse de la loi de commande , et ils soulèvent un large intérêt , tant théorique que pratique , dans la commande du processus complexes et N-L .Cela est dû essentiellement a trois traits principaux :

1- Le premier est que les systèmes flous permettent une simple inclusion d'informations qualitatives dans la conception du contrôleur .

2- Le second est que les systèmes flous n'exigent pas l'existence d'un modèle analytique du processus à contrôler , et peu d'information est suffisant pour mettre en oeuvre la boucle de commande .

3- Le troisième est que les systèmes flous sont des systèmes non linéaire et de ce fait plus adaptés à la commande des processus non linéaire .

I.4 Concepts fondamentaux :

I.4.1 Univers de discours :

Un univers de discours continue est un sous ensemble de R qui décrit dans le cas général le domaine d'une variation d'une variable donnée .

I.4.2 Les ensembles flous :

La théorie des ensembles flous permet de traité des domaines non exactes , incertaines et mal quantifiées , contrairement à la théories des ensembles nets , notant que les incertitudes d'un système flou sont représentés par les ensembles flous [ 3 ] .

Dans la théorie classique des ensembles , un objet appartient ou n'appartient pas à un ensemble alors qu'en logique floue , un objet peut appartenir à un ensemble et en même temps à son complément .

Tout élément x d'un référentiel ( univers de discours ) U est muni d'un degré d'appartenance à un ensemble flou A , noté

qui d'écrit le « degré avec le quel l'élément x appartient à A » [ 4 ] , et qui prend ses valeurs dans l'intervalle [ 0 , 1 ] au lieu du doublet { 0 , 1 }.

Chapitre 1 : La logique floue

Exemple :

ì_A(x) Petit ì_A(x) grand ì_A(x) petit grand

1.65m x 1.65m x 1.65m x

1 si x A

ì_A(x) = ì_A(x) [ 0 , 1 ]

0 sinon

Figure I.1 : théorie classique . Figure I.2: théorie floue .

Un ensemble flou A en extension est représenté par des couples < ì_A(x) / x > , et par convention on ne fait pas apparaître les doublets dont le degré d'appartenance est nul .

Par exemple si on cherche à définir l'ensemble flou des tailles voisines de (1,24) on pourra avoir :

{ <0,6 / 1,22>,<0,9 / 1,23>,<1 / 1,24>,<0,9 / 1,25>,<0,6 / 1,26>,<0,6 / 1,26> }.

I.4.3 Propriété d'un sous-ensemble flou :

Les propriétés d'un sous ensemble flou A de U les plus utiles pour le décrire , sont celles qui montrent à quel point il diffère d'un sous ensemble classique de U . [5] [6]

La première de ces propriétés est le support de A , c-a-d l'ensemble des élément , de U qui appartiennent , au moins un peu à A .

A. support :

Le support de A , noté sup(A) , est la partie de U sur la quelle la fonction d'appartenance de A n'est pas nulle :

Supp (A) = { x U / ì_A(x) >0 } ( I . 1 )

Chapitre 1 : La logique floue

B. La hauteur :

L'élément x de U pour le quel le degré d'appartenance ì_A(x) est maximal est appelé centre de l'ensemble flou ou la « hauteur » noté par hgt(A) [7] .

Si hgt (A) = 1 A est appelé normal .

Si hgt (A) < 1 A est appelé sous ,normal . ( I . 2 )

C. Ensemble flou singleton :

Si l'ensemble flou a comme support un seul élément tel que :

ì_A(x) = 1 si x = x_{0 .}

ì_A(x) = 0 si x = x_{0 .}( I . 3 )

donc il est appelé ensemble flou singleton .

D. Le noyau :

Le noyau d'un ensemble flou A est noté par nucleus (A) est définie comme suit :

Nucleus (A) = { x U / ì_A(x) =1 } . ( I . 4 )

S'il y a un seul point avec un degré d'appartenance égal à 1 , Alors ce point est appelé le

« point pic De A » .

E. La convexité :

Un ensemble flou F est convexe si et seulement si :

x₁ ,x₂ U , [0 ,1] : ì_A( x₁ , x₂) min [ ì_A (x₁) , ì_A (x₂) ] . ( I . 5 )

ì_A(x) ì_A(x)

x x

Figure I.3 : Ensemble flou non convexe Figure I.4 : ensemble flou convexe

Chapitre 1 : La logique floue

F. Distance de hamming entre deux sous-ensembles flous :

La distance de Hamming entre deux sous ensembles flous A et B est une mesure qui indique le degré global avec le quel le éléments de U appartiennent à A et/ou B :

D_H(A , B) = ?_xU ( ì_A(x) - ì_B(x) ) ( I . 6 )

I.4.4 Opérateurs en logique floue :

A et B deux ensembles flous définis sur l'univers de discoure U . Soit x et y deux valeurs définis sur des domaines différants :

Si ì_A(x) = ì_B(y) = , x .On a les définitions suivantes :

A. L'opérateur NON ( complément ) :

x U , Â = { x / x A } .

ou bien : non ì_A(x) = ì_Â (x) = 1- ì_A(x) ( I . 7 )

B. L'opérateur ET ( intersection ) :

x U : AnB = { x / x A x B} .

ou bien : ì_AnB(x) = ì_A(x) ì_B(x) = min ( ì_A(x) , ì_B(x) ) ( I . 8 )

C. L'opérateur OU ( union ) :

x U : A ? B = { x / x A ? x B }

ou bien : ì _A?_B(x) = ì_A(x) ? ì_B(x) = max ( ì_A(x) , ì_B(x) ) ( I . 9 )

Ces opérations d'intersection , d'union et de complémentations de sous ensembles flous habituellement employées , peuvent être remplacées par d'autres opérations construites à l'aide d'autre opérateurs différents de minimum , de maximum et de la complémentation à 1 .

On fait appel à eux lorsque les opérations habituelles ne s'avèrent pas satisfaisantes [6] , [7] .

Chapitre 1 : La logique floue

Exemple :

ì_A(x) non ì_A(x)

70 80 70 80

ì_A(x) ì_B(x) ì_AnB(x)

100 130 100 130

ì_A(x) ì_B(x) ì _A?_B(x)

40 60 80 60 80 40 60 80

Figure I.5 : opérateurs ( non , et , ou ) en logique floue .

Exemple en logique classique :

Soit un ensemble de référence U = { a , b , c , d , e , f , g }.

Soit A et B deux sous-ensembles de U .

A	0	1	0	1	1	0	1
B	1	1	0	0	1	0	1

b c d e f g

AnB	0	1	0	0	1	0	1
A?B	1	1	0	1	1	0	1

Chapitre 1 : La logique floue

Â	1	0	1	0	0	1	0
A?Â	1	1	1	1	1	1	1

A?Â

On obtiens A ? Â = U et A ?Â = .

Exemple en logique floue :

Soit un ensemble de référence U = { a , b , c , d , e , f , g }.

Soit C et D deux sous-ensembles de U .

C	0.4	0.8	1	0.8	0.2	0.5	0.1
D	0	0.5	0.3	0.9	1	0.7	0

a b c d e f g

	0.6		0.2	0	0.2	0.8	0.5	0.9
CnD	0	0.5		0.3	0.8	0.2	0.5	0
C?D	0.4	0.8		1	0.9	1	0.7	0.1
Cn	0.4	0.2		0	0.2	0.2	0.5	0.1
C?	0.6	0.8		1	0.8	0.8	0.5	0.9

On obtiens : Cn ET C ? U .

D. Le produit cartésien :

Soient A1 , A2 , ... , An des ensembles flous définis sur les univers de discours U1 , U2 , ... , Un respectivement , leur produit cartésien est un ensemble flou ( relation flou ) noté par :

A = A1 . A2 . .... An , avec une fonction d'appartenance définis par :

ì_{A1. A2.... An} ( x₁ x₂ ... x_n ) = min [ ì_A1 (x₁) , ì_A2 (x₂) , ... , ì_An(x_n) ]_.( I . 10)

Chapitre 1 : La logique floue

Exemple :

ì_A1 (x₁) ì_A2 (x₂)

Figure I.6 : le produit cartésien en logique floue .

E. La concentration de A :

La concentration de A noté con (A) est défini par :

ì _conA (x) = ì²_A(x) ( I . 11)

F. La dilatation :

La dilatation de A noté dil (A) est défini par :

ì_dil(x) = vì_A(x) ( I . 12)

G. Egalité et inclusion des sous ensemble flous :

Deux sous ensembles flous A et B sont égaux , si leur fonctions d'appartenance prennent la même valeur pour tout élément de U :

x U : ì_A(x) = ì_B(x) ( I . 13)

H. Normes et conormes triangulaire :

une norme triangulaire (t-norme) est une fonction :

T : [0.1] . [0.1] [0.1]

qui vérifie la commutativité l'associativité et un élément neutre 1 .

Chapitre 1 : La logique floue

cas particulier :

L'opérateur T = min est une norme triangulaire , toute t-norme peut servir à définir l'intersection de deux sous ensembles flous A et B , tel que C = A n_T B , que l'on associe une fonction d'appartenance définis par :

x U : ì_c(x) = T (ì_A (x) , ì_B(x) ) (I . 14)

Une conorme triangulaire ( t-conorme ) est une fonction :

?: [0.1] . [0.1] [0.1]

qui vérifie la commutativité , l'associativité et un élément neutre 0 .

Toute t-conorme peut servir à définir l'union de deux sous ensembles flous A et B ,

tel que :

D = A?_T B , que l'on associe une fonction d'appartenance définie par :

x U : ì_D(x) = ? ( ì_A(x) , ì_B(x) ) (I . 15)

Toute norme a une co-norme associé (et vis versa ) par les lois de Morgan :

?( x , y ) = 1 - T (1-x , 1-y )

T ( x , y ) = 1- ? (1-x , 1-y)

Parmi les couples normes/co-normes d'opérateurs T/ ? , min / max est le plus fréquemment utilisé car il maintien le plus grand nombres des propriétés de l'intersection et de l'union habituelles , bien qu'il existe d'autre opérateurs comme [8] .

a)- Conjonction / disjonction de Lukasiewic

T(x ,y) = max ( x + y - 1 , 0 )

?(x , y) = min ( x + y , 1 ) (I . 16)

Chapitre 1 : La logique floue

b)- Le produit et la somme probabiliste

T(x , y) = x . y .

? (x , y) = x + y - ( x .y ) (I . 17)

I. L'entropie flou :

L'entropie floue est une mesure d'ambiguïté d'un sous-ensemble :

E( A) = dH (A Ac) / dH(A Ac) (I . 18)

Ou A^c est le complément de A .

- Si E(A)=1 alors l'ambiguïté est maximale .

- Si E(A) =0 donc le sous ensemble est classique et non flou .

1.5 Les fonctions d'appartenances :

Les formes des fonctions d'appartenances sont généralement arbitraires , mais il est judicieux de choisir des fonctions convexes de sorte qu'il existe au moins un point de degré maximal et tel que le degré décroît ; lorsqu'on s'éloigne de ce maximum .

Exemple :

Pour une variable d'entrée (e) , un univers de discours continu , et des fonctions d'appartenance représentées par trois triangles et des valeurs linguistiques :

( Positive , zéro , négative ) , l'ensemble flou relatif à une valeur (0.3) de la variable d'entrée sera alors : ( 0.2 , 0.8 , 0 ) .

Que l'univers du discours soit continu ou discret , les règles flous activées seront celles dont la valeur linguistique est différente de zéro .

ì_(e)

N Z P

0.8

0.2

0.3 e

Pour cette exemple , avec l'ensemble flou ( 0.2 , 0.8 , 0 ) . Les règles linguistiques ayant pour prémise soit ( (e) est positive ) soit ( (e) est zéro ) seront activées .

Chapitre 1 : La logique floue

Les fonctions d'appartenances les plus utilisées sont [9] :

A. Fonction triangulaire :

Triangle ( x ; a , b , c ) = max min
x - a , c - x , 0 .

b - a c - b

B. Fonction trapézoidal :

Trpézoide ( x ; a , b , c , d ) =
max min x - a ,1, d - x , 0 .

b - a d - c

C. Fonction gaussienne :

- ( x - c )2

Gaussienne ( x ; ä , c ) = e 2 . ä² .

Ou c représente le centre , et ä l'écart type .

D. Fonction de cloche généralisée :

Bell ( x ; a , b , c ) = 1 / 1 + (x - c) / a^{2 b} .

Où b est une constante positive permettant le contrôle de la pente au point d'inflexion .

C et a sont le centre et la largeur respectivement .

E. Fonction sigmoïde :

Sigmoïde ( x , a , c ) = 1 / 1 + e - ( a ( x - c ) ) .

Où (a) permet le contrôle de la pente au point d'inflexion x = a , dépendamment du signe a .

Remarque :

Les trois dernier fonctions sont généralement utilisé dans le contrôle des procédés chimiques , car la pente supérieur de la fonction ( gaussienne , cloche ) , et la pente inférieur de la fonction ( sigmoïde ) , permettent au procédé d'avoir le temps pour réaliser ces réactions chimiques .

Chapitre 1 : La logique floue

ì_(x) ì_(x)

a b c x a b c d x

(a) (b)

ì_(x) ì_(x)

0.5

c x c -a c c + a x

ì_(x)

a < 0 a > 0

(e)

Figure I.7 :(a) Fonction triangulaire .

:(b) Fonction trapézoïdal .

:(c) Fonction gaussienne .

:(d) Fonction de cloche généralisée .

:(e) Fonction sigmoïde .

Chapitre 1 : La logique floue

I.6 variable linguistique

Notion de variable linguistique :

L'univers de discours permet de décrire le domaine de variation de ce qu'on appelle « variable floue » .

l'appellation associée à chaque sous ensemble flou constitue ce qu'on appelle

« variable linguistique» .

ils servent à modéliser les connaissances imprécises ou vagues sur une variable dont la valeur précise peut être inconnue [10] , [11] .

Le découpage d'un univers de discours U en ensemble flous est tout à fait subjectif et complètement lié au problème à traiter.

Exemple :

On donne un exemple d'un univers de discours à (05) sous ensembles flous , où chacun de ces derniers prend un "code" ou un non :

Ze : zéro .

PM : positif moyen .

PG : positif grand .

NM : négatif moyen .

NG : négatif grand .

les codes représentent les variables linguistiques qui décrivent l'état d'un procédé ou phénomène à étudier .

U(x)

NG NM ZE PM PG

Figure I.8 : univers de discoure avec (05) sous ensembles flous

Chapitre 1 : La logique floue

Dans de tels cas , il est préférable de représenter une information incertaine par des sous ensembles flous [12] .

En raison de leur capacité à synthétiser des informations et à permettre une approche globale de certaines caractéristiques du système .

De façon plus générale , les ensembles flous peuvent intervenir efficacement dans la modélisation d'un système complexe .

I.7 Relations floues :

I.7.1 Définition :

les relations floues généralisent la notion de relation classiquement définie sur des ensembles .

Elles mettent en évidence des liaisons imprécises ou graduelles entres les éléments d'un même ensemble [5] , [7] .

Soient U_{1 ,} U_{2 ,......,} U_n , n univers de discours ,

une relation floue R est un ensemble flou dans (U_{1 *} U_{2 * ......*} U_n) définie par :

R = { [ (U_{1 ,} U_{2 ,......,} U_n ) , ì_R (U_{1 ,} U_{2 ,......,} U_n ) ] / (U_{1 ,} U_{2 ,......,} U_n ) U_1
* U_{2 *......*} U_n}

Exemple:

En parlant de l'expertise d'un diamant , on peut dire que son prix est une fonction de la relation qui existe entre son poids , et sa pureté :

U = { grand , petit } .

V = { poids , pureté}.

La relation flou binaire R , peut être défini par :

R = { [ ( poids , grand ) , 0.8 ] , [ ( poids , petit ) , 0.3 ] , [ ( pureté , grand ) , 0.9 ]

[ ( pureté , petit ) , 0.6 ] }.

La fonction d'appartenance peut être représenter comme suit :

Grand petit

Poids 0.8 0.3

ì_R(U ,V) =

pureté 0.9 0.6

I.7.2 Définition :

La composition de deux relation flous R₁ sur ( U_{1 .} U₂ ) , et R₂ sur ( U₂ . U₃ ) définie une relation floue : R = R₁o R₂ sur ( U_{1 .}U₃ ) de fonction d'appartenance

définie par : (x , y) U_{1 .}U₃, ì_R(x , z) = sup_{(y
U2)} min ( ì_R1 (x , y) , ì_R2(y , z) ).

Chapitre 1 : La logique floue

ou U₁, U₂ et U₃ sont des univers de discours .

Cette définition correspond à la composition max-min , la plus utilisée .

Il est cependant possible de remplacer l'opérateur min par un autre opérateur T,

par exemple une norme triangulaire , et en particulier le produit pour définir la composition max-T .

I.7.3 Implication floues :

soit une règle flous de la forme « si V est A alors W est B » .

l'implication floue entre deux propositions floues élémentaires « V est A » et « W est B » est une proposition floue , dont la fonction d'appartenance ì_R associée à cette relation floue R entre X et Y est définie par :

(x, y) ( X .Y ) / ì_R(x, y) = Ö [ ì_A(x) , ì_B(y) ]

Pour une fonction Ö de [0, 1] . [0, 1] ? [0, 1] .

Les principales classes d'implications floues sont indiquées dans le tableau de la figure suivante [5], [6], [7] .

Notion	Valeur de vérité	Nom
ì_R^R(x , y)	1 - ì_A(x) + ì_A(x) . ì_B(y)	Reichenbach
ì_R^W(x , y)	Max [1- ì_A(x),min [ì_A(x), ì_B(y)]	Willmott
ì_R^RG(x , y)	1 si ì_A(x) = ì_B(y) 0 sinon	Rescher-gaines
ì_R^KD(x , y)	Max [1 - ì_A(x) , ì_B(x)]	Kleene-dienes
ì_R^BG(x , y)	1 si ì_A(x) = ì_B(y) ì_B(y) sinon	Brouwer-godel
ì_R^G(x , y)	1 si ì_A(x) =0 min [ì_A(y) /ì_A(x), 1] sinon	Goguen
ì_R^L(x , y)	Min [1- ì_A(x)+ ì_B(y) , 1]	Luksiewicz
ì_R^M(x , y)	Min [ì_A(x) , ì_B(y)]	Mamdani
ì_R^P(x , y)	Ì_A(x) . ì_B(y)	Larsen

Figure I.9 : Principales classes d'implication floues .

Chapitre 1 : La logique floue

I.8 Contrôleur à logique flou :

un contrôleur flou peut être vu comme un système expert fonctionnant à partir d'une représentation des connaissances basées sur la théorie des ensembles flous [12] .

Ce contrôleur fourni un algorithme de conversion d'une stratégie de contrôle linguistique basée sur l'expertise humaine en une stratégie de contrôle automatique ,

Il est décrit par un ensemble de règles de contrôle flou du type :

R₁: IF x is A₁ and y is B₁ them z is C₁

R₂: IF x is A₂ and y is B₂ them z is C₂

R_n: Fl x is A_n and y is B_n them z is C_n

I.9 La structure des systèmes a base de la logique flou :

Le système à base de la logique floue effectue un application de U Rⁿà V R

Avec : U = U₁ . U₂ . . . U_n .

Il est constitué de quatre blocks comme c'est illustré sur la figure :

Base de connaissance

Interface de fuzzification

Interface de défuzzification

entrée sortie

Engin d'inférence flou

floue floue

Processus

entrée numérique Sortie numérique

Figure I.10 : structure de base d'un système flou

Chapitre 1 : La logique floue

Le contrôleur flou est composé de deux interfaces ( fuzzification , defuzzification ) , et d'une base de connaissance , et d'un engin d'inférence .

I.9.1 Interface de fuzzification :

Cet interface converti les variables d'entrées en valeurs linguistiques à l'échelle de l'univers de discours choisi [13] .

L'opération de fuzzification permet d'assurer le passage des grandeurs physiques d'entrées du contrôleur en variables linguistiques qui peuvent être traitées par les inférences .

Un opérateur de conjonction ( une norme triangulaire , généralement T_Zadeh= min )

doit être déterminé pour définir le sous ensemble flou conjoint associé à la partie condition de la règle .

Il y a au minimum deux choix de convertir l'entrée numérique en un ensemble flou A définie dans U .

A - fuzzification singleton :

ou l'opérateur de fuzzification convertie la valeur numérique x U en un singleton flou A_i dans U tel que

1 si x= x₀

ì_Ai(x) =

0 si x ? x₀

Exemple :

ì_Ai(x) min ì_Ai(x)

x₀x x₀ x

Figure I.11 : fuzzification singleton

Cette stratégie est largement utilisée dans les applications de contrôle flou, car elle est facile à implémenter .

Chapitre 1 : La logique floue

B - Fuzzification non-singleton :

C'est une fuzzification pour la quelle ì_Ai(x) est égal à l'unité si x =x₀ et décroît quand on s'éloigne de x .

Exemple :

min

ì_Ai(x) ì_Ai(x) ì_Ai(x) . ì_Ai(x)

x₀ x x₀ x

Figure I.12 : fuzzification non singleton

I.9.2 Base de connaissances :

Elle permet la manipulation des données floues et caractérise la commande au moyen d'un ensemble de règles linguistiques du type « si - alors » .

Ce bloc contient les définitions : des fonctions d'appartenance , des variables

d'entrées /sorties (gaussienne, trapézoïdale ,....etc.) ainsi que les règles d'inférence .

La base de règles est une collection de règles « si - alors » flou qui définissent la relation entre une observation et une action .

Ces règles peuvent être exprimées par :

R^(L) : SI (u₁ est A₁^L et u₂est A₂^L et ... u_n est A_n^L) ALORS ( v est c^L)

ou :

u_i et v sont des variables linguistiques avec : i = 1 , 2 , ..... n .

A_i^L et C^Lsont des termes associés aux ensembles flous F_i^L et G^L

définie dans U_iet V, respectivement .

avec : L = 1 , 2 , ..... , M .

M est le nombre total des règles dans la base des règles .

Chapitre 1 : La logique floue

I.9.3 engin d'inférence flou (régulateur flou) :

l'engin d'inférence flou dérive l'ensemble flou B de sortie défini dans V à partir de l'ensemble flou d'entrée A_x définie dans U de la manière suivante :

Chaque règle floue , décrite par une implication flou R^L détermine un ensemble flou

B^L = A_x O R^Ldans V .

telle que :uU

ì_B^L(v) = ì_AoB^L(v) = Sup _uU{ ì_Ax(u) . ì_R^L (u ,v) } (I . 19)

plus simplement :

c'est que ce bloc permet de définir la stratégie de contrôle en utilisant les implications floues qui lient les différentes variables de chaque règle .

Plusieurs mécanismes d'inférence se présentent [8] , [14] :

§ Mécanisme d'inférence MAX - MIN .

§ Mécanisme d'inférence MAX - PROD.

§ Mécanisme d'inférence SOM- PROD.

Le mécanisme d'inférence opère en deux étapes :

A- Calcule de la conséquence de chaque règle :

La conséquence de chaque règle est donnée par :

ì_Bi^l(y) = ì_A(x₀) . ì_Ri(x₀ , y) ì_Bi^L(y) = ì_A(x₀) . ì_Ai (x₀) . ì_B (y) (I . 20)

si non utilise la fuzzification singleton la formule sera équivalente à :

ì_Bi^l = ì_Ai (x₀) . ì_Bi(y) [8].

Pour qu'un système flou soit « bien - défini » il faut qu'il y est au moins une règle active pour chaque point numérique d'entrée possible .

B- Calcule de la conséquence du système :

l'action (ensemble flou de sortie ) produit par le système flou est construite par l'agrégation des conséquences de toutes les règles soit :

ì_B^l(y) = ì_B1^l(y) ì_B2^l(y) ... ì_Bn^l (y) (I . 21)

la composition sup-star de Zadeh est un cas spécial de (I . 21) puisqu'elle interprète l'opérateur comme le supremum .

Chapitre 1 : La logique floue

Ou plus explicitement .

ì_Bi^l = max [ ì_B1^l(y) , ì_B2^l(y) , ......, ì_Bn^l(y) ]

ce que donne pour (I . 21) :

ì_B(y) = max [ ì_A1(x₀) . ì_B1(y) , ì_A2(x₀) . ì_B2(y) , ... , ì_An(x₀) . ì_Bn(y)]

Exemple :

Etant données les deux règles suivantes :

R⁽¹⁾ : SI ( x₁est A₁) et ( x₂est B₁ ) alors ( y est C₁) .

R⁽²⁾: SI ( x₁ est A₂) et ( x₂est B₂ ) alors ( y est C₂) .

Pour schématiser la procédure d'inférence on utilise le mécanisme MAX-MIN et le mécanisme MAX-PRODUCT comme suit :

ì prod (and) ì ì

0.8

0.4 0.4 . 0.8 = 0.32

-1 1 x₁ -2 2 x₂ -5 5 y

if (x₁ est proche de zéro) and (x₂ est proche de zéro) then (y est proche de zéro)

ì prod (and) ì ì

0.4

0.2

0.4 . 0.2 =0.08

-1 1 x₁ 0 4 x₂ 0 10 y

if (x₁ est proche de zéro) and (x₂ est positive petit) then (y est positive)

MAX ì

0.32

0.08

-5 0 5 10 y

Figure I.13 : Mécanisme d'inférence

MAX - PROD

Chapitre 1 : La logique floue

MIN

ì ì ì

0.8

0.4 0.4

3 -1 1 x₁ -2 2 x₂ -5 5 y

if (x₁ est proche de zéro) and (x₂ est proche de zéro) then (y est proche de zéro)

ì ì MIN ì

0.4

0.2 0.2

-1 1 x₁ 0 4 x₂ 0 10 y

if (x₁ est proche de zéro) and (x₂ est positive petit) then (y est positive)

MAX

0.4

0.2

-5 0 5 10 y

Figure I.14 : Mécanisme d'inférence

MAX-MIN

Note : Spécificité des systèmes d'inférence floue :

En ce qui concerne les SIF_s (système d'inférence floue) , il est intéressant de les utiliser quand :

? Soit il existe une expertise humaine que l'on veut exploiter et introduire dans un système automatique .

? Soit on veut extraire des connaissances à partir de données numériques , en les exprimant dans un langage proche du langage naturel .

? Soit on veut réaliser une interface homme - machine , donner des explications ou établir des diagnostiques immédiatement interprétables .

Chapitre 1 : La logique floue

I.9.4 La defuzzification :

Cet interface converti les l'ensemble floue de sortie en actions de commande physiques selon un univers de discours choisi .

Le module constitue le lien de communication entre le monde de raisonnement approximatif (système flou ) , et le monde réel du processus (système à commander) . Plusieurs méthodes de défuzzification sont proposées dans la littérature [14] , [12] .

Les plus utilisées actuellement sont :

a) La stratégie du maximum :

Cette stratégie choisie comme sortie du système la valeur y₀ pour la quelle

ì_A(B1,_{B2 , ...)} (y₀) soit la plus grande valeur de la fonction d'appartenance de

A (B₁, B₂, ....) .

ì (y₀)

y₀ y

Figure I.15 : stratégie du maximum

b) La stratégie de la moyenne des maximums :

La sortie du système flou représente la valeur moyenne des y_i pour les quelles ì_A(y_i) soit maximal :

y₀= [ ?_{yi
Max (y)} y_i/ | Max (y) | ] .

c) La stratégie du centre de gravité :

C'est la stratégie la plus utilisé elle est définie par :

?^N_{i = 1} y_i ì_B (y_i)

y =

?^N_{i = 1} ì_B (y_i)

Ou :

N est le nombre de niveaux de quantification de la sortie

Chapitre 1 : La logique floue

Ou bien :

le nombre des sous-ensemble flous de l'espace de sortie .

y est la valeur numérique de sortie.

d)- La stratégie des hauteurs :

soit y ^L le centre de gravité de la 1^ere règle .

Le calcule de la sortie est comme suit :

Y = ?^M_{L = 1} y ^L ì_B^L (y ^L) / ?^M_{L =
1} ì_B^L (v ^L) .

Bien que cette stratégie est facile à utiliser parce que le centre de gravité des fonctions d'appartenance les plus utilisées est connu en avance .

e)- La stratégie des hauteurs modifiée :

La sortie du système flou est calculée par la formule suivante :

y ^L ì_B^L (y ^L) ì_B^L (y ^L)

Y = ?^M_{L = 1}?^M_{L = 1}

G ^L.L G ^L.L

Où G^L est une mesure de support de la fonction d'appartenance pour la 1^errègle . Pour les fonctions d'appartenance triangulaires et trapézoïdales et gaussienne

G^L représente la base du triangle ou du trapézoïde ou l'écart type respectivement .

I.10 La modélisation par la logique flou :

Pour l'identification de la fonction d'un système (processus) , on a besoin d'établir un modèle mathématique .

Le modèle de raisonnement approximatif floue est généralement formé d'un ensemble de règles qui décrit le comportement du système .

La modélisation floue donc est déduite d'un raisonnement élaboré des états des processus et d'une liste des règles décrivant la manière selon laquelle le modèle doit fonctionné .

I.11 Les règles floues :

Les règles floues représente une connaissance humaine , exprimée en langage naturel ,

à l'aide de mots vagues , mal définis , flous .

chapitre 1 : La logique floue

Dans la théorie des systèmes flous il existe deux types de règles :

I.11.1 règle de Mamdani :

Mamdani fut le premier à utilisé la logique floue pour la synthèse de commandes .

Il utilise le minimum comme opérateurs de conjonction et d'implication .

La règle utilisé par Mamdani est de la forme :

IF x1 is A1 and x2 is A2 and ..... xn is An then y is B

Où :

Ai , i = 1.......n , et B , sont des ensembles flous caractérisant la parti premise et la partie conséquence , définis par la fonction d'appartenance :

ì_Ai(x_i) et ì_B(y) .

La règle peut être aussi écrite comme :

IF X is A then Y is B

Où :

A est l'ensemble flou définit par le produit cartésien ,

et la valeur réelle de Y est exprimée par l'une des méthode de défuzzification .

Dans cette méthode , l'inférence flou correspond aux étapes suivantes pour un vecteur d'entrée x = ( x1 , x2 , ..... , xn )ⁱ .

A. Calcul de degré d'appartenance de chaque entrée aux différents sous

ensembles flous ì_Ajⁱ (x_j) pour :

j = 1? n et i= 1 ? N .

B. Calcule de la valeur de vérité de chaque règle ,

pour i = 1 ? N :

_i (x) =min_j ( ì_Ajⁱ (x_j) ) .

avec j = 1 ? N .

C. Calcul de la contribution de chaque règle .

ì_i(y) = min (_i (x) , ì_Bⁱ(y) ).

Bⁱ représente les conséquences des règles .

Chapitre 1 : La logique floue

D. Agrégation des règles :

ì(y) = max_i ( ì_i(y) ) .

Le résultat est donc un sous ensemble flou caractérisé par sa fonction d'appartenance .

Pour obtenir une conclusion (nette) , il faut donc défuzzifier la sortie .

Exemple :

If x1 is A11 AND x2 is A12 then y is B1.

If x1 is A21 AND x2 is A22 then y is B2.

A11 A12

x1 x x2 x y

A21 A22 A (B1,B2)

x1 x x2 x y

Figure I.16 : représentation graphique de la méthode de Mamdani

I.11.2 Règle de Takagi Sugeno :

La règle de Takagi Sugeno présente à la différence de celle de Mamdani [15] , une conséquence qui n'est pas un ensemble flou mais une fonction des entrées .

Soit :

If x1 is A1 and x2 is A2 .... Then y = B(x)

Ou B(x) est une fonction des entrées par exemple :

Bⁱ = ?ⁿ_{j = 0}B_jⁱ . x_j .

Chapitre 1 : La logique floue

On parle parfois de méthode de Takagi Sugeno simplifiée ou d'ordre zéro quand la conclusion est une constante, dans ce cas on peut considérer la méthode de Takagi Sugeno comme un cas limite de celle de Mamdani .

Pour un vecteur d'entrée x = ( x_{1 ,}...., x_n )ⁱ la sortie inférée est obtenue par :

A. Calcul du degré d'appartenance de chaque entrée aux différents sous ensemble flous,

ì_Ajⁱ(x_j) , pour j = 1 ? n et i = 1 ? N .

B. Calcule de la valeur de vérité de chaque règle ,

pour i=1 à N :

_i (x) = ET ( ì_A1ⁱ (x₁) , ... , ì_Anⁱ (x_n) ) .

C. Calcule de la sortie du SIF :

y = ?ⁿ_{i = 1 i} (x) . bⁱ ?ⁿ_{j = 1 i} (x) .

La sortie obtenue n'est pas floue , ce qui supprime une étape dans l'inférence .

Les SIF de type Takagi Sugeno permettent donc le passage aisé d'une expression symbolique (la base de règle) à sa traduction numérique .

Chapitre 1 : La logique floue

Les étapes de conception d'un système flou

La conception d'un FLC nécessite le choix des paramètre suivants :

Définition du système en termes de ses variable d'entrées et de sortie :

Généralement les variables d'entrées sont l'erreur ( e ) et le changement de l'erreur ( e^.)

De la variable d'état du processus .

Choix de la partition floue :

on associe un ensemble de terme linguistique caractérisés par des fonctions d'appartenances définis sur le même univers de discoure pour chaque variable d'E/S .

En fait , le choix de la partition floue consiste à déterminer le nombre de termes dans cette ensemble .

Généralement ce nombre est impair et compris entre 3 et 9 . Ce choix dépend du problème à traiter s'il exige la précision ou la robustesse du système .

Choix des fonctions d'appartenance :

Les fonctions d'appartenances les plus utilisées sont les fonctions :

Trapézoïdal et triangulaire .

Car elles sont prouvées d'être de bonne compensateur entre l'efficacité et la facilité d'implémentation (programmation) .

Le chevauchement de la fonction d'appartenance avec ses voisines est compris entre

10% et 50 du support de la fonction voisine .

Construction de la base de règle :

De nombreuses méthodes ont été proposées .

Ils peuvent être groupés selon leur principe en deux catégories :

Méthodes d'extraction naturelle .

Méthode d'extraction automatique .

Choix de la méthode d'inférence et de la stratégie de défuzzification .

Chapitre 1 : La logique floue

Conclusion :

Les systèmes flous ont connus un succès considérable dans la command des procédés industrielles complexes , du fait de leurs caractère approximatif et qualitatif inspirés de la pensé humaine [16] [17] .

Leurs performances sont liées à deux facteurs importants :

1- la disponibilité de l'expertise

2- la validité de techniques d'acquisition de connaissances et la justesse des données acquises.

La logique floue est une théorie très puissante qui permet d'obtenir des conclusion et de générer des réponses à partir des informations incomplètes et imprécises , la ou le monde mathématique du système est inconnu ou difficile à extraire .

L'objectif est de concevoir ou de réaliser des systèmes qui peuvent prendre en charge certaines taches avec la même habilité que possède l'être humain .

La phase d'acquisition des connaissances est la plus difficile dans des cas ou le domaine d'expertise n'est pas disponible .

Pour cette raison , des recherches très poussées ont conduit au développement des méthodes systématiques et optimales pour la conception des contrôleurs flous .

Parmi ces méthodes on trouve :

Les réseaux de neurones qui sont très puissants dans le domaine de l'apprentissage et de l'optimisation , et cela en utilisant les fonctions qu'on veux optimisé comme poids à

ajusté.

De ce fait , le contrôleur flou peut être utilisé avec d'autres techniques telles que les réseaux de neurones pour la conception de ce contrôleur d'ou le nom :

« neuraux - flou » .

Chapitre II

Chapitre 11 : Les réseaux de neurones

Les réseaux de neurones

II.1 Introduction :

Dans le chapitre précèdent nous avons expliqué le fonctionnement de la logique floue , qui n'est autre qu'une technique que le cerveau utilise , donc l'outil de base de l'intelligence artificielle est le réseau de neurones .

Le terme de réseaux de neurones « formels » ou « artificiels » fait rêver certains , et fait peur à d'autres . La vérité est plus rassurante ; les réseaux de neurones constituent maintenant une technique de traitement de données bien comprise et maîtrisée , qui devrait faire partie de la boite à outils de tout ingénieur .

En effet , même si nous somme incapable de réaliser des calcules avec la rapidité et la précision d'un ordinateur , nous somme autrement mieux adaptés que ce dernier au problèmes de traitement de l'information dans son ensembles : traitement du signal , extraction de caractéristiques pertinentes dans un monde complexe , et décision , sont des taches que nous accomplissons couramment .

Ces taches sont accomplies avec une grandes rapidité , et le cerveau adapte son comportement aux situations nouvelles , principalement selon deux processus :

II.1.1 - L'adaptation rapide et automatique :

C'est le cas de notre pupille , par exemple , qui adapte son diamètre en fonction de la quantité de la lumière , et dans le cas d'un réseau neuronal ces poids sont adaptés automatiquement par une fonction mathématique , ces poids peuvent représentés des valeur ou des grandeurs physique ou chimique ou mathématique que le réseau doit adapté et que le neurone doit utiliser dans sa fonction de seuil .

II.1.2 - L'apprentissage :

Cet apprentissage autorise une adaptation lente d'un individu à l'exécution d'une tache nouvelle, par exemple , l'utilisation d'une nouvelle théorie des mathématiques .

Toutes ces constatations ont constitué un ensembles de motivations important poussant à analyser le fonctionnement de cette machine .

Les biologistes ayant isole sont élément de base , à savoir le neurone , une approche mécaniste de la pensée a alors vu le jour .

En effet si l'on modélise le fonctionnement de l'élément de base et si l'on reproduit les interactions des élément de base entre eux , alors on est certainement capable de reproduire artificiellement la pensée .

Les premiers essais de modélisation datte des années 40 .

L'objectif de cette approche est de produire un dispositif (machine) capable de jaillir quelques étincelles de l'intelligence qui consiste un moyen efficace dans presque la totalité des domaines et en particulier celui de l'ingénierie.

Chapitre 11 : Les réseaux de neurones

II.2 Le neurone :

Ce neurone artificiel est une simplification extrême du neurone biologique dont le comportement temporel . C'est pourtant ce neurone simplifié , qui est utilisé encore aujourd'hui dans la plupart des systèmes mettant en oeuvre des réseaux neuronaux sur des applications .

Le modèle du neurone formel se comporte comme un opérateur effectuant une somme pondérée de ses entrées, suivie d'une non linéarité appelée fonction d'activation.

Si la somme pondérée de ses entrées dépasse un certain seuil qui est la propriété de la fonction d'activation , le neurone est activé et transmet une réponse dont la valeur est celle de son activation , sinon il ne transmet rien.

Sa structure est la suivante [30] :

W_1jW_0J = O_J

X_1j

W_2j

X_2j F(S_J) Y_j

W_3j

X_3j

synapse corps cellulaire axone

Figure II.1 : Model artificiel d'un neurone

La sortie du neurone est définie par la relation suivante :

Y_j= F ( ?ⁿ_i=1 (W _{i j}* X _i ) - O j ) . ( II . 1 )

Avec :

X_1j , ........, X _n
j: les entrées .

W_1j, ......., W _n
j : les poids synaptiques .

S _j : La somme des sorties des neurones connectés au neurone.

W_0j = O _j: La valeur du seuil interne du neurone.

II.3 Quelques exemples de fonctions d'activation [31] :

Les fonctions d'activation représentent généralement certaines formes de non linéarité, nous citrons quelques exemples :

Chapitre 11 : Les réseaux de neurones

1- Fonction seuil (Heaviside , échelon ) : 1 S _j = 0

F ( S _j) =

0 S _j < 0

Le seuillage introduit une non linéarité dans le comportement du neurone.

Cependant il limite la gamme de ses réponses possibles à deux valeurs.

2- Fonction linéaire bornée : S _j/ á^- = S _j? á⁺

F ( S _j) = 1 S _j> á⁺

-1 S _j < á^-

3- Fonction sigmoïde exponentielle :

F ( S _j) = 1

1 + e ^{(- â S}_j ⁾

Ce type de fonction est généralement employées dans le perception multicouches.

Elle présente l'avantage de la simplicité de calcul de sa dérivée .

4- Fonction sigmoïde tangentielle :

F ( S _j) = 1 + e ^{(- â S}_j ⁾

1 + e ^{(- â S}_j ⁾

Cette fonction présente l'avantage de la rapidité de convergence de l'apprentissage et aussi la simplicité dans le calcul de la dérivée .

5- Fonction gaussiene :

F ( S _j) = e ^{x² / 2 *
ä²}

Cette fonction est très utilisée dans les réseaux RBF ( Radial Basis Function ) .

Chapitre 11 : Les réseaux de neurones

F(S_J) F(S_J)

1 +1

S_J S_J

-1

Figure (a) Figure (b)

F(S_J) F(S_J)

S_J S_J

-1

Figure (c) Figure (d)

F(S_J)

S_J

Figure (e)

Figure (a) : Fonction seuil .

Figure (b) : Fonction linéaire bornée .

Figure (c) : Fonction sigmoïde exponentielle .

Figure (d) : Fonction sigmoïde tangentielle .

Figure (e) : Fonction gaussiene .

Chapitre 11 : Les réseaux de neurones

II.4 Réseau de neurones :

L'intérêt de ces cellules de traitements simple apparaît lorsqu'on les agences sous forme de réseau .

En effet , ce sont les propriétés du réseau de neurones qui sont réellement remarquables .

Parmi les métaphores biologiques employées de nos jours pour la résolution de problème , les réseaux neuronaux artificiels constituent certainement l'approche la plus utilisée .

Ils constituent en des modèles plus ou moins inspirés du fonctionnement cérébral de l'être humain, en se basant principalement sur le concept de neurone.

La plupart des modèles ne retirent du fonctionnement réel que les principes suivants :

· Les réseaux de neurones sont caractérisés par des interconnexion entre des unités de traitement simples agissant en parallèle.

· A chaque connexion est associé un poids qui détermine l'influence réciproque des deux unités connectées.

· Les poids des connexions sont modifiables et c'est cette plasticité qui donne lieu aux facultés d'adaptation et d'apprentissage.

Les dynamiques d'états et de paramètres dépendent fort du modèle de réseau choisi [34].

II.5 L'architecture d'un réseau de neurones :

L'architecture d'un réseau de neurones joue un rôle très important dans son comportement .

Si l'on se réfère aux études biologiques du cerveau on constate que le nombre de connexions est énorme.

D'une manière générale l'architecture des réseaux peut aller d'une connectivité locale [Réseaux à couches] à une connectivité totale [Réseaux entièrement connectés] .

Chapitre 11 : Les réseaux de neurones

II.5.1 Réseaux à couches :

La connectivité des neurones dans les réseaux à couches est locale , ou ils sont reliés qu'a leurs plus proche voisins de la couche précédente et la couche suivante.

La couches d'entrée est une couche passive, ses neurones n'effectuent aucun traitement leur rôle est de recevoir et transmettre les configurations à mémoriser .

Les couches extrêmes correspondent à la couche qui reçoit ses entrées du milieu extérieur, cette couche est appelée la couche de sortie.

Les couches internes sont appelées les couches cachées, leur nombre et variable et dépend de l'application.

Exemple :

Les Entrées

sortie

couche d'entrée couche de sortie

trois couches cachées

Figure II.3 : réseau à couche

Chapitre 11 : Les réseaux de neurones

II.5.2 Réseaux entièrement connectés :

Dans ce type de réseaux la connectivité des neurones est totale où tous les neurones sont reliés les uns aux autres.

Chaque neurone possède deux ensembles de poids, le premier ensemble pour calculer la somme des entrées externes pondérées et le deuxième pour contrôle des interactions entre les neurones de réseaux .

Exemple :

entrées

sortie

Figure II.4 : Réseau totalement connecté

Les flèches sur les deux schémas précédant représentent les poids synaptiques qui relient le neurones entre eux .

Pour une architecture de réseau donné , ces poids synaptiques sont les seuls éléments qui peuvent varier au cour du fonctionnement du réseau .

II.6 Propriétés des réseaux de neurones :

ce qui rend les réseaux de neurone différents des méthodes classiques dans la quête de la robustesse qu'ils sont fondamentalement distingués selon quatre points principaux :

Chapitre 11 : Les réseaux de neurones

II.6.1 Parallélisme :

Le caractère distribué et parallèle et simultané du traitement par le réseaux , offre des avantages de robustesse par rapport à des données incertaines incomplètes, contradictoires, et même par rapport à des défectuosités locales du réseaux .

II.6.2 La généralisation :

L'intérêt des réseaux de neuronaus réside précisément dans leur capacité à la généralisation , c'est-à-dire leur aptitude à bien se comporter sur des vecteurs qu'ils n'ont pas appris .

La capacité de généralisation d'un réseaux de neurones est son aptitude de donner une réponse satisfaisante à une entrée qui ne fait pas partie des exemples à partir des quels il a appris.

II.6.3 Capacité d'adaptation :

C'est la capacité d'apprentissage de plus elle se manifeste dans certains réseaux par leur capacité d'auto - organisation qui assure leur stabilité.

II.6.4 La résistance aux pannes :

Les données bruitées ou les pannes locales dans un certain nombre des éléments du réseaux de neurones n'affectent pas ses fonctionnalités .

Cette propriété résulte essentiellement du fonctionnement collectif simultané des neurones qui le composent.

II.6.5 L'Apprentissage :

En effet , dans les années 60 , on ne savait pas réaliser correctement un apprentissage sur un réseau à rebouclages ou sur un réseau à plusieurs couches .

Cela mit en sommeil les recherches sur les réseaux neuronaux pendent plusieurs années .

Ce n'est qu'au début des années 80 que de nouveaux travaux ont conduit à des méthodes d'apprentissages autorisant l'utilisation de réseaux neuronaux complexes .

Chapitre 11 : Les réseaux de neurones

Comme l'information que peut acquérir un réseau de neurones est représentée dans les poids

des connexions entre les neurones, l'apprentissage consiste donc à ajusté ces poids de telle

manière que le réseau présente certains comportement désirées .[38]

L'apprentissage dans un réseau neuronal est donc tout à fait différent de l'apprentissage dans un système à base de règles ou il signifie dans ce cas « engranger de nouvelles règles »

Dans une base de données .

Dans un réseau de neurones , au contraire apprendre signifie modifié les paramètres physiques internes du systèmes (les poids) .

? L'apprentissage comprend quatre étapes de calcules :

a- Initialisait les poids synaptiques du réseau ( pratiquement leurs valeurs sont aléatoires et très petites ) .

b- présentation de l'ensemble de données d'entrées .

c- calcul de l'erreur .

d- calcul du vecteur d'ajustement .

Les étapes b . c . d sont répétées jusqu'à la fin de la procédure d'apprentissage

( satisfaction du critère d'arrêt ) .

Une fois l'entraînement est terminé , le réseau devient opérationnel .

En général , on peut distinguer trois types d'apprentissage .

II.6.5.1 Apprentissage non supervisé :

Dans ce mode d'apprentissage , les poids synaptiques sont modifiés en fonction d'un critère [31] .

L'apprentissage non supervisé consiste a découper l'ensemble des vecteurs d'entrées en classes d'équivalences , sans qu'il soit nécessaire de donner au réseau neuronal les noms des classes pour chaque exemple .

Chapitre 11 : Les réseaux de neurones

La séparation en classes d'équivalence s'opère par mesure de ressemblance entre les vecteurs proposés .

La contrainte que l'on doit imposer au réseau neuronal est le nombre de classes d'équivalence .

Pendant la phase d'apprentissage , le réseau neuronal construit une topologie de l'espace des vecteurs d'entrées .

Dans ce cas , la connaissance à priori de sortie désirée n'est pas nécessaires et la procédure d'apprentissage est basée uniquement sur les valeurs d'entrées.

Le réseau s'auto- organise de manière à optimiser une certaine fonction de coût , sans qu'on lui présente la réponse désirée .

Les modèles de kohonen et de Grpossberg sont deux exemples parfait qui utilisent l'apprentissage non supervisé .

L'intérêt de cette approche est que l'on a pas besoin de disposé d'exemple de problèmes résolus ,c'est a dire , de vecteur de sortie correspondant à chaque vecteur d'entrée utilisée pour l'apprentissage .

II.6.5.2 Apprentissage supervisé :

Ce mode dispose d'un comportement de référence , vers lequel il tente de faire converger le réseau .

Durant une première phase , appelée phase d'apprentissage , on présente au réseau les valeurs d'entrée et on calcule sa sortie actuelle correspondante, ensuite les poids sont ajustés de façon à réduire l'écart entre la réponse désirée et celle du réseau en utilisant l'erreur de sortie qui est la différence entre la réponse du réseau et celle désirée.

Pendant une seconde phase , appelée phase de test , on présente au réseau de nouveaux vecteurs qui n'ont pas servi à l'apprentissage et l'on observe ses réponses .

Les performances du réseau sont alors évaluées par le pourcentage d'erreurs .

II.6.5.3 Apprentissage par renforcement :

Ce mode suppose qu'un comportement de référence n'est pas disponible , mais en revanche le système à entraîner est informé d'une manière indirecte sur l'effet de son action choisie .

Chapitre 11 : Les réseaux de neurones

Cette action est renforcée si elle conduit à une amélioration des performances du système entraîné [32] .

La différence entre ces trois types d'apprentissage réside dans le critère de performances implicite on explicite .

II.6.6 La non-linéarité :

Cette non-linéarité , est parfois récurrente , autorise les réseaux neuraunos à modélisé des associations très complexes .

La non-linéaruté de type seuil est génératrice de capacité de généralisation : cela est simple à concevoir , puisque la sortie seuillée d'un neurone ne peu prendre que deux valeurs alors que cette même sortie non seuillée est multivaluée .

II.6.7 Certains réseau de neurones sont des approximateurs parcimonieux :

Le plus souvent , le problème qui se pose à l'ingénieur est le suivant : il dispose d'un ensembles de variables mesurées (x) , et d'un ensembles de mesures (z) d'une grandeur relative à un processus de nature quelconque ( physique , chimique , économique ....) .

Il suppose qu'il existe une relation entre le vecteur des variables (x) et la grandeur (z) , et il

Cherche à déterminé une forme mathématique de cette relation , valable dans le domaine ou les mesures ont été effectuées .

Sachant que toutes les variables qui déterminent (z) ne sont pas forcément mesurées .

En d'autre termes , l'ingénieur cherche à établir un « model » du processus qu'il étudie , à partir des mesures dont il dispose , et d'elles seules : on dit qu'il effectue une modélisation

« boite noire » .

Exemple :[36]

Considérons le model neuronal représenté sur la figure , dont l'équation est :

G(x) = 0.5-2.th(10.x+5)+3.th(x+0.25)-2.th(3.x-0.25) . (1)

-2 3 -2 0.5

10 5 1 0.25 3 -0.25

x 1

Figure II.5 : model neuronal représentant l'équation (1)

Chapitre 11 : Les réseaux de neurones

II.7 Equations d'un réseau :

soit un réseau MLP " maltilayered perception ou perception à multiple couche " non récurrent (statique ) à entrées (Rⁿ) et m sortie (Rⁿ) .

Supposons que le réseau est composé de (L) couches :

(L -1) couches cachées plus une couche de sortie .

Les sorties de neurones de la couche K sont données par l'expression suivante :

Y^K_j (t) = f [S^K_j (L) ] ( II . 2 )

Telle que :

j = 1,........,n_K .

K= 1 , 2 ,....., L .

j = l'indice de ces couches .

n_K = le nombre de neurones correspondant .

f = est la fonction d'activation choisie .

Ainsi [35] :

S_j^K (t) = ?_j=0^NK-1 Wij^K y_j^K-1 (t) ( II . 3 )

Telle que :

y₀^K (t) = 1 , K = 1 , 2 , ....., L .

y_j⁰ (t) = x_j (t) , j = 1 , 2 , ......, n . sont des éléments du vecteur d'entrée .

y_j^L (t) = y_j(t) , j = 1 , 2 ,.......,m . sont des éléments du vecteur de sortie .

( y_j^L) : est la sortie du neurone j de la couches K et W_j0 est son seuil interne .

( W_ij^K) : est le poids de la connexion du neurone j de la couche K et le neurone i de la couche (K-1) .

Chapitre 11 : Les réseaux de neurones

II.8 Notion des minimums :

II.8.1 Minimum local :

si le système reste bloqué et la convergence n'est pas complète on dit qu'il y a un minimum local .

II.8.2 Minimum global :

en ce point le système est stable et la convergence est complète et la réponse actuelle coïncide avec celle de la réponse désirée .

II.9 Le principe de minimisation :

Les règles d'apprentissages dont le rôle est de trouver le plus rapidement possible le minimum d'une fonction d'énergie sont des adaptation aux réseaux neuronaux des techniques classiques de recherche de minimum , nous citeront les grandes lignes des principes les plus importants vis-à-vis des applications .

II.9.1 La décente de gradient :

Ce principe est très simple : si l'on cherche un endroit situé plus bas que les autres endroits c'est- à - dire un minimum , alors déplaçons nous vert le bas en suivant les lignes de plus grandes pente .

La pente étant mathématiquement calculé par le gradient , on appel une telle méthode une descente de gradient .

Fonction d'énergie de

L'erreur

Etat initial état final obtenu par poids synaptiques

Tiré au hasard par descente du gradient

Figure II.6 : La décente de gradient

Chapitre 11 : Les réseaux de neurones

mais ce n'est que dans les années 80 , que l'adaptation aux réseaux neuronaux a pus être réalisé .

En effet la notion de gradient , et donc de dérivé , pour réalisé cette adaptation , on doit utilisé des fonctions dérivables telle que ( fonction sigmoïde , tangente hyperbolique...) :

L'erreur est calculé en sortie du réseau neuronal , et les contributions à cette erreur de chaque poids synaptique de chaque couche sont calculées en utilisant des lois classiques de compositions des dérivés partielles , par ce que les contributions précitées sont évaluées en partant de la sortie ( dernière couche ) vert l'entrée du réseau ( premier couche ) .

On appel cette règle d'apprentissage rétro - propagation du gradient

( en anglais Bac propagation ) .

En effet , le minimum recherché peut très bien être entouré de pics qui interdiront le passage à une descente de gradient .

Deux adaptation de cette heuristiques sont alors possible pour amélioré les performances de la descente de gradient [39].

II.9.1.1 La descente de gradient avec inertie :

Cette méthode consiste à poussé encore un peu plus loin la métaphore mécanique du processus de descente , et cela par l'inertie qui permet de remonter pour sortir d'un minimum local , mais elle induit aussi une oscillation amortie qui ralenti la stabilisation sur le minimum absolu .

Fonction d'énergie

de l'erreur

Etat initial minimum local minimum absolu poids synaptiques

tiré au hasard parasite recherché

Figure II.7 : La descente de gradient avec inertie

II.9.1.2 La descente stochastique :

Cette méthode à été proposé par Windrow et Hoff dans les années 60 .

Au lieu de minimisé les l'erreur global due à l'ensemble des vecteurs d'apprentissage , ils ont proposé de minimisé itérativement l'erreur due à chaque exemples d'apprentissage .

Mathématiquement , on cherche à minimiser itérativement chaque terme d'une somme , au lieu de minimiser la somme .

Chapitre 11 : Les réseaux de neurones

II.10 Méthode de rétro - propagation :

La rétro propagation est l'algorithme d'apprentissage supervisé pour ajuster les poids d'un réseau MLP.

Dans cette méthode , de même que l'on est capable de propager un signal provenant des cellules d'entrée vers la couche de sortie . On peut , en suivant le chemin inverse

rétro- propager l'erreur commise en sortie vers les couches cachées, d'ou le nom

rétro - propagation [37] .

II.10.1 Principe de fonctionnement de la méthode :

Le calcul du signal d'erreur nous permet d'ajuster les poids à partir de cette erreur, de telle sorte que sa sortie actuelle coïncide avec la réponse désirée .

La loi d'apprentissage proposée est :

Wij^K (t+1) = Wij^K (t) - ì . ( dj(w) / dWij^K (t) ) + á . ( Wij^K (t) - Wij^K(t-1) ) ( II . 4 )

Où :

0<= á <1 est le moment , et (ì) est le pas d`apprentissage , et (t) est l`indice des itérartions .

Les poids de connexions sont ajustés de sorte que la fonction de cout :

J(w) = ½ . ?ⁿ_i=1( d_i . y_i )²( II . 5 )

Soit minimisée , N: le nombre des exemples d`entrainement .

La derivée de l'erreur par raport à un poids Wij^Kest :

dj(w) / dWij^K (t) = (dj(w) / dy_j^K (t)) . (dy_j^K (t) / dWij^K (t)) ( II . 6 )

et :

(dy_j^K (t) / dWij^K (t)) = (df^K (S_j^K (t)) / dWij^K (t)) = f^K (S_j^K (t)) . (d S_j^K (t) / dWij^K (t)) . ( II . 7 )

et : i=nk-1

(d S_j^K (t) / dWij^K (t)) = d [? Wij^K . y_j^K-1 (t)] / dWij^K (t) = y_j^K-1 (t) . ( II . 8 )

i=1

D`où :

(dy_j^K (t) / dWij^K (t)) = f^K (S_j^K (t)) . y_j^K-1 (t) . ( II . 9 )

Donc :

dj(w) / dWij^K (t) = (dj(w) / dy_j^K (t)) . f^K (S_j^K (t)) . y_j^K-1 (t) . ( II . 10 )

En prenant :

S_j^K (t) = -f^K (S_j^K (t)) . (dj(w) / dy_j^K (t)) . ( II . 11 )

D`où :

dj(w) / dWij^K (t) = - S_j^K (t) . y_j^K-1 (t) . ( II . 12 )

On remplace (dj(w) / dWij^K (t)) dans ( II . 4 ) on trouve :

Wij^K (t+1) = Wij^K (t) + ì . S_j^K (t) . y_j^K-1 (t) + á . ( Wij^K (t) - Wij^K(t-1) ) ( II . 13 )

Chapitre 11 : Les réseaux de neurones

Bien que cet algorithme a donné de bons résultats dans plusieurs applications les réseau multicouches avec rétro - propagation présente certaines limitations [31] [33].

1- Le manque de moyens systématiques pour déterminer :

a- Le nombre de neurones dans les couches cachées qui est le nombre des variables libres c'est à dire les poids du réseau : ce nombre est particulièrement important pars qu'il détermine la capacité de calcul de réseau.

b- Le nombre de couches cachées.

c- Le pas d'apprentissage.

d- Le moment.

2- Les minima locaux :

ce type de problème est particulièrement difficile à éviter, notamment parce que la forme de la surface de l'erreur n'est pas généralement connue.

3- Convergence lente et incertaine.

Chapitre 11 : Les réseaux de neurones

Conclusion :

Dans ce chapitre , nous avons exposé les éléments essentiels qui permettent de comprendre pourquoi , et dans quels cas , il est avantageux de mettre en oeuvre des réseaux de neurones .

Avant d'aller plus loin , il est sans doute utile de rappeler les points fondamentaux qu'il convient de toujours garder à l'esprit lorsque on cherche à mettre en oeuvre des réseaux de neurones :

? Les réseaux de neurones sont utilisés comme outils statistiques , qui permettent d'ajuster des fonctions non linéaires très générales à des ensembles de points ,l'utilisation de réseaux de neurones nécessite que l'on dispose de données suffisamment nombreuses

et représentative .

? Les réseaux de neurones à apprentissage supervisé sont des approximateurs

parcimonieux , qui permettent de modéliser des phénomènes .

? Les réseaux de neurones à apprentissage non supervisé peuvent apporter des éléments précieux pour la détermination d'une bonne représentation des formes .

? Il est toujours souhaitable , et souvent possible , d'utiliser , pour la conception du réseau , les connaissances mathématiques dont on dispose sur le phénomène à modéliser ; les réseaux de neurones ne sont pas nécessairement des « boites noires » .

L'entraînement et la conception d'un réseau de neurones demeure aujourd'hui un art et non une science, à la fois objets d'études et outils applicatifs les réseaux de neurones ont un rôle à jouer dans un nombre rapidement croissant de domaines autant en recherche qu'en industrie .

Ainsi l'association ou l'hybridation des techniques neuronales avec d'autres méthodes et la connaissances disponibles sur le comportement de système à traiter , pourrait améliorer les performances du réseau et permet aussi de réaliser efficacement les tâches désirées .

Parmi ces méthodes on trouve la logique floue , de fait de son caractères approximatif et qualitatif inspires de la pensé humaine .

Chapitre III

Chapitre III : Réseaux neuraux flous

III.1 Introduction :

Dans des systèmes employant une logique de raisonnement , l'apprentissage consiste soit à augmenter la base de connaissance en créent de nouveaux objet correspondant au schémas déjà connus , soit à créer de nouvelles structures de connaissances , ce qui est beaucoup plus difficile .

Il s'agit en effet dans le second cas de généré de nouvelles règles , par exemple , de faire émerger une nouvelle connaissance , c'est a dire d'apprendre effectivement .

Le fonctionnement d'un apprentissage demande essentiellement d'être confronté à des exemples et d'être capable de s'y adapter , et de généraliser la connaissance .

De ce fait , une technique très prometteuse aujourd'hui , il s'agit ( des réseaux de neurones )

Ceux ci correspond en effet parfaitement aux conditions énoncées , ils sont capables de s'adapter à des exemples donner , de les apprendre par coeur , mais aussi de généralisé et de répondre sur des cas non appris .

L'inconvénient de cette technique , est qu'on ne sait pas encore très bien extraire des règles à partir d'un réseau de neurones qui a appris , d'ou l'utilité d'employé ( la logique floue ) en combinaison avec les réseaux de neurones .

La logique floue tel que Zadeh la cocus , est incapable d'apprendre la connaissance , contrairement aux réseaux de neurones , d'un autre point de vue , les réseaux de neurones ont besoin d'un minimum d'information , tandis que la logique floue demande une connaissance détaillé sur le problème à résoudre .

La solution apporté est l'introduction de la notion d'extraction automatique des connaissances sans besoin relatif de l'expert .

Cependant , la conjonction de la méthode d'extraction automatique avec l'expérience humaine permet d'obtenir un FLC de degré d'efficacité et de souplesse de manipulation élevé.

III.2 Extraction automatique des connaissances :

Ces méthodes sont basées sur l'apprentissage pour déduire l'information suffisante pour traiter un problème quelconque dans un environnement complexe .

Les deux approches les plus rencontrées dans la littérature sont :

1- Approche à auto - apprentissage ou directe .

2- Approche connexionniste .

III.2.1 : Approche à auto - apprentissage ou directe :

Les travaux de Mamdani et de Procyk ont conduit au développement du premier contrôleur à auto - apprentissage ( SOC : Self Organizing Controller ) , il possède une structure hiérarchique constituée de deux bases de règles :

La première est d'ordre général , la seconde est construite à partir de méta - règles qui crée et modifie la base de règle générale .

Donc ce contrôleur expose la capacité humaine d'apprentissage et de modification .

Chapitre III : Réseaux neuraux flous

Les règles sont adaptées en cours de fonctionnement et peuvent donc suivre les modifications du processus a contrôler , cette stratégie est utilisée pour l'apprentissage des paramètres d'un FLC par application directe d'une méthode d'optimisation [18] [19] [20] [21] .

La méthode la plus utilisée est celle de descente de gradient .

III.2.2 : Approche connexionniste :

L'approche connexionniste consiste à combiner les deux méthode : La théorie de la logique floue avec celle des réseaux de neurones .

Deux approche pour construire un réseaux neuraux flou [22] [23] .

A : première approche :

Dans cette approche ( structurelle ) on construis un système d'inférence flou sous forme d'un réseau de neurones multicouches dans la quel les poids du réseau correspondent aux paramètres du système flou , exemple : l'écart type des fonctions d'appartenances .

B : deuxième approche :

Dans cette approche ( fonctionnelle ) le réseau neuraux flou peut incorporer le processus de raisonnement approximatif .

III.2.2.1: Approche structurelle :

L'architecture du réseau dépend du type de règles et des méthodes d'inférence et de defuzzification choisies .

Les formes d'architecture les plus rencontrées dans la littérature sont :

A- L'architecture basée sur le raisonnement approximatif de Takagi , Sugeno représentée par la structure ANFIS (Adaptive Neural Fuzzy based Inference Systeme ) :

Cette architecture a été proposée par Takagi , Sugeno et Kang [24] .

Un exemple est donné pour illustré cette idée :

Exemple :

Soit deux entrées x1 , x2 et une sortie y :

Le model de Sugeno d'ordre un à deux règles est donné par :

R : Si (x1 est A1 ) et ( x2 est B1 ) Alors (F1 = p1.x1+q1.x2+r1) .

R : Si (x1 est A2 ) et ( x2 est B2 ) Alors (F2 = p2.x1+q2.x2+r2) .

Chapitre III : Réseaux neuraux flous

L'ANFIS équivalent est le suivant :

X1 X2

A1

W1 W1

X1

W1.F1

N

W2.F2

W2 W2

X1 X2

Couche 1 couche 2 couche 3 couche 4 couche 5

Figure III.1 : Structure ANFIS de deux règles

Couche 1 :

Chaque neurones réalise l'opération de fuzzification , la sortie est donnée par :

O1.1 = ì_A1 (x₁)

O1.2 = ì_A1 (x₁)

O1.3 = ì_A1 (x₁)

O1.4 = ì_A1 (x₁)

Couche 2 :

Couche d'inférence : chaque neurone calcul le degré d'activation de chaque règle , appliquant une conjonction MIN ou PROD .

O2.i = wi = ì_Ai (x₁) . ì_Bi (x₂) . i = 1 , 2 . ( III . 1 )

Couche3 :

couche de normalisation , la sortie de chaque neurone est donnée par :

O3i = w i = wi / (w1 + w2 ) . i = 1 , 2 . ( III . 2 )

Couche4 :

Dans cette couche la sortie est

O1,i = O3i. Fi = O3i . ( pi .xi + qi.x2 + ri ) i = 1 , 2 . ( III . 3 )

Ou {pi , qi , ri }sont les paramètres de Takagi , Sugeno .

Chapitre III : Réseaux neuraux flous

Couche 5 :

Couche de defuzzification , la méthode la plus utilisée à cette situation est celle des moyennes pondérées ( weited average defuzzification ) .

La sortie est :

F = ( w1.F1 + w2 . F2 ) / (w1+w2) ( III . 4 )

Les poids ou les paramètres des premises sont optimisés par l'algorithme de la

Rétro - propagation basée sur la descente du gradient .

A- L'architecture basée sur le raisonnement de Mamdani représentée par la structure FLP

( fuzzy logic processor ) [25] .

La structure de cette architecture est la suivante :

X2

Couche 1 couche 2 couche3 couche 4 couche 5

Figure III.2 : structure d'un FLP à deux entrées et une sortie

Couche 1 : Couche d'entrée .

Couche 2 : Couche de fuzzification .

Couche 3 : Couche d'inférence : généralement on utilises l'opérateur de conjonction MIN

ou bien le produit pour faciliter les calcules .

Couche 4 : On appliques la disjonction (MAX) .

Couche 5 : Couche de défuzzification : la méthode la plus utilisée est celle du centre de

gravité .

Remarque :

l'apprentissage s'effectue par la méthode de la rétro - propagation [26] [27] .

Chapitre III : Réseaux neuraux flous

III.2.2.2: Approche fonctionnelle :

Cette approche représente le réseau RBF flou , la structure d'un réseau RBF flou pour un système à deux entrées x1 , x2 et une sortie F est donnée par :

RBF

Fonction

gaussienne

W1 . F1

x1 RBF

Fonction

gaussienne

W2 . F2

n n

F=?(Fi .wi) / ?wi

RBF W3 . F3 i=1 i=1

Fonction

gaussienne

W4 . F4

x2 RBF

Fonction

gaussienne

Figure III.3 : structure d'un RBF flou

La fonction d'activation de chaque neurone caché est calculé par :

wi = fi (xi - ci ² / äi² ) i = 1 , 2 ,.., n . ( III . 5 )

i : Représente le nombre de RBF ou de règles flous .

X : Le vecteur d'entré .

fi : Peut être un fonction gaussienne ou sigmoïde .

Fi = ai . x + bi i = 1 , 2 ,.., n . ( III . 6 )

Ai : Représente les vecteurs de paramètres .

Bi : Sont des constante scalaires .

On remarque que dans l'expression (III.6) le RBF correspond à un model de Takagi Sugeno d'ordre un [23] .

La méthode de fuzzification adaptée à cette architecture est celle des moyennes pondérées , et la procédure d'apprentissage utilisée peut être celle utilisée dans un réseau RBF traditionnel [23] [28-29] .

Un troisième type d'association correspond à l'utilisation série ou parallèle du réseau de neurone avec le système flou [22] .

Chapitre III : Réseaux neuraux flous

III.2.3 Association série :

Un réseau de neurones effectue une tache de classification ou de reconnaissance qui est suivi par un système d'aide à la décision floue , ou bien , les variables d'entrées d'un système flou sont déterminées à partir de la sortie d'un réseau de neurones lorsqu'elles ne sont pas mesurables directement .

x2 y1

x3 y2 F1

Figure III.4 : association en série

III.2.4 association en parallèle :

par exemple , dans le but d'ajuster les sorties d'un système de commande floue à de nouvelle connaissances obtenus , les variables d'entrées étant celles du système flou et des nouvelles obtenues .

les variables de sortie étant les erreurs sur les variables de sortie du système flou .

Chapitre III : Réseaux neuraux flous

Z1

X3 Z2

Dz1

Dz2

Figure III.5 : association en parallèle .

Chapitre III : Réseaux neuraux flous

Conclusion :

Dans les approches situées précédemment , l'objectif est de développer des systèmes hybrides qui réunissent les capacités d'apprentissage des réseaux de neurones avec la théorie très puissante de la logique floue qui permet d'obtenir des conclusions et de générer des réponses à partir des informations vagues ambiguës , imprécises et incomplètes , l'a ou le modèle mathématique du système est inconnu ou difficile à extraire .

Une combinaison de ces deux approche permet d'exploiter les caractéristiques de chacune pour accomplir une tache performante et efficace dans la commande des systèmes industriels complexes .

En conséquence nous obtiendrons un système qui peut prendre en charge certaines taches avec la même habilitée que possède l'être humain .

Chapitre IV

Chapitre IV : Méthodologie de conception et application

IV.1 Introduction :

L'un des objectifs de l'intelligence artificielle est précisément de réaliser des systèmes dotés d'autonomie , capables de prendre des décisions dans des cas connus , mais aussi de généraliser leur savoir et de s'adapter à l'inconnus .

Il s'agis bien évidemment aujourd'hui encore d'un voeu pieux , mais c'est vers cet objectif

( contrôle des systèmes complexes) que tendent les travaux de cette science .

Le contrôle des structures ou des systèmes complexes , fortement non linéaires ou difficiles à modéliser , présente une tache très délicate ; De plus , les performances désirées deviennent de plus en plus sévères , c'est l'une des raisons pour les quelles apparaissent de nouvelles méthodes de contrôle plus sophistiquées telle que la logique floue , les réseaux de neurones et les algorithmes génétiques .

La puissance de chaque méthode réside dans leurs capacités de gérer l'imprécision et l'incertitude .

La logique floue telle que Zadeh la conçue est incapable d'apprendre la connaissance , contrairement aux réseaux de neurones et aux algorithmes génétiques , d'un autre point de vue les réseaux de neurones ont besoin d'un minimum d'informations , tandis que la logique floue demande une connaissance détaillée sur le problème à résoudre .

Dans cette hybridation proposé , le type de processus d'inférence utilisé est celui de Takagi Sugeno d'ordre un .

L'apprentissage permet d'ajuster les poids du réseaux , elle est effectuée par la méthode de la rétro - propagation basée sur la descente du gradient .

Cette méthode souffre de problème de convergence , ce qui consiste une contrainte dégradant le degré de l'efficacité des contrôleurs neuraux - flous .

IV.2 L'architecture du système de contrôle :

Le but de cette architecture est de concevoir un contrôleur neuraux - flou afin d'éviter le besoin d'un expert , nous pouvons schématiser en blocs les modules du contrôleur avec le modèle de simulation illustrée par la figure (IV.1)

Base de connaissance

floues

action de état

e réseau commande système du système

Contrôleur (le modèle de

Yr simulation)

Y_d

Figure IV.1 : Schéma en blocs du système de contrôle

Chapitre IV : Méthodologie de conception et application

La figure (IV.1) illustre la structure du système de commande qui contient deux blocs .

- Un bloc structurel qui représente le réseau contrôleur .

- Le système à commander (procédé ) .

L'interaction entre ces trois blocs se résume comme suit :

Au début de la simulation nous injectons la base de connaissances floues ( coefficient de Takagi Sugeno ) sur le réseau contrôleur , on donnes en suite une entrée ( l'angle et la vitesse angulaire en cas du pendule inversé ) et une sortie ( la force) initiales .

Après les calculs du réseau ( fuzzification , inférence , défuzzification ) l'action de commande sera appliqué à l'entrée du procédé , ce qui permet de connaître l'état du système pour calculer l'erreur qui présente l'entrée du réseau controleur .

IV.3 Méthodologie de conception :

Dans l'évolution du contrôle flou , deux type de systèmes flous ont été développées , notamment , le système flou de Mamdani ou système flou standard , basé sur des règles purement flous , et le système flou de Takagi Sugéno (TS) dont les règles sont semis floues .

La règle de Takagi Sugeno présente à la différence de celle de Mamdani une conséquence qui n'est pas un ensemble flou mais une fonction .

Soit : SI ( x1 est A1 ) ET ( x2 est A2 ) ET ..... ALORS ( y = B(x) ) .

Où : B(x) est une fonction analytique des entrées x .

Dans notre cas on a deux entrées (l'angle (è)et la vitesse angulaire(è^.)) et une sortie (Force) , donc :

y = F = a1 . è + a2 . è^. + r1.

Où a1 et a2 et r représentent les coefficients de (TS) .

Généralement Fi (-) possède une forme polynomiale de x1 , x2 , .... , xm .

Fi (x1,x2,...,xm) = a0i + a1i . x1+..... +ami . xm .

Cette forme est appelée le modèle de Sugeno d'ordre un , la méthode de défuzzification la pus utilisée à cette forme de règles est celle des moyennes pondérés donnée par :

M M

y = ? ì_i.Fi (x1,x2,...,xm) / ? ì_{i .}

i=1 i=1

Où :

M : le nombre de règles .

ì_i : le degré d'activation de la i^eme règle .

ì_i = Min ( ì_i(x1) , ì_i(x2), ..... ì_i (xm) ).

Chapitre IV : Méthodologie de conception et application

Et pour simplifier les calcules nous pouvons prendre :

ì_i = ì_i(x1) . ì_i(x2) ..... ì_i (xm) .

Fi (x1,x2,...,xm) = ki . f(x1,x2,...,xm) .

Où : ki sont les centres de gravité des ensembles flous de sortie associés à chaque règle .

Et f(x1,x2,...,xm) = a0 + ai.x1 +....+ am.xm .

Donc :

M M

y = ( ? ì_{i .}ki ) . f(x1,x2,...,xm) / ? ì_{i .}

i=1 i=1

M M

y = ( ? ì_{i .}ki ) . ( a0 + a1.x1 +....+ am.xm ) / ? ì_{i .}

i=1 i=1

Le système flou de (TS) se distingue de celui de Mamdani par les avantages suivants :

1- Une règle du type TS convoi plus d'information , et de ce fait moins de règles sont nécessaires pour réaliser une tache donnée .

2- Du fait de la forme analytique de la conséquence d'une règle de TS , il est plus facile d'incorporer une information mathématique .

3- Toujours pour la même raison précédente , les systèmes flous de TS se présentent mieux à l'analyse quantitative par les outils de contrôle classique , d'un autre coté , il est plus difficile d'incorporer l'information qualitative dans les conséquences des règles de (TS) .

IV.4 Structure du réseau contrôleur :

La structure du réseau neuraux flous adaptée à cette forme de règle est celle de Hamaifar [89] il s'agit du contrôleur de type 333 .

ì₁₁

x1 ì₁₂ Z

ì₁₃

P Y

N couche de defuzzification

ì₂₁

x2 ì₂₂

couche d'entrée

ì₂₃ P

couche de fuzzification

couche d'inférence

Figure IV.2 : Structure du réseau contrôleur

Chapitre IV : Méthodologie de conception et application

La figure précédente présente un contrôleur neuraux - flou à deux entrées x1, x2 , chaque entrées à trois sous ensembles flous ( négative , zéro , positive ) , ce qui forme 09 règles .

Dans notre cas , la sortie dépend des entrées , donc il faut avoir une relation entre la sortie et l'entrée , donc le raisonnement approximatif de Surgeon ne doit pas être d'ordre zéro .

Cette structure est composé comme suit :

1- couche d'entrée :

Cette couche réalise le transfert direct des signaux d'entrées .

2- Couche de fuzzification :

Dans cette couche on calcule le degré d'appartenance de chaque entrée .

Exemple : N

ì_x

Z

0.6

N Z P

0.8 x

0.6

0.8

Mais dans notre cas la fonction d'activation associée à chaque neurone n'est pas triangulaire car il n'existe pas de fonction d'activation triangulaire , donc , on utilises la fonction d'activation gaussienne car elle est la plus proche à la fonction triangulaire ou trapézoïdal .

La sortie de chaque neurone est :

( x i - c / ä ) ²

Si = e

Où : (xi) est l'entrée du neurone , (c) est le centre de la fonction gaussienne et (ä) sont écart type .

Les poids entre la couche d'entrée et celle de fuzzification représentent les écart types associés à chaque variable linguistique .

3- Couche d'inférence ou de base de règle :

Chaque neurone calcule le degré d'activation de chaque règle utilisant l'opérateur de conjonction MIN .

La sortie d'un neurone est :

Si = MIN ( ì_i(x1) . ì_i(x2) ) .

Les poids entre la couche d'inférence et celle de fuzzification sont fixées à 1 .

Chapitre IV : Méthodologie de conception et application

4- Couche de defuzzification :

Cette couche calcule la sortie numérique (y) par la méthode des moyennes pondérées comme nous l'avons cité précédemment .

Les poids entre cette couche et celle de base de règle représentent les conséquences des règles qui sont les centres des repartions flous de sortie de chaque règle .

Note :

En ce qui concerne les coefficients de Takagi Sugeno nous avons trouvé l'idée suivante :

A partir du tableau des règles ;

Si la force suit l'angle , alors (a1) reçoit une valeur numérique proche de (1) et (a2) reçoit

une valeur numérique proche de (0) .

Si la force suit la vitesse angulaire , alors (a2) reçoit une valeur numérique proche de (1 )et (a1) reçoit une valeur numérique proche de (0) .

Si la force suit la vitesse angulaire et l'angle ensemble , alors (a1) et (a2) reçoivent des valeurs numérique proche de (1) .

Très important :

Nous tenons à préciser un point de vocabulaire , un algorithme de descente de gradient ne peut pas être considéré comme un algorithme d'apprentissage comme on l'entend très souvent dire , mais en effet rien ne permet de démontrer qu'en réalisant la descente de gradient le réseau neuronal « apprend » à ce comporter correctement .

La descente de gradient comme nous l'avons proposé ne permet pas en pratique d'obtenir de bons résultats , en effet le problème de cet algorithme de descente est qu'il s'arrête dans le premier minimum local rencontré .

Remarque :

Le terme de connexion doit être pris dans un sens métaphorique , dans la très grande majorité

Des applications les opérations effectuer par un réseau de neurones sont programmé

« n'importe quel langage de programmation convient » .

Le réseau de neurones n'est donc pas en général un objet physique tel qu'un circuit électronique , et les « connexions » n'ont pas de réalité matérielle .

IV.5 SIMULATION ET FIGURES

IV.5.1 Commande du pendule inversé :

De nombreuse méthode de commande ont été testé sur le simple pendule inversé .

En effet il est possible de trouver dans la littérature des travaux concernant la commande d'un simple pendule inversé par des lois :

- Basées sur un problème de contrôle d'énergie [Astroim et Futurai 1996 ] associées à une séquence de balancement qui permet de relever le pendule de sa position d'équilibre stable

[Wei et Al 1995 ] , [Vermeiren 1998 ] .

- Basées sur la méthode des moments [ Jacobi 1995]

- Basées sur la commande non linéaire [ Wei et Al 1995].

- Basées sur la commande floue , soit en utilisant la notion d'ensembles flous et un régulateur du type Mamdani [ YAMAKAWA 1989][Kandel et Al 1993 ]

Chapitre IV : Méthodologie de conception et application

[ Lo et Kuo 1998] .

Soit par la commande adaptative floue [Wang et Al 1996] ou encore en utilisant les

Modeles de type Takagi Sugeno [ Vermeiren 1998 ] .

ce dernier est le modèle utilisé dans notre application .

La structure globale de système de contrôle est le suivant :

début

Base de connaissance flous

( coefficients de TS )

état initial du système ( è , è^., F)

Données provenant du procédé

réseau contrôleur

- fuzzification

- base de règle flou (inférence )

- défuzzification

Modèle

simulation

Adaptation

Des écarts

Types (poids)

l'envoi du signal

de contrôle

fin du temps

de simulation

teste d'erreur

E < E_d

FIN

Figure IV.3 : Le mécanisme de contrôle de la structure de commande

Chapitre IV : Méthodologie de conception et application

Le pendule inversé est un système instable non linaire et multivariable .

Le processus consiste en un pendule articulé placé sur un chariot mobile comme l'illustre la figure :

2.L , m_p

F m_c

Temps (s)

Figure IV.4 : structure du pendule inversé

Le pendule et le chariot ne peuvent se mouvoir que dans un plan vertical .

La commande de ce système doit maintenir le système (è , è^.) à l'interieur dune certaine zone (proche de zéro ) par un choix judicieux de force horizontales (F) à appliquer au chariot en partant d'une condition initial comprise entre (-180⁰,+180⁰ ) .

Les frottements situés au niveau de l'axe de rotation sont négligés , les frottements dus au déplacement du chariot sont aussi négligés .

L'état du système est déterminé par 02 variables , (è , è^.) désignant respectivement la position angulaire du pendule inversé et sa vitesse angulaire .

Les dynamiques du système sont caractérisées par :

xÿ₁ = x₂

xÿ₂ = g.sin (x₁) + cos(x₁).(- F- m _p.L. (x₂)².sin(x₁)) / (m_c+ m_p) L 4/3 - (m_p.cos²(x₁) / ( m_c+ m_p))

Où :

g : accélération gravitationnelle .

m_c : masse du chariot .

m_p : masse du pendule .

L : demi longueur du segment (pendule ) .

x₁ : l'angle du pendule par rapport à l'axe vertical .

x₂ : la vitesse angulaire du pendule .

Chapitre IV : Méthodologie de conception et application

Pour la simulation on a pris les conditions initiales suivantes :

è =15 (deg) , è^.= 0 (deg/s) , F = 12 (N) .

Avec la contrainte :

F <= 25 N .

Et les valeurs numériques utilisées sont :

m_c = 1 kg , m_p = 0.1kg , L = 0.5m , g = 9.8m/s²

La création des règles représentait un grand obstacle , et pour le surmonter nous nous sommes basés sur la mécanique , pour illustrer cette idée nous donnons un exemple :

exemple :

SI (è est positive) ET (è^.est zéro) ALORS (F est positive) .

La force F doit être positive pour surmonter le pendule et le rendre à sa position vertical .

- è + è

- è^.+ è^.

-F

c'est de cette façons que nous avons créé les 09 règles d'inférence suivante :

è^. è	N	Z	P
N	NG	NM	ZN
Z	NP	Z	PP
P	ZP	PM	PG

Tab.5 : base des règles

Chapitre IV : Méthodologie de conception et application

La figure (IV.6) montre la variation de l'angle et de la vitesse angulaire et la forme de la commande sera représentée par la figure (IV.7) .

Figure IV.6 :variation de l'angle et de la vitesse angulaire .

Figure IV.7 : Forme de la commande

Chapitre IV : Méthodologie de conception et application

Figure IV.8 : Plan de phase

La figure (IV.8) montre comment la trajectoire s'approche à l'équilibre (0⁰, 0⁰/s) à partir des conditions initiales (15⁰,0⁰/s) .

On remarque d'après les figures précédentes que le contrôleur arrive à stabilisé le pendule autour de la position d'équilibre pendant un temps inférieur à 2.5s .

IV.5.1.1 Test de la robustesse

Pour tester la robustesse de notre contrôleur FLC (333) on doit s'écarter des conditions normales d'utilisation et voir si son aptitude réagi bien .

Pour cela nous avons testé notre contrôleur pour plusieurs conditions initiales :

La premier condition est la suivante :

{ ( è , è^., F) } = { ( 10⁰, 0⁰/s , 8 N ) } .

Figure IV.9 : variation de l'angle et de la vitesse angulaire .

Chapitre IV : Méthodologie de conception et application

Figure IV.10 : Forme de la force .

Figure IV.11 : Plan de phase .

Et pour les conditions initiales suivantes :

{ ( 12⁰, 0⁰/s , 10 N ) , ( 20⁰, 0⁰/s , 16 N ) , ( 25⁰, 0⁰/s , 20 N ) , ( 30⁰, 0⁰/s , 25 N ) } .

Les figures (IV.12) , (IV.13) , (IV.14) , (IV.15) ,montrent la robustesse de notre contrôleur .

Remarque :

Si l'angle augmente on doit augmenté la force pour pouvoir soulevé la tige ( le pendule) .

Chapitre IV : Méthodologie de conception et application

Figure IV.12 : variations des angles .

Figure IV.13 : variations des vitesses angulaires .

Figure IV.14 : Formes des forces .

Chapitre IV : Méthodologie de conception et application

Figure IV.15 : le plan de phase .

Et enfin pour les conditions initiales suivantes :

{ ( 10⁰, -5⁰/s , 7 N ) , ( 20⁰, -10⁰/s , 14 N ) , ( 25⁰, -15⁰/s , 17 N ) , ( -10⁰, 5⁰/s , -7 N )

( -15⁰, 10⁰/s , -8 N ) } .

Figure IV.16 : variations des angles .

Chapitre IV : Méthodologie de conception et application

Figure IV.17 : variations des vitesse angulaires .

Figure IV.18 : Formes des forces .

Figure IV.19 : le plan de phase

Chapitre IV : Méthodologie de conception et application

Pour mieux testé notre contrôleur , on fait des teste sur le changement de la longueur de la tige ( 0.5 , 0.7 , 0.9 et 1.1m ) avec les conditions initiales suivantes ( 20⁰, 0⁰/s , 15 N ) .

Figure IV.20 : variations des angles .

Figure IV.21 : variations des vitesse angulaires .

Figure IV.22 : Formes des forces .

Chapitre IV : Méthodologie de conception et application

Figure IV.23 : le plan de phase

Pour mieux le testé encore , on fait des teste sur le changement du poids de la tige :

( 0.1 , 0.4 , 0.8 , 1.2 et 1.6 kg ) avec les conditions initiales suivantes :

( 20⁰, 0⁰/s , 15 N )

Figure IV.24 : variations des angles .

Chapitre IV : Méthodologie de conception et application

Figure IV.25 : variations des vitesses angulaires .

Figure IV.26 : Formes des forces .

Figure IV.27 : plan de phase .

Chapitre IV : Méthodologie de conception et application

IV.5.1.2 CONCLUSION

Le contrôleur proposé FLC (333) appliqué pour commandé le système de pendule inversé a prouvé son efficacité de ramener le pendule à sa position d'équilibre (vertical) correspondante à un angle et une vitesse angulaire nulles et sans oscillations.

La robustesse a été prouvé pour les différentes conditions initiales et les différentes valeurs du poids et de la longueur du pendule .

On tien à cité que les trois grands obstacles rencontré dans cette thèse sont :

1- trouvé les valeurs des écarts types des fonctions d'appartenances .

2- créé le tableau de base de règles .

3- trouvé les coefficients de Takagi - Sugeno .

Conclusion générale

L'objectif fixé par notre étude a été atteint par la conception d'un contrôleur (neuraux flou ) qui permet de stabilisé le pendule inversé dans sa position vertical .

Cette nouvelle méthodologie est basée sur la notion d'extraction automatique des connaissances nécessaires au développement d'un système de commande à raisonnement approximatif .

Le réseau contrôleur est un réseau de neurones multicouches ou chaque couche a le fonctionnement d'une étape de la logique floue .

Ce contrôleur utilise le domaine physique des variations des variables d'entrées et de la sortie ( sans normalisation ) .

La robustesse du contrôleur est justifiée par sa capacité de bien réagir vis à vis aux changement des paramètres internes ( angle et vitesse angulaire du pendule inversé )

Caractérisant le procédé à commandé , ainsi qu'au changement de l'environnement de fonctionnent ( le poids et la longueur de la tige et la force appliqué au chariot ) .

L'hybridation des deux approches ( la logique floue et les réseaux de neurones ) consistes un moyen efficace pour exploiter la puissance et la souplesse des éléments manipulés par ces différentes procédures et ajoutent aux contrôleurs résultants une fonctionnalité ( intelligente ) qui est le but visé par les contrôleurs ( intelligents ) .

Changeons ce systeme injuste, Soyez votre propre syndic

"Et il n'est rien de plus beau que l'instant qui précède le voyage, l'instant ou l'horizon de demain vient nous rendre visite et nous dire ses promesses" Milan Kundera

Controle neuro-flou robuste des systèmes non-linéaires

Chapitre I

Chapitre 1 : La logique floue

La logique floue

I.1 Introduction :

SI (condition ) ALORS( action )

I.2 Historique :

I.3 La théorie de la logique flou :

I.4 Concepts fondamentaux :

I.4.1 Univers de discours :

I.4.2 Les ensembles flous :

I.4.3 Propriété d'un sous-ensemble flou :

Chapitre 1 : La logique floue

I.4.4 Opérateurs en logique floue :

AnB

Chapitre 1 : La logique floue

Â

A?Â

On obtiens A ? Â = U et A ?Â = .

CnD

C?D

Cn

C?

Soient A1 , A2 , ... , An des ensembles flous définis sur les univers de discours U1 , U2 , ... , Un respectivement , leur produit cartésien est un ensemble flou ( relation flou ) noté par :

A = A1 . A2 . .... An , avec une fonction d'appartenance définis par :

a)- Conjonction / disjonction de Lukasiewic

L'entropie floue est une mesure d'ambiguïté d'un sous-ensemble :

E( A) = dH (A Ac) / dH(A Ac) (I . 18)

1.5 Les fonctions d'appartenances :

- ( x - c )2

Sigmoïde ( x , a , c ) = 1 / 1 + e - ( a ( x - c ) ) .

a b c x a b c d x

Figure I.7 :(a) Fonction triangulaire .

I.6 variable linguistique

I.7 Relations floues :

I.7.1 Définition :

I.7.2 Définition :

I.7.3 Implication floues :

I.8 Contrôleur à logique flou :

I.9 La structure des systèmes a base de la logique flou :

I.9.1 Interface de fuzzification :

I.9.2 Base de connaissances :

I.9.3 engin d'inférence flou (régulateur flou) :

I.9.4 La defuzzification :

I.10 La modélisation par la logique flou :

I.11 Les règles floues :

I.11.1 règle de Mamdani :

I.11.2 Règle de Takagi Sugeno :

Les étapes de conception d'un système flou

Conclusion :

Chapitre II

Chapitre 11 : Les réseaux de neurones

Les réseaux de neurones

II.1 Introduction :

II.1.1 - L'adaptation rapide et automatique :

II.1.2 - L'apprentissage :

Chapitre 11 : Les réseaux de neurones

II.2 Le neurone :

II.3 Quelques exemples de fonctions d'activation [31] :

Chapitre 11 : Les réseaux de neurones

II.4 Réseau de neurones :

II.5 L'architecture d'un réseau de neurones :

II.5.1 Réseaux à couches :

Chapitre 11 : Les réseaux de neurones

II.5.2 Réseaux entièrement connectés :

II.6 Propriétés des réseaux de neurones :

Chapitre 11 : Les réseaux de neurones

II.6.1 Parallélisme :

II.6.2 La généralisation :

II.6.3 Capacité d'adaptation :

II.6.4 La résistance aux pannes :

II.6.5 L'Apprentissage :

Chapitre 11 : Les réseaux de neurones

Chapitre 11 : Les réseaux de neurones

Chapitre 11 : Les réseaux de neurones

II.6.6 La non-linéarité :

II.6.7 Certains réseau de neurones sont des approximateurs parcimonieux :

II.7 Equations d'un réseau :

Chapitre 11 : Les réseaux de neurones

II.8 Notion des minimums :