5.3.4.2. Coefficient de corrélation de Pearson
( R ) et coefficient de détermination multiple ( 2
R )
(30)
Le coefficient de corrélation de Pearson est
habituellement utilisé pour évaluer la performance des
modèles hydrogéologiques et hydrologiques (Legates et McCabe,
1999). Il est obtenu en calculant la régression linéaire entre
les valeurs (débits) calculées et les valeurs (débits)
observées ou mesurées. Sa formulation est la suivante :
N
i = 1
tP
R
i i
N 2
( t ) ( 2 )
i P i
i = 1
avec :
-
Ti et Pi respectivement les débits
observés et calculés pour les i =1 , .. . , N,
T et P sont les moyennes respectives des débits
observés et calculés.
- -
N , le nombre d'entrées; t i =
Ti- T , p i = Pi- P ,
La corrélation entre les débits observés et
les débits calculés est (Legates et McCabe, 1999) :
i. parfaite si R = 1 ;
ii. très forte si R > 0,8 ;
iii. forte si R se situe entre 0,5 et 0,8 ;
iv. d'intensité moyenne si R se situe entre 0,2
et 0,5 ;
v. faible si R se situe entre 0 et 0.2 ;
vi. nulle si R = 0 ;
Si R est positif et proche de 1, la relation entre
les débits mesurés et les débits calculés par les
modèles est de type linéaire, elle est croissante et le nuage de
point est très concentré autour de la droite de
régression. Il est cependant impossible de tirer une conclusion ferme et
définitive sur la linéarité de la relation tant que le
graphique n'a pas été réalisé (méthode
empirique), ou qu'un test sur la linéarité de la relation n'a pas
été effectué (méthode statistique). Le coefficient
de détermination ( 2
R ) mesure la qualité de l'ajustement des
estimations de l'équation de régression. Il est utilisé
à la fois en régression simple et en régression multiple.
Il permet d'avoir une idée globale de l'ajustement du modèle. Il
s'interprète comme la part de la variance de la variable Y
expliquée par la régression varie entre 0 et 1 et s'exprime
souvent en pourcentage. En régression simple, un 2
R proche de 1 est suffisant pour dire que
l'ajustement est bon. En régression multiple, une valeur
élevée du coefficient de détermination n'est pas
suffisante pour affirmer que le modèle est bon, il est nécessaire
d'effectuer un test sur la signification de 2
R afin de savoir s'il existe une relation entre les
débits calculés et les débits mesurés ou
observés. Ce test revient à effectuer un test de
significativité globale du modèle à l'aide du test de
Fisher. Il faut savoir que de faibles valeurs du F statistique sont
associées à des valeurs du 2
r proche de 0, et de fortes valeurs du
F à des valeurs de R2 proches de 1.
L'expression de R2 est donnée par l'équation :
N
(P i - T _ )2
2 i
R = (1 00 ).( ) (31)
N
( )2
T T
-
i
i
avec :
-
Ti et Pi respectivement les débits
observés et calculés pour les i =1 , . . . , N,
T est la moyenne des débits mesurés ou
observés
N , le nombre d'entrées.
Lorsque le coefficient de détermination 2
R vaut environ K% par exemple.
L'interprétation à donner est la suivante: "Si la relation entre
Ti et Pi est de type linéaire, le modèle
mathématique Pi =a Ti +b peut expliquer à lui
seul K% de la variabilité observée. Les (100- K)% restants
représentent les erreurs de mesures et toutes les imprécisions
engendrées lors de l'expérience. Comme
précédemment, sans la visualisation graphique de
l'expérience, ou un
test statistique sur la linéarité, il est
impossible d'affirmer avec certitude que la relation est bien
linéaire.
|