WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Prédiction de l'interaction génotype à— environnement par linéarisation et régression PLS-mixte

( Télécharger le fichier original )
par Ibnou DIENG
Universite Montpellier II - Doctorat 2007
  

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

UNIVERSITE MONTPELLIER II
SCIENCES ET TECHNIQUES DU LANGUEDOC

THESE
pour obtenir le grade de
DOCTEUR DE L'UNIVERSITE MONTPELLIER II

Discipline : Biostatistique
Formation Doctorale : Biostatistique
Ecole Doctorale : Information Structures Systèmes

présentée et soutenue publiquement
par
Ibnou DIENG
le 24 janvier 2007
Titre :

Prediction de l'interaction genotype × environnement par
linearisation et regression PLS-mixte

JURY

M. Robert SABATIER Directeur de Thèse

M. Eric GOZ'E Codirecteur de Thèse

M. Alain CHARCOSSET Rapporteur

M. Jean-Jacques DAUDIN Rapporteur

M. Gilles DUCHARME Examinateur

Mme Christèle ROBERT-GRANIER Examinateur

Résumé: Ce travail porte sur la pr'ediction de l'interaction g'enotype × environnement et est appliqu'e au contexte sah'elien. Après un tour d'horizon des principales m'ethodes d'analyse de la litt'erature, nous proposons la m'ethode APLAT. Le rendement de g'enotypes pr'edit a` l'aide de covariables d'environnement par un modèle de simulation de cultures est d'evelopp'e en s'erie de Taylor a` l'ordre 1 au voisinage du vecteur de paramètres d'un g'enotype de r'ef'erence. Nous nous ramenons alors approximativement a` un modèle lin'eaire o`u la matrice des r'egresseurs est remplac'ee par la matrice des d'eriv'ees partielles par rapport aux paramètres. Le nombre important de paramètres vari'etaux g'en'eralement constat'e chez les modèles de simulation de cultures conduit a` un nombre important de r'egresseurs; d'o`u une estimation par r'egression Partial Least Squares (PLS). Par la suite, nous proposons APLAT-mixte, une extension de APLAT. Pour ce modèle mixte, nous maintenons le rendement des g'enotypes lin'earis'e dans la partie fixe auquel s'ajoute un effet al'eatoire de l'environnement, responsable d'interactions G×E dont il faut estimer la variance. Nous introduisons a` cet effet la technique PLS-Mixte pour estimer les composantes de variance dans un modèle o`u il y a plus de r'egresseurs que d'observations. L'algorithme it'eratif propos'e, qui consiste a` imbriquer la r'egression PLS dans l'algorithme Expectation Maximization (EM), est fond'e sur les m'ethodes de vraisemblance Maximum Likelihood (ML) et Restricted Maximum Likelihood (REML).

Table des matières

1

2

Introduction générale

1.1 Problématique

1.2 Présentation des données de l'étude

1.2.1 L'essai pluriannuel

1.2.2 L'essai multilocal

Les méthodes classiques d'analyse des interactions G×E
2.1 Le modèle d'analyse de variance a` deux facteurs

2.1.1 Le modèle

2.1.2 Illustration avec les données de l'essai multilocal . . .

2.2 La méthode de régression conjointe

2.2.1 Le modèle

2.2.2 Illustration avec les données de l'essai multilocal . . .

2.3 La méthode AMMI

2.3.1 Le modèle

4
4

11

12
14

18
22

22

23
26

26

27

28
28

2.3.2 Illustration avec les données de l'essai multilocal . . . . 31

2.4 La régression factorielle 33

2.4.1 Le modèle 33

2.4.2 Illustration avec les données de l'essai multilocal . . . 40

2.5 Un modèle de simulation de cultures : SarraH 42

2.6 Limites des méthodes classiques d'étude des interactions G×E 46

3 La méthode APLAT 48

3.1 La régression Partial least squares 48

3.2 La méthode APLAT : linéarisation autour d'un témoin . . . 52

3.2.1 Le modèle proposé 52

3.2.2 Illustration avec les données de l'essai pluriannuel . . 58

3.2.3 Illustration avec les données de l'essai multilocal . . . 64

3.2.4 Conclusion 64

4 La méthode APLAT-mixte 67

4.1 Le modèle mixte 69

4.2 La régression PLS sur un modèle de variance connue 73

4.3 La méthode PLS-Mixte 74

4.3.1 La méthode PLS-Mixte sur un modèle a` effets aléatoires

indépendants de variances homogènes 75

4.3.2 La méthode PLS-Mixte sur un modèle a` effets aléatoires

corrélés de variances hétérogènes 86

5 Conclusion g'en'erale 104

R'ef'erences cit'ees 110

Annexes 120

A. Modèle de R'egression factorielle 120

B. Article au C.R. Biologie 124

Chapitre 1

Introduction générale

1.1 Problématique

Au Sahel, les pr'ecipitations annuelles ont diminu'e de l'ordre de 20 a` 30 % dans la dernière moiti'e du 20e siècle (Baterburry et Warren, 2001) et leur d'eficit y demeure la plus forte contrainte a` l'agriculture (Tucker, 1991).

Dans de telles conditions, les paysans, qui constituent la majorit'e de la population, parviennent difficilement a` g'en'erer des revenus r'eguliers tout en g'erant durablement les ressources naturelles. L'agriculture, qui est pourtant le principal moteur du d'eveloppement 'economique et social du Sahel, ne peut ainsi jouer pleinement son ràole.

Dans ce cadre difficile, le ràole des d'ecideurs ('Etats, ONG, Organismes de coop'eration, Recherche) est de r'epondre a` la demande sociale, principalement »la promotion d'une agriculture productive, diversifi'ee, durable [...]». Ce sont les termes employ'es dans le Cadre strat'egique de s'ecurit'e alimentaire (CSSA), le document de r'ef'erence en matière de s'ecurit'e alimentaire du Comit'e permanent inter-'etats de lutte contre la s'echeresse au Sahel (CILSS).

Ce cadre stratégique qui vise aussi »l'amélioration durable des conditions d'accès des groupes et zones vulnérables a` l'alimentation», a ététraduit en programmes de sécuritéalimentaire pour la plupart des pays sahéliens (CILSS, 2000). Ce document est venu confirmer le mandat déjàattribuéau Centre d'étude régional pour l'amélioration de l'adaptation a` la sécheresse (CERAAS) par le Réseau de recherche sur la résistance a` la sécheresse (R3S) du CILSS.

Le CERAAS est un laboratoire national de recherche a` vocation régionale sous double tutelle. C'est un laboratoire de l'Institut sénégalais de recherches agricoles (ISRA), qui a la mission d'exécuter le programme national de recherche sur l'adaptation des plantes a` la sécheresse. Il est aussi une Base Centre du Conseil ouest et centre africain pour la recherche et le développement agricole (CORAF), chargéde conduire les recherches sur la thématique de l'adaptation des plantes a` la sécheresse et celle de la création variétale.

Le CERAAS conduit des recherches suivant quatre axes principaux :

1. la compréhension de la réponse des plantes;

2. la modélisation du fonctionnement des plantes;

3. l'amélioration de la méthodologie de la sélection

4. l'amélioration des systèmes de culture pour une meilleure adaptation a` la sécheresse.

Au troisième axe, l'objectif est d'identifier et de sélectionner du matériel végétal mieux adaptéa` la sécheresse, stabilisant ainsi le déficit alimentaire dans les pays des régions sèches. Pour atteindre cet objectif, les activités de recherche visent a` fournir des solutions techniques pour réduire l'effet dépressif de la sécheresse sur les productions agricoles. Ces solutions consistent a` proposer des méthodes de sélection, de suivi des cultures et des itinéraires techniques tenant compte du milieu ciblé, qui est soumis a` la contrainte hydrique.

La s'election porte sur des caractères ph'enologiques, physiologiques et mol'eculaires permettant une production am'elior'ee en conditions de d'eficit hydrique par rapport aux cultivars g'en'eralement vulgaris'es. Elle est valid'ee par des essais en plein champ, r'ealis'es dans des conditions qui reflètent la variabilit'e du milieu auquel les vari'et'es sont destin'ees. Ces essais peuvent avoir lieu la même ann'ee, sur plusieurs endroits (essai multilocal) ou sur plusieurs ann'ees, au même endroit (essai pluriannuel) ou sur plusieurs ann'ees, sur plusieurs endroits. Par la suite, nous d'esignerons tous ces types d'essais sous le nom g'en'erique d'essai multienvironnement et emploierons ce terme chaque fois qu'il n'y aura pas d'ambigu·ýt'es et que nous voulons nommer un ensemble d'essais.

Dans cette zone du Sahel a` fort risque climatique, il est souvent constat'e une variabilit'e de l''ecart entre le rendement des g'enotypes lors de ces essais multienvironnements de s'election vari'etale. Cette variabilit'e est connue des s'electionneurs sous le nom d'interaction g'enotype × environnement (G×E) a` laquelle nous nous int'eressons dans ce travail.

Un cas particulier d'interactions 'etant un changement de classement direct des g'enotypes. Si trois g'enotypes A, B et C sont test'es sur plusieurs environnements, nous sommes en pr'esence d'interactions G×E si pour le premier environnement, les g'enotypes se classent A-B-C selon leurs rendements et pour le deuxième environnement, ils se classent par exemple B-A-C. Dans ce cas et même dans le cas plus g'en'eral o`u les diff'erences entre g'enotypes dependent de l'environnement, il sera difficile pour un environnement cible o`u les g'enotypes n'ont pas encore 'et'e test'es, de pr'edire le meilleur g'enotype.

Dune manière g'en'erale, les essais multienvironnements ne peuvent être assez pr'ecis. En effet, en dehors d'une ou de deux vari'et'es t'emoin g'en'eralement reconduites dune ann'ee a` lautre, chaque vari'et'e n'est vue que deux a` cinq ans. Au regard de la forte interaction g'enotype × ann'ee (G×A), ces deux a` cinq ans sont un 'echantillon de taille trop faible. Le s'electionneur doit

souvent extrapoler a` partir de ce nombre d'années faible ou d'un essai multi-local o`u l'interaction génotype x lieu (GxL) ne reproduit qu'imparfaitement l'interaction GxA.

Les interactions GxE gênent donc la sélection variétale et constituent un obstacle aux recommandations éventuellement formulées aux paysans pour l'adoption de cultivars adaptés a` leurs milieux. Une solution est de modéliser ces interactions GxE dans le but de les prédire pour une situation nouvelle en fonction de variables environnementales dont on connaàýt la valeur (ex : nature et profondeur du sol) ou la loi de probabilité(ex : précipitations) (Piepho, Denis et van Eeuwijk, 1998).

Nous proposons alors dans ce travail, une méthode de modélisation des interactions GxE, qui permette de tenir compte de l'impact aléatoire de l'environnement induit principalement au Sahel par une variabilitéclimatique, pour une meilleure prédiction de la réponse des variétés.

Plusieurs méthodes d'analyse des interactions ont étéproposées dans la littérature et sont exposées au chapitre 2. Ces méthodes peuvent être rangées, a` notre sens, en deux catégories : celles qui utilisent les caractéristiques des environnements et celles qui ne les utilisent pas. Pour ces dernières, dont nous pouvons citer la méthode Additive Main effects and Multiplicative Interactions (AMMI) ainsi que la régression conjointe, la critique majeure est qu'elles ne tiennent pas compte justement des environnements cibles pour y prédire le rendement des génotypes. Ce n'est pas adaptédans cette zone du Sahel, car comme nous avions annoncé, les interactions GxE y sont la conséquence principalement de la grande variabilitéclimatique des environnements. Mais ce qui gêne en réalité, c'est la présence de l'interaction GxA qui est imprévisible, au contraire de l'interaction GxL. Talbot (1997) a établi que l'interaction GxAxL est plus importante que l'interaction GxA, ellemême plus importante que l'interaction GxL. C'est certainement le cas au Sahel, o`u la variabilitéclimatique interannuelle est forte. En effet, s'il pouvait

y être possible, pour chaque lieu, de pr'evoir les conditions climatiques d'une ann'ee sur l'autre, il suffirait de mener un essai multilocal sur un ensemble de lieux repr'esentatifs et avec la m'ethode AMMI par exemple, pouvoir pr'edire avec assez de pr'ecision le rendement des cultures. Mais les importantes variations climatiques d'une ann'ee sur l'autre empêchent cette pr'ediction sans passer par la prise en compte des conditions du milieu.

Parmi les m'ethodes qui utilisent les caract'eristiques environnementales, figure la r'egression factorielle, dont une limite est qu'elle suppose une action lin'eaire des environnements sur le rendement. Dans le contexte sah'elien, cette m'ethode utilise le modèle d'analyse de variance a` deux facteurs, g'enotype et environnement, o`u les interactions G×E sont expliqu'ees par des covariables climatiques mesur'ees souvent au pas de temps d'ecadaire voire journalier sur chacun des environnements et des covariables mesur'ees sur chacun des g'enotypes. En g'en'eral, les variables climatiques mesur'ees sur les environnements sont très nombreuses (s'eries temporelles) et la prise en compte de l'ensemble d'entre elles par cette m'ethode est impossible.

Les modèles de simulation de cultures sont aussi utilis'es comme m'ethode de pr'ediction de rendement des cultures tenant compte de l'environnement. Ces modèles ont certes l'avantage d'être plus r'ealistes et considèrent le rendement d'un g'enotype dans un environnement particulier comme une fonction non lin'eaire des paramètres du g'enotype et des caract'eristiques de l'environnement. Ils pr'esentent cependant l'inconv'enient de ne pas être applicables a` tout g'enotype. En effet, les paramètres de tels modèles de simulation de cultures ne sont pour la plupart connus que pour un petit nombre de g'enotypes, car leur 'evaluation demande une exp'erimentation sp'ecifique et des mesures coàuteuses.

La premi`ere méthode proposée : APLAT. Lors d'essais multienviron-
nements, figure g'en'eralement un g'enotype de r'ef'erence dont les paramètres

sont bien connus, dans le but de comparer sa performance aux autres g'enotypes. Tenant compte de l'information souvent disponible pour ce g'enotype de r'ef'erence, nous proposons notre première m'ethode d'estimation qui consiste a` lin'eariser le rendement des g'enotypes pr'edit par un modèle de simulation de cultures autour du vecteur de paramètres de ce g'enotype de r'ef'erence. Le but 'etant d'estimer les paramètres de ces g'enotypes a` l'aide des r'esultats d'essais multienvironnements, sans refaire le travail de »param'etrisation» en station exp'erimentale n'ecessaire a` l'estimation de ceux du t'emoin. Cela per-met de se ramener approximativement a` un modèle lin'eaire o`u la matrice des variables explicatives est remplac'ee par la matrice des d'eriv'ees partielles (sensibilit'es) par rapport aux paramètres.

Cette m'ethode appel'ee Approximation par lin'earisation autour d'un t'emoin (APLAT) est d'ecrite au chapitre 3. Pour estimer ainsi la performance de tout g'enotype i dans un environnement j, nous adjoignons a` la performance de ce g'enotype i pr'edite par un modèle de simulation de cultures pour l'environnement j lin'earis'ee autour du vecteur de paramètres du t'emoin, un biais de ce modèle qui ne d'epend que de l'environnement et une erreur al'eatoire r'esiduelle. Pour que cette m'ethode ait un int'erêt, il faut que les interactions G×E soient bien reproduites par le modèle de simulation de culture, et que la m'ethode d'estimation supporte les abandons de g'enotypes au cours du temps comme cela se pratique habituellement. C'est pourquoi, elle a 'et'e test'ee sur les donn'ees d'un essai pluriannuel men'e sur la station exp'erimentale du CERAAS au S'en'egal o`u tous les g'enotypes n''etaient pas observ'es tous les ans.

Pour la plupart des modèles de simulations de cultures, il existe un nombre important de paramètres pour les g'enotypes. Ces paramètres, g'en'eralement connus pour le g'enotype de r'ef'erence, et que nous cherchons a` r'eestimer pour tout nouveau g'enotype, conduisent a` un nombre important de r'egresseurs

pour notre méthode proposée. Ils ont étéestimés a` l'aide la régression Partial least square (PLS).

La deuxième méthode proposée : APLAT-Mixte. Au chapitre 4, nous étendons la méthode APLAT au cas d'essais a` plusieurs composantes de variance. Pour cette méthode, nous estimons qu'un modèle de simulation de cultures ne permet pas de prendre en compte totalement l'effet aléatoire des interactions G×E, même si nous pouvons concevoir qu'il le permette pour une grande part. Nous rajoutons alors au modèle APLAT un effet résiduel de l'environnement et un effet des interactions G×E aléatoires, dont il faudra estimer les composantes de variance.

Le recours a` un modèle de simulation de culture induit, nous l'avons vu, un nombre important de régresseurs. Comme il s'agit également d'estimer la variance de l'effet de l'environnement et de l'effet des interactions G×E supposés aléatoires, nous nous retrouvons avec un modèle avec un nombre important de régresseurs et des composantes de variance. Nous proposons donc dans ce chapitre, une méthode originale d'estimation des paramètres fixes et des composantes de variance dans un modèle o`u le nombre de régresseurs est important par rapport aux observations. Cette méthode d'estimation, dénommée APLAT-Mixte, se fait par le principe d'une méthode combinée de réduction de dimension et de modèle mixte, que nous avons appeléPLSMixte.

Considérant d'une part les algorithmes itératifs d'estimation des paramètres inconnus dans le cadre du modèle mixte, et d'autre part les techniques de réduction de dimension, nous proposons d'imbriquer la régression PLS dans l'algorithme EM. Puisque nos données d'interaction G×E s'appréhendent a` l'aide d'un modèle o`u les erreurs aléatoires sont corrélées, nous appliquons dans un premier temps cette technique a` des données de NIRS (Near infrared spectroscopy) avec des erreurs indépendantes, o`u nous ne nous occupons que

de la double contrainte de la dimension du modèle et de la pr'esence des composantes de variance. Par la suite, nous nous int'eressons a` r'esoudre le problème suppl'ementaire des erreurs corr'el'ees qui r'esultent des donn'ees de notre probl'ematique d'interaction G×E.

1.2 Présentation des données de l'étude

Les m'ethodes qui ont 'et'e propos'ees ici se sont appuy'ees sur des r'esultats d'essais multienvironnements. Ces exp'erimentations vari'etales, sur quoi finalement repose toute cette 'evaluation du comportement des g'enotypes en rapport avec les caract'eristiques du milieu, sont la base de la s'election vari'etale. Les objectifs de tels essais peuvent être divers et d'ependent des questions auxquelles l'exp'erimentateur veut apporter des r'eponses. Mais l'objectif principal est la comparaison des performances, souvent le rendement, de diff'erents g'enotypes au regard de diff'erentes conditions environnementales.

Plusieurs g'enotypes sont en g'en'eral test'es dans plusieurs environnements et ces derniers sont choisis avec un souci qu'ils soient aussi divers que possible. Le but recherch'e est de couvrir la quasi totalit'e des types d'environnements susceptibles de recevoir les g'enotypes. Ce but est difficile a` atteindre au Sahel tant sont variables, nous l'avons dit, les conditions environnementales d'une ann'ee a` l'autre.

Les donn'ees utilis'ees dans le cadre de cette 'etude proviennent de deux types d'exp'erimentations. D'une part, nous nous sommes servi des r'esultats d'un essai pluriannuel, men'e a` la station exp'erimentale du CERAAS, de 1994 a` 1998. D'autre part, un essai multilocal a 'et'e mis en place durant l'hivernage 2005, sur 11 localit'es. L'hivernage d'esigne la saison des pluies dans les r'egions tropicales. Au S'en'egal, il a lieu chaque ann'ee entre mai et octobre et sa dur'ee varie de trois a` six mois selon un gradient Nord-Sud.

FIG. 1.1 - Localisation du CERAAS et de la station exp'erimentale de Bambey au S'en'egal.

Toutes ces exp'erimentations qui ont donc 'et'e men'ees au S'en'egal, ont concern'e
l'arachide (Arachis hypogaea L.), qui y demeure la principale culture de rente.

1.2.1 L'essai pluriannuel

Cet essai vari'etal n'a concern'e qu'un seul site, la station exp'erimentale du CERAAS situ'ee a` Bambey (14°42 N et 16°28 O). Il est dit pluriannuel et a 'et'e men'e de 1994 a` 1998 (figure 1.1).

Cet essai a 'et'e conduit avec 26 g'enotypes a` cycle de d'eveloppement de 90 jours. Les rendements moyens par g'enotype et par ann'ee sont pr'esent'es dans le tableau 1.1. Tous les g'enotypes ne sont pas observ'es toutes les ann'ees, ce qui est habituel pour les programmes de s'election vari'etale. En effet, le s'electionneur a le loisir au cours de tels programmes, d'enlever certains g'enotypes s'il est av'er'e qu'ils donnent de faibles productions après une ou deux ann'ees d'exp'erimentation. De même, au cours d'un même programme,

le s'electionneur peut tout aussi bien faire entrer de nouveaux g'enotypes, toujours dans le but de les tester.

G'enotype

 

1994

 

1995

 

1996

1997

1998

Moyenne

55-113

 
 

1

337,4

1

114,9

351,1

937,9

935,3

55-140

 
 

1

236,5

 

908,2

 

931,8

1 025,5

55-15

 
 

1

234,4

1

052,6

 
 

1 143,5

55-16

 
 

1

268,4

 

937,7

 
 

1 103,1

55-17

 
 

1

246,8

 

991,6

 
 

1 119,2

55-437

 

571,3

1

081,0

 

707,1

421,2

1 074,6

771,1

57-111

 
 
 
 
 
 

401,7

964,7

683,2

57-115

 
 
 
 
 
 

556,5

977,9

767,2

57-120

 
 
 
 
 
 

452,4

1064,0

758,2

57-123

 
 
 
 
 
 

596,7

985,7

791,2

57-125

 
 
 
 
 
 

651,6

1 110,8

881,2

57-126

 
 
 
 
 
 

665,2

1 232,3

948,8

57-14

 
 
 
 
 

649,4

244,1

 

446,8

FLEUR11

1

420,1

1

624,9

1

065,3

941,6

1 098,0

1 230,0

S-45

 
 

1

194,3

 

936,6

 
 

1 065,5

S-46

 
 
 
 

1

001,5

641,4

1 081,8

908,2

SR-1-1

 

657,8

 
 
 
 
 
 

657,8

SR-1-11

 

492,0

 
 
 
 
 
 

492,0

SR-1-12

 

437,7

 
 
 
 
 
 

437,7

SR-1-2

 

772,7

1

170,1

 
 
 
 

971,4

SR-1-22

 

692,2

1

113,3

 

934,7

474,4

 

803,7

SR-1-23

 

582,5

 
 
 
 
 
 

582,5

SR-1-4

 

563,0

1

205,6

 

870,9

 
 

879,8

SR-1-6

 

672,8

 
 
 
 
 
 

672,8

SR-1-9

 

572,7

 
 
 
 
 
 

572,7

US-83

 

957,7

1

307,0

 
 
 
 

1 132,4

Moyenne

 

699,4

1

251,7

 

930,9

533,2

1 041,8

888,8

g'enotype de r'ef'erence

Donn'ees de l'essai pluriannuel de 26 g'enotypes d'arachide a` la

TAB. 1.1 - station exp'erimentale de Bambey au S'en'egal de 1994 a` 1998 (rendement en kg ha-').

Le g'enotype de r'ef'erence choisi est le 55-437, une vari'et'e de 90 jours; sa longueur de cycle est la même que celles des autres g'enotypes. Les donn'ees de ce g'enotype sont disponibles pour la dur'ee totale des exp'erimentations, ce qui autorise sa comparaison aux autres vari'et'es utilis'ees dans cet essai.

Le tableau 1.1 r'evèle que les g'enotypes ont des productions moyennes très vari'ees et certains font même plus que doubler leur production d'une ann'ee sur l'autre. Par exemple, le rendement de la vari'et'e 55-437 est de 1 081 kg ha-' en 1995 alors qu'il n'est que de 571,3 kg ha-'en 1994, soit une augmentation d'un peu moins de 90% entre deux ann'ees cons'ecutives.

Les productions moyennes par ann'ee sont aussi très contrast'ees même si d'une ann'ee sur l'autre, nous n'avons pas les mêmes g'enotypes. L'ann'ee 1995 (1251,7 kg ha-') est l'ann'ee la plus productive et les g'enotypes qui ont les rendements les plus 'elev'es sur l'ensemble des cinq ann'ees ont tous 'et'e observ'es cette ann'ee. Il s'agit des g'enotypes FLEUR11 avec 1 230 kg ha-', 55-15 avec 1 143,5 kg ha-', US-83avec 1 132,4 kg ha-', etc. L'ann'ee 1997 (533,2 kg ha-') est l'ann'ee la moins productive.

1.2.2 L'essai multilocal

Ces essais ont 'et'e men'es durant l'hivernage 2005 et visent a` mesurer la production et la qualit'e des graines dans des conditions environnementales diff'erenci'ees et connues afin de mod'eliser les interactions G×E.

Pour ces essais, 6 g'enotypes (55-437, FLEUR11, GC 8-35, JL24, 55-128, 55-33) ont 'et'e test'es sur 11 localit'es. Ces localit'es ont 'et'e choisies dans la principale zone de culture de l'arachide au S'en'egal, appel'ee bassin arachidier. Ce bassin a 'et'e divis'e en trois zones a` l'int'erieur desquelles les essais ont 'et'e implant'es : 3 essais dans la zone Nord, 4 dans la zone Centre dont un a` la station exp'erimentale de Bambey et 4 dans la zone Sud dont un a` la station exp'erimentale de Nioro (figure 1.2). Cet 'echantillonnage par stratification a 'et'e mis en place pour tenir compte de la variabilit'e climatique constat'ee dans ce pays selon le gradient Nord-Sud.

Dans chaque localit'e, un dispositif en blocs complets randomis'es avec quatre r'ep'etitions, soit 24 parcelles, a 'et'e adopt'e. La parcelle 'el'ementaire est constitu'ee

FIG. 1.2 - Localisation des sites des essais multilocaux dans le bassin arachidier au S'en'egal durant l'hivernage 2005.

par 5 lignes de 6 m avec un 'ecartement de 50 cm entre les lignes et de 15 cm entre les poquets. Les trois lignes centrales constituent la parcelle utile a` l'int'erieur de laquelle les pr'elèvements de plantes ont 'et'e r'ealis'es.

Le semis a 'et'e effectu'e dès l'installation effective de l'hivernage sur des parcelles avec un pr'ec'edent cultural arachide ou mil. Pour les conditions exp'erimentales, un labour superficiel et un piquetage ont 'et'e effectu'es et le semis fait a` la main quand le sol 'etait humide; deux graines trait'ees au granox ont 'et'e sem'ees par poquet. De l'engrais NPK 6-20-10 a` raison de 150 kg ha-' a 'et'e appliqu'e a` la lev'ee. Un d'emariage a` un pied par poquet a 'et'e fait vers 10 jours après le semis et enfin, des sarclo-binages et des traitements phytosanitaires ont 'et'e r'ealis'es a` la demande.

Les rendements en gousses et en fanes ont 'et'e mesur'es et un suivi journalier des paramètres climatiques (temp'erature minimale et maximale, humidit'e relative minimale et maximale, vitesse du vent, dur'ee d'insolation) effectu'e. Les rendements moyens par g'enotype et par localit'e sont pr'esent'es dans le tableau 1.2.

Les mesures des données climatiques pour les essais de Nioro et de Bambey
sont celles des postes météorologiques de ces stations. Ces mesures ont servi
aussi pour les sites autour de ces deux localités a` l'exception des mesures

de pluviométrie, réputées plus variables dans l'espace. La localitéde Meckhéétait équipée d'une station météorologique portable. Chacun des 11 sites a disposéd'un pluviomètre.

Localit'es

 

55-128

 

55-33

55-437

 

F11

GC-8-35

 

JL24

Moyenne

Keur Fary

 

263,0

 

209,3

189,0

 

392,5

 

281,7

 

239,3

 

262,5

Keur Samseun

 

103,7

 

91,5

119,2

 

260,9

 

141,8

 

151,7

 

144,8

Sinthiou Thiabala

 

317,9

 

198,1

244,0

 

459,9

 

275,8

 

554,2

 

341,7

Moyenne Nord

 

228,2

 

166,3

184,1

 

371,1

 

233,1

 

315,1

 

249,6

Bambey

 

248,1

 

196,6

298,7

 

472,3

 

134,0

 

350,8

 

283,4

Gatte

 

121,8

 

116,0

209,3

 

261,9

 

86,3

 

283,4

 

179,8

Ndangalma

 

162,3

 

202,1

223,9

 

237,5

 

183,6

 

313,8

 

220,5

Ndiadiane

 

72,6

 

107,4

234,9

 

236,9

 

159,9

 

368,7

 

196,7

Moyenne Centre

 

151,2

 

155,5

241,7

 

302,2

 

140,9

 

329,2

 

220,1

Nioro

 

928,0

 

866,3

807,0

 

856,5

 

614,1

 

780,7

 

808,8

Nioro Sud

1

593,6

1

013,0

670,7

1

115,8

1

115,8

1

255,4

1

127,4

Paoskoto

1

164,0

1

254,2

908,3

1

231,6

1

157,8

 

712,7

1

071,4

Winthewy

 

189,2

 

97,4

369,8

 

447,3

 

244,9

 

528,1

 

312,8

Moyenne Sud

 

968,7

 

807,7

688,9

 

912,8

 

783,1

 

819,2

 

830,1

Moyenne

 

469,5

 

395,6

388,6

 

543,0

 

399,6

 

503,5

 

450,0

Donn'ees de l'essai multilocal de 6 g'enotypes d'arachide sur TAB. 1.2 - 11 localit'es au S'en'egal durant l'hivernage 2005 (rendement en

kg ha-').

L'examen des données du tableau 1.2 révèle une variabilitéde rendement des génotypes selon les trois principales zones de l'étude : le Nord avec une production moyenne de 249,6 kg ha-1 et le Centre avec une production moyenne de 220,1 kg ha-1 s'opposent au Sud qui affiche la meilleure production moyenne avec 830,1 kg ha-1. A l'intérieur des zones, la variabilitérelative est plus importante au Nord o`u le rendement du génotype le plus productif représente 123,2% de celui du génotype le moins productif et au Centre o`u ce pourcentage est de 133,6%, qu'au Sud o`u il passe a` 40,6%.

Par ailleurs, il est a` noter que le g'enotype FLEUR11 qui a la meilleure production moyenne pour les trois zones (543,0 kg ha-1), n'est pas le meilleur partout. Il ne donne le meilleur rendement qu'au Nord alors que le g'enotype GC-8-35 domine au Centre et le g'enotype 55-128 au Sud. Ce constat renforce l'id'ee que dans cette zone sah'elienne marqu'ee par une variabilit'e environnementale importante, une recommandation pour le choix de g'enotypes sp'ecifiques aux lieux est pr'ef'erable et plus pertinente qu'une recommandation unique du g'enotype le meilleur en moyenne.

Chapitre 2

Les méthodes classiques

d'analyse des interactions G×E

Dans ce chapitre, nous parlerons des outils classiques d'analyse des interactions G×E et présenterons les modèles de simulation de cultures comme méthode alternative pour prédire le rendement des cultures. Nous allons également soumettre nos données a` ces différentes méthodes présentées et évaluer comment elles prennent en compte les éventuelles interactions décelées. Nous allons toutefois appliquer ces différents modèles uniquement sur les données de l'essai multilocal. En effet, la plupart des méthodes classiques nécessitent des données complètes et seules le sont celles de l'essai multilocal.

Les raisons de la présence des interactions G×E peuvent être de deux ordres. De telles interactions sont, d'une part, attendues en présence d'une large variation des caractéristiques de résistance aux stress des génotypes, le stress hydrique par exemple. D'autre part, en présence, d'une large variation des environnements au niveau de ce même stress. Mais généralement, c'est l'une et l'autre de ces conditions qui les favorisent, même si au Sahel, la grande

variabilit'e climatique y s'evissant dont nous consid'erons qu'elle caract'erise essentiellement les environnements, contribue pour une large part a` la pr'esence de ces interactions.

Le terme g'enotype fait r'ef'erence a` un cultivar, c'est-à-dire un mat'eriel g'en'etique qui peut être homogène ou h'et'erogène et l'environnement a` un ensemble de conditions climatiques, de types de sol et de pratiques culturales d'un essai conduit dans un lieu donn'e, une ann'ee donn'ee (Annicchiarico, 2002).

Deux types d'interactions G×E sont a` distinguer (figure 2.1). Les interactions sont dites quantitatives ou noncrossovers, si les classements des g'enotypes entre les diff'erents environnements sont conserv'es mais que l''ecart entre les g'enotypes est modifi'e. Par contre, elles sont dites qualitatives ou crossovers lorsque les classements sont invers'es (Baker, 1988; Baril, 1992).

Dans les essais multienvironnements, il peut être envisag'e de s'electionner les g'enotypes de plus grande production moyenne sur l'ensemble des environnements test'es ou de les choisir en fonction de leurs performances selon les environnements. Pour cela, les informations issues de ces exp'erimentations, sont 'etudi'ees afin d'être synth'etis'ees en dissociant les effets du g'enotype, de l'environnement et des interactions G×E au travers des modèles statistiques (Brancourt-Hulmel, Biarnès-Dumoulin et Denis, 1997).

Plusieurs modèles des interactions G×E ont donc 'et'e propos'es. Dans ce qui suit, nous en ferons un tour d'horizon et en pr'esenterons les principaux : le modèle d'analyse de variance a` deux facteurs, la r'egression conjointe, la m'ethode AMMI, la r'egression factorielle et les modèles de simulation de cultures.

Mais avant de pr'esenter ces diff'erentes m'ethodes fond'ees principalement sur
le modèle d'analyse de variance, il est a` remarquer qu'il est aussi possible
de concevoir, a` travers deux statistiques descriptives, l''etude des interactions

FIG. 2.1 - Types d'interactions G×E pour trois g'enotypes A, B et C. (1) : sans interactions; (2) : interactions quantitatives; (3) : interactions qualitatives.

(1) (2)

1 2 3 4 5 6

environnement

1 2 3 4 5 6

environnement

(3)

1 2 3 4 5 6

renaement

renaement

2 9 4 5 0

A

B

C

A

B

C

A

B

C

C

A

B

renaement

2 9 4 5 0

A

B

C

B

C

A

environnement

G×E pour décrire le comportement des génotypes sur un échantillon d'environnements.

Pour cela, la variabilitéintrinsèque du génotype sur un ensemble d'environnements est étudiée a` l'aide de la variance environnementale S2 i (Becker, 1981; Lin, Binns et Lefkovitch, 1986; Piepho, 1998). L'écart a` la valeur moyenne des performances du génotype, compte tenu du nombre de milieux sur lequel il est testé, représente une mesure de son instabilité. Cette variance environnementale est estimée par

S2 i = XJ (Yij - Yi.)2/(J - 1) j=1

o`u Yij est la réponse du génotype i de l'environnement j, Yi. la moyenne des réponses du génotype i des différents environnements et J le nombre d'environnements. Par la suite, l'opérateur (.) désigne la moyenne sur l'indice qu'il remplace.

Quant a` l'écovalence variétale W i 2 (Becker, 1981; Becker et Léon, 1988), elle est mesurée par la stabilitérelative du génotype et est estimée par

W i 2 = XJ (Yij - Yi. - Y.j + Y..)2 j=1

C'est la somme des carrés des termes d'interaction propres au génotype i. A la différence de S2 i, la somme de carrés W i 2 n'est pas divisée par les degrés de liberté(ddl) correspondants.

Cependant, la liste des méthodes d'étude des interactions G×E présentée dans ce chapitre n'est pas exhaustive. D'autres méthodes, qui ne sont pas décrites ici, existent par ailleurs :

- structuration de l'interaction (Denis et Vincourt, 1982)

- modèles multiplicatifs (Cornelius, Seyedsadr et Crossa, 1992; Crossa, Cornelius, Seyedsadr et Byrne, 1993; Crossa, Cornelius, Sayre et Ortiz-Monasterio, 1995);

- application de l'analyse canonique (Seif, Evans et Balaam, 1979; Calinski, Czajkaet Kaczmarek, 1987);

- variantes des modèles de regression factorielle (Denis, 1988; van Eeuwijk 1992, 1995; van Eeuwijk, Denis et Kang, 1996);

- régression Partial Least Squares (Aastveit et Martens 1986; Talbot et Wheelwright 1989; Vargas, Crossa, Sayre, Reynolds, Ram`ýrez et Talbot, 1998);

- une méthode récente fondée sur l'approche bayésienne (Theobald, Talbot et Nabugoomu, 2002).

2.1 Le mod`ele d'analyse de variance a` deux facteurs

2.1.1 Le mod`ele

Le mod`ele linéaire mixte généralement considérésur les moyennes par génotype et par environnement est le suivant

Yij = m + gi + Ej + (gE)ij + eij (2.1)

o`u Yijest la réponse du génotype i de l'environnement j, m la moyenne générale et gi l'effet fixe du génotype i. L'effet Ej de l'environnement j, l'interaction (gE)ij et le terme d'erreur eij sont supposés aléatoires, iid et indépendants les uns des autres avec

E(Ej) =E[(gE)ij] =E(eij) = 0 et Var(Ej) = ó2E, Var[(gE)ij] = ó2gE et
Var(eij) = ó2e

o`u la fonctionE(
·)
désigne l'espérance et Var(
·)
la variance.

Dans l'optique de prédire la performance des génotypes dans les différents environnements considérés, l'option qui consiste a` prendre les génotypes comme fixes et les environnements comme aléatoires est argumentée par Denis, Piepho et van Euwijk (1997). En effet, ces auteurs justifient ce choix par le fait qu'il s'agit d'étudier un nombre fini de génotypes, d'o`u l'effet génotype fixe. Au contraire, les environnements ne sont pas considérés pour eux-mêmes, mais en tant qu'échantillons dans une population plus vaste d'environnements possibles auxquels les variétés sont destinées. Pour nous, cela s'appliquera aux années plutôt qu'aux lieux.

Les effets principaux du génotype et de l'environnement sont considérés par rapport a` la moyenne générale, alors que le terme d'interaction du modèle représente la variabilitédes performances du génotype avec l'environnement qui n'est pas prise en compte dans les effets additifs du génotype et de l'environnement.

D'après le modèle 2.1, les estimations des effets sont, pour un dispositif équilibré:

bgi = Yi. - Y..

bEj = Y.j - Y..

[(gE)ij = Yij - Yi. - Y.j + Y..

Dans l'estimation des termes du modèle qui portent l'indice j, nous retrouvons Y.j. Cette moyenne traduit le potentiel de l'environnement. Or l'environnement étant fortement variable au Sahel, les termes en j ne sont pas bien prévisibles a` moins de disposer d'un échantillon de nombreux environnements qui fait généralement défaut. Cependant si nous considérons la différence entre deux variétés i et i', l'imprévisibilitéde l'effet environnement Ej disparaàýt lors de l'estimation de cette différence, si le dispositif est complet. En effet, il viendra :

Yij - Yi'j = gi - gi' + (gE)ij - (gE)i'j

Par contre, le problème demeure pour les interactions qu'il faudra modéliser afin de prédire plus finement la différence des performances des génotypes.

2.1.2 Illustration avec les données de l'essai multilocal

Avec le modèle d'analyse de variance a` deux facteurs, génotype et environ-
nement, appliquéaux données de l'essai multilocal, nous sommes intéressés

tout premièrement a` tester la significativit'e des interactions G×E. Dans ce cas, les deux effets principaux sont consid'er'es comme 'etant fixes.

Nous rappelons, que les donn'ees proviennent d'un r'eseau d'essais vari'etaux effectu'es au S'en'egal durant l'hivernage 2005 (tableau 1.2, page 16). Six g'enotypes d'arachide ont 'et'e test'es sur 11 sites dans le bassin arachidier s'en'egalais qui est la r'egion principale de production de cette l'egumineuse.

Le tableau 2.1 fournit les r'esultats de l'analyse de variance a` deux facteurs appliqu'ee a` ces donn'ees.

Effet d.l Somme Carr'e Statistique F Niveau de

de carr'es moyen signification

G'enotype 5 23 2765,0 46 553,0 2,42 0,0485

Environnement 10 8 100 921,7 3 810 092,2 42,1 0,0000

R'esidus 50 962 311,6 19 246,2

Tableau d'analyse de variance des donn'ees des essais multilocaux TAB. 2.1 - de 6 g'enotypes d'arachide sur 11 localit'es au S'en'egal durant l'hivernage 2005.

En n'egligeant dans un premier temps l'interaction, nous concluons qu'au seuil de 5%, les effets g'enotype et environnement sont significatifs. A l'instar de Denis et Vincourt (1982), nous allons 'evaluer et comparer l'ordre de grandeur des r'esidus et l'ordre de grandeur de l'effet g'enotype. Si CMr est le carr'e moyen des r'esidus, l'ordre de grandeur de ces r'esidus peut être estim'e par vCMr ; et si CMg est le carr'e moyen du facteur g'enotype, l'ordre de grandeur de l'effet g'enotype peut être estim'e par ,/CMg - CMr/J. Nous notons alors que l'ordre de grandeur des r'esidus (138,7) est grand par rapport a` celui de l'effet g'enotype (15). Il s'agira alors d'essayer de r'eduire ces r'esidus en ajoutant une interaction au modèle additif. L'interaction peut être mise en 'evidence avec la figure 2.2 o`u sont repr'esent'es les rendements des g'enotypes de l'essai multilocal. Les rendements moyens par lieu sont rang'es par ordre croissant et mis en abscisse. Nous constatons sur ce graphique un changement

de classement des variétés d'un site a` un autre. Nous remarquons également que l'écart entre les génotypes augmente avec la moyenne du lieu.

Variation des rendements des six g'enotypes de l'essai multilo-

FIG. 2.2 - cal. En abscisse sont mis, par ordre croissant, les performances moyennes des lieux.

200 400 600 800 1000

Rendement

500 1000 1500

55-128 55-33 55-437 F11 GC-8-35 JL24

Pour espérer formuler tout de même des recommandations dans ce milieu très contrastépour l'adoption de cultivars les mieux adaptés a` chaque environnement, la solution consiste a` tenter de réduire la part imprévisible de ces interactions en les modélisant; ce qui peut se faire a` travers différentes méthodes que nous allons présenter ci-dessous.

2.2 La methode de regression conjointe

2.2.1 Le modèle

Ce modèle a étéproposépour la première fois par Yates et Cochran (1938). Il
a ensuite étérepris par plusieurs autres auteurs dont les principaux sont Fin-
lay et Wilkinson (1963), Eberhart et Russell (1966) et Perkins et Jinks (1968).

Plutôt proposépour les essais multilocaux que pour les essais pluriannuels, ce modèle pose l'effet des interactions G×E comme une fonction linéaire de l'effet Ej qui représente le potentiel du milieu j pour les génotypes; une valeur positive de Ej traduisant un potentiel élevétandis qu'une valeur négative, un faible potentiel.

L'interaction est de la forme :

(gE)ij = ciEj + dij

o`u bci est le coefficient de la régression pour le génotype i; cette pente caractérise la sensibilitédifférentielle du génotype i au milieu (Denis et Vin-court 1982). Le terme dij désigne la déviation du modèle, c'est-à-dire les interactions G×E résiduelles.

Ces coefficients bci et la performance moyenne des génotypes sont les paramètres d'intérêt pour une analyse de stabilité. En effet, la performance d'un génotype dans un lieu donnédépend de la performance moyenne des génotypes du lieu et des interactions G×E qui y sont espérées. Une valeur largement positive de bci associée a` une performance moyenne d'un site relativement importante, concourent a` caractériser ce site comme étant favorable. De l'autre côté, un site est considérécomme non favorable si la valeur de bci associée a` la performance moyenne des génotypes de ce site est négative.

Les coefficients bci sont obtenus facilement :

bci =

X bEj [(gE)ij

j

XbE2 j j

Un cas particulier de ce modèle a 'et'e d'evelopp'e par Tukey (1949) : les coefficients c s''ecrivent Kg et l'interaction se r'eduit a` Kg E3.

2.2.2 Illustration avec les données de l'essai multilocal

Les donn'ees sont celles du tableau 1.2 de la page 16. Le tableau 2.2 pr'esente les paramètres mb + bgi et 1 + bci des diff'erents g'enotypes des essais.

G'enotype

mb + bgi

1 + bci

55-128

488,9

1,381

55-33

341,3

1,138

55-437

327,2

0,698

FLEUR11

636,0

0,963

GC-8-35

349,2

1,043

JL24

557,1

0,777

Paramètres estim'es par r'egression conjointe de 6 g'enotypes d'ara-

TAB. 2.2 - chide lors d'essais multilocaux au S'en'egal durant l'hivernage 2005.

Le g'enotype 55-128 qui a la pente (1 + bci) la plus 'elev'ee, est plus sensible aux variations du milieu que la moyenne des g'enotypes des essais, suivi du g'enotype 55-33. En revanche, le g'enotype de r'ef'erence 55-437 et le g'enotype JL24 semblent moins affect'es que la moyenne aux variations du milieu. Quant aux g'enotypes GC-8-35 et FLEUR11 avec des pentes proches de l'unit'e, ils repr'esentent par leurs valeurs, de bonnes indications des variations du milieu.

2.3 La méthode AMMI

2.3.1 Le modèle

La méthode AMMI, Additive main effect and multiplicative interaction, a étéintroduite par Williams (1952) et reprise par Gollob (1968), puis par Mandel (1961, 1971) et par Bradu et Gabriel (1978). Elle fut développée a` l'origine pour les domaines du social et de la physique et son application a` la recherche agricole a étéproposée par Kempton (1984) et Zobel, Wright et Gauch (1988). Mais il faut attendre Gauch (1992) pour qu'elle devienne répandue. C'est une méthode assez générale et Gauch et Zobel (1996) ont soulignéque son champ d'application potentiel va au delàde l'étude

des méthodes d'interactions GxE. Beaucoup d'autres auteurs ont étudiéles interactions GxE a` l'aide de cette méthode :Vargas, Crossa, van Eeu-

wijk, Ram`ýrez et Sayre (1999), Yan et Hunt (2001), Ebdon et Gauch (2002a, 2002b), Gonz'alez, Crossa et Cornelius (2003a, 2003b), Gauch (2006).

La méthode AMMI associe l'analyse de variance et l'analyse en composantes principales (ACP). Sont d'abord estimés les effets principaux des variétés et des environnements par une analyse de variance du modèle additif, c'est-àdire du modèle sans les interactions GxE. Ensuite, la partie non additive du modèle est étudiée par une analyse en composantes principales (Crossa, 1990).

L'interaction est décrite de cette façon

(gE)ij = è1á11j + è2á22j + + èháhiâhj

c'est a` dire

Yij = m + gi + Ej + ( Xh èkákiâkj) + eij

k=1

o`u èk est la valeur singulière du ke axe (è2 k 'etant la valeur propre), áki est le vecteur propre du ie g'enotype pour le ke axe, âkj est le vecteur propre du je environnement pour le ke axe et avec les contraintes

X2 ki = Xâ2 kj = 1 et Xákiák'i = âkjâk'j = 0

i j i j

Les paramètres du terme d'interaction sont donc estim'es par d'ecomposition en valeur singulière (DVS) de la matrice des r'esidus obtenus après ajustement des deux effets principaux.

Le nombre h de paramètres pour chaque terme multiplicatif de l'interaction qui constitue le nombre d'axes principaux peut être d'etermin'e soit par validation crois'ee (Gauch et Zobel, 1988; Crossa, 1990, Piepho, 1994) o`u les r'ep'etitions sont tour a` tour retir'ees et non les lieux, soit par des tests statistiques (Gollob, 1968; Cornelius, 1993; Piepho, 1995).

Le nombre d'axes principaux retenu est g'en'eralement compris entre z'ero, on parle dans ce cas de AMMI-0 c'est-à-dire du modèle additif et le minimum entre (I - 1) et (J - 1), o`u I constitue le nombre de g'enotypes et J le nombre d'environnements. Le modèle complet (AMMI-F, F faisant r'ef'erence a` full pour full model), avec tous les axes principaux, fournit une estimation parfaite. Mais g'en'eralement, lorsque les interactions G×E sont significatives, les modèles avec un (AMMI-1) ou deux (AMMI-2) axes principaux sont les plus utilis'es a` cause de leur simplicit'e.

Les tests statistiques propos'es pour d'eterminer le nombre optimal d'axes sont tous fond'es sur la statistique t2 k/s2 o`u t2 k est l'estimation de la valeur singulière èk obtenue par DVS et s2, avec f degr'es de libert'e, est le carr'e moyen des r'esidus du modèle additif divis'e par le nombre de r'ep'etitions par environnement (Piepho, 1995).

Sous l'hypothèse nulle (H0 : èk = 0), les statistiques de tests sont les suivantes :

1. t2k/s2 suit une loi de Fisher a` (J +I-1-2k) et f degrés de liberté(Gollob, 1968)

2. FGH1 = gt2k/h1fs2 suit une loi de Fisher avec h1 et g degrés de liberté, o`u h1 = 2v1u1/v2, g = 2 + 2(f - 2)v1/v2, v1 = u22 + u21 + (f - 4)u1 et

v2 = (f - 2)u22 + 2u21 (Cornelius, 1993) ; u1 et u2 sont des approximations fournies par Cornelius (1980).

3. FGH2 = t2k/u1s2 est distribuée selon la loi de Fisher avec h2 et f degrés de liberté, o`u h2 = 2u21/u22 (Cornelius, 1993).

En outre, une statistique de test FR, plus simple a` calculer, a étéproposée par Cornelius et al. (1992). Ce test utilise la somme des carrés résiduels après ajustement du modèle AMMI avec q axes principaux. Sachant que sous l'hypothèse nulle, la somme de carrés résiduels est approximativement une variable de chi-deux, la statistique suivante FR

[

FR = E E(Yij - Yi. - Y.j + Y..)2 - i j

X q

k=1

?t2 ? /f2s2 k

suit une distribution de Fisher avec f2 = (J - 1 - q)(I - 1 - q) et f degrés de liberté. La statistique FR significative révèle qu'il y a au moins un axe principal supplémentaire a` prendre en compte en plus des q déjàutilisés.

Dans le cas des essais multienvironnements, il est supposéque les erreurs du modèle sont indépendantes et normalement distribuées avec des variances entre les environnements homogènes. Même si l'indépendance des erreurs peut être assurée par une randomisation des niveaux des facteurs et que les erreurs peuvent être considérées comme gaussiennes, les variances résiduelles sont généralement hétérogènes d'un environnement a` l'autre au Sahel. Or, en présence d'erreurs expérimentales hétérogènes, Piepho(1995) a montréque la statistique de test FR est plus robuste que FGH1, FGH2 et celle de Gollob.

2.3.2 Illustration avec les données de l'essai multilocal

Les données de l'essai multilocal (6 génotypes et 11 sites) ont étésoumises a` la méthode AMMI dans le but d'obtenir l'estimation des performances des génotypes dans les différents environnements. Il est espéréque l'estimation d'un génotype dans un environnement particulier soit plus précise que la simple moyenne des performances de ce même génotype dans les autres environnements o`u il a étéobservé.

Pour ces données, le nombre maximum d'axes principaux a` retenir est égal a` cinq. Pour cela, cinq modèles (AMMI-0 a` AMMI-4) vont être testés étape par étape a` l'aide de la statistique de test FR. Si le modèle AMMI-1 est significatif, c'est-à-dire la statistique associée au premier axe principal est significative, le modèle AMMI-2 est alors testéa` son tour et ainsi de suite jusqu'au modèle AMMI-q non significatif o`u l'on devra s'arrêter. Le meilleur modèle est alors le modèle AMMI-q.

Les valeurs singulières calculées sur les données de l'essai multilocal sont égales a` 723,8 pour le premier axe, 577,6 pour le second, 259,2 pour le troisième, 182,1 pour le quatrième et 66,5 pour le cinquième tandis que le tableau 2.3 montre les vecteurs propres des facteurs pour les quatre premiers axes principaux

Les résultats de la méthode AMMI sont présentés au tableau 2.4. Le test pour le deuxième axe principal est significatif, ce qui signifie qu'il y a au moins un axe supplémentaire intéressant dont il faut tenir compte. Et comme le test pour le troisième axe n'est pas significatif, nous adoptons, pour ces données, le modèle AMMI-3. A la figure 2.3 sont représentés les scores des génotypes et des environnements du deuxième axe principal en fonction de ceux du premier. Ce graphique double, est plus connu sous le nom de biplot (Kempton, 1984). Sur ce graphique, un génotype proche de l'origine présente

Axe 1 Axe 2 Axe 3 Axe 4

Vecteurs propres des g'enotypes pour les 4 axes

55-128

18.0

-7.7

-5.5

1.8

55-33

6.0

11.1

-5.0

-5.0

55-437

-15.6

7.3

-5.6

-0.8

F11

-2.0

4.2

3.7

11.2

GC-8-35

3.8

2.8

12.6

-4.9

JL24

-10.2

-17.8

-0.2

-2.3

Vecteurs propres des environnements pour les 4 axes

Wenthiwy

-9.9

-4.5

3.2

3.3

Niorosud

18.5

-14.9

0.5

-0.4

Paoskoto

12.3

16.2

3.9

0.5

Nioro

2.6

3.1

-13.2

-0.2

Keur Samseun

-1.4

3.1

3.2

-0.1

Keur Fary

1.1

3.1

4.6

1.2

Sinthiou Thiabala

-3.4

-6.4

2.9

2.1

Ndiadiane

-7.5

-1.5

1.4

-6.1

Gatte

-4.9

0.2

-2.4

-1.1

Ndangalma

-3.3

0.8

-0.9

-7.6

TAB. 2.3 - Vecteurs propres des facteurs g'enotype et environnement pour l'essai multilocal.

une faible interaction tandis qu'un genotype qui s'en eloigne est au contraire interactif.

Comme avec la regression conjointe, les genotypes 55-33 et 55-128 presentent de fortes interactions et les genotypes GC-8-35 et F11 semblent les moins interactifs c'est-à-dire les plus conformes au comportement au comportement moyen de l'ensemble des genotypes. Mais au contraire, cette analyse classe les genotypes JL24 et 55-437 parmi les genotypes les plus interactifs alors qu'ils etaient classes parmi ceux qui affichent les plus faibles interactions par la regression conjointe.

FIG. 2.3 - Scores des g'enotypes et des environnements pour le deuxième axe en fonction de ceux du premier.

Score de l'axe 2

-15 -10 -5 0 5 10 15

Ndiadiane Gatte

Wenthiwy

55-128

Sinthiou Thiabala

Nioro Sud

JL24

55-437

Keur Samseun

Bambey

F11

Ndangalma

Keur Fary

Nioro

GC-8-35

55-33

Paoskoto

-15 -10 -5 0 5 10 15 20

Score de l'axe 1

2.4 La r'egression factorielle 2.4.1 Le modèle

C'est le modèle additif auquel trois séries de termes de régression sont ajoutés (Denis, 1980). Ces régresseurs sont des covariables décrivant les génotypes (ex : poids des graines) et les environnements (ex : pluviométrie en aoàut) et aussi l'interaction par les produits deux a` deux de ces régresseurs.

Un modèle similaire de celui de régression factorielle a étéutilisépar Freeman et Perkins (1971) qui n'avaient considéréqu'une covariable associée au facteur milieu non calculée sur les données. Wood (1976), lui, a utiliséune combinaison linéaire de covariables élémentaires liées au milieu.

Effet

d.l

 

Somme de carrés

 

Carrémoyen

Statistique F

Niveau de signification

Génotype

5

 

23 2765,0

 

46 553,0

2,42

0,0485

Environnement

10

8

100 921,7

3

810 092,2

42,1

0,0000

G×E

50

 

962 311,6

 

19 246,2

 
 

AMMI axe 1

14

 

523 953,0

 

37 425,2

3,1

0,003

AMMI axe 2

12

 

333 578,0

 

27 798,1

6,4

0,000

AMMI axe 3

10

 

67 186,2

 

6 718,62

2,5

0,057

AMMI axe 4

8

 

33 172,6

 

4 146,6

5,6

0,026

Résidus G×E

6

 

4 422,5

 
 
 
 

Total

65

 

929 600

 
 
 
 

TAB. 2.4 - Tableau d'analyse des données de l'essai multilocal avec la méthode AMMI.

Nous allons pr'esenter le modèle de r'egression factorielle de deux manières diff'erentes. Dans la pr'esentation matricielle, la plus simple, le but est d'expliquer la matrice des observations Y de dimension I ×J a` partir de deux matrices de covariables associ'ees aux deux facteurs 'etudi'es. Dans la pr'esentation indicielle, la plus g'en'erale, les observations Y sont dans un vecteur de longueur IJ.

Nous pouvons disposer en g'en'eral d'un tableau X de p covariables associ'ees
aux g'enotypes et d'un tableau Z de q covariables associ'ees aux environne-

ments. Les matrices X et Z s''ecrivent dans ce cas :

x1 1 x2 1 · · · xp 1 z1 1

? x1 2 x2 2 · · · xp 2 ? ? z1 2

X= Z=
? ? ? ? ?

? ? ? ? ?

... ... ... ????? ...

x1I x2 I ··· xp I z1 J

z21
z2 2

...

z2 J

···

· · ·

· · ·

zq 1

zq 2 ?

... ?????

zq J

 

La matrice X est de dimension I × p et Z de dimension J × q. Par souci de simplicit'e dans la pr'esentation, nous ne consid'erons alors que le cas d'une unique observation par g'enotype pour un environnement donn'e, qui peut être une moyenne ou une moyenne ajust'ee sur le dispositif de cet environnement. Les matrices X et Z sont consid'er'ees par la suite centr'ees.

Alors le modèle de r'egression factorielle peut se pr'esenter sous forme matricielle, plus commode a` manipuler

2Z') + XZ' +g3Z' + X['

Y = 1Im1' J + (g1 + Xg2)1' J + 1I(I' 1 +uEi' 3 + e (2.2)

- Y de dimension I x J est la variable r'eponse

- m est la moyenne g'en'erale

- (g1 + Xg2)1'

efficients des covariables 1 a` p dans la r'egression de l'effet g'enotype et (g1 1 +uEI' J est l'effet principal du g'enotype o`u (g2 est le vecteur des coles I r'esidus de cette r'egression.

- 1I(i' 2Z') est l'effet principal de l'environnement d'ecompos'e de la même

facon

- XZ' est la partie de l'interaction expliqu'ee par le produit des deux covariables X et Z

-g3Z' est la partie de l'interaction expliqu'ee par la covariable Z, une fois tenu compte de l'explication fournie par la covariable X

- Xi'3 est la partie de l'interaction expliqu'ee par la covariable X, une fois tenu compte de l'explication fournie par la covariable Z

Ce modèle 'etant lin'eaire, les proc'edures d'estimation usuelles sont employ'ees, ce qui donne les r'esultats suivants pour l'estimation des paramètres inconnus (voir Annexe A) :

mb = 1'IY1J/IJ

bg2 = (X'X)-1X'Y1J/J

bE' 2 = 1'IYZ(Z'Z)-1/I

I/I - X(X'X)-1X')Y1J/J

bg1 = (II - 1I1'

bE' 1 = 1'IY(IJ - 1J1' J/J - Z(Z'Z)-1Z')I

b = (X'X)-1X'YZ(Z'Z)-1

I/I - X(X'X)-1X')YZ(Z'Z)-1

bg3 = (II - 1I1'

bE' 3= (X'X)-1X'Y(IJ - Z(Z'Z)-1Z')

Cependant, cette facon d'ecrire le mod`ele et les calculs qui en decoulent sont lies a` la structure des donnees. En effet, dans ce que nous avons presente, les observations sont supposees àetre dans une matrice a` I lignes et J colonnes, ce qui prevoit cette matrice de donnees compl`ete. Cela s'interpr`ete dans le cas d'un essai multienvironnement par exemple, par le fait que chaque genotype doit àetre present dans chaque environnement. Or la realiteest souvent autre.

Pour les essais o`u toutes les varietes ne sont pas dans tous les environnements, cette methode, qui est ici generalisee avec p covariables associees au facteur genotype et q covariables liees au facteur environnement, peut se presenter sous forme indicielle.

Yij = m (E

p

xiMp + gi) + (E

q

zj áq 3

E ) + E

p,q

xp. zqjã+ e
·
· (2.3)

z pq z3

 

o`u gi represente la part des effets moyens non expliquee par les covariables X et Ej celle non expliquee par les covariables Z ; xpi etant la valeur de la pe covariable associee au genotype i et zqj la valeur de la qe covariable associee a` l'environnement j.

Les vecteurs ã =

r11 lfp 713.

, á =

(

á1

...
áq

?
? ? ?

et â =

(

â1

)

.

âp

 

sont estimes par regression du vecteur Y des observations, de longueur IJ,
respectivement sur le produit semi-tensoriel ligne (Dieng, 2003) des deux

matrices des covariables, sur la matrice de covariable attach'ee au facteur environnement et sur la matrice de covariable attach'ee au facteur g'enotype. Nous reprenons ci-après la d'efinition du produit semi-tensoriel ligne.

D'efinition 1 Produit semi-tensoriel ligne Si A est une matrice rectangulaire (m,r),

Si B est une matrice rectangulaire (m,s),

A ? B est dit produit semi-tensoriel ligne de A par B. C'est une matrice rectangulaire (m,rs) qui se présente ainsi

a11 · B[1,]

?

a21 · B[2,]

? ? ? ? ? ...

am1 · B[m,]

a12 · B[1,]
a
22 · B[2,]

...

am2 · B[m,]

· ·

· ·

· ·

·
·

·

a1r · B[1,]

?

a2r · B[2,]

... ?????

amr · B[m,]

o`u B[m,] est la me ligne de B. Autrement dit, A ? B est la juxtaposition de tous les produits termes a` termes possibles entre une colonne de A et une colonne de B.

Nous nous servons du produit semi-tensoriel ligne pour obtenir la matrice d'incidence pour l'interaction a` partir des matrices d'incidence des effets simples.

Avec cette pr'esentation indicielle, la r'egression factorielle est effectu'ee en deux 'etapes : d'abord la r'egression des observations sur le produit semitensoriel ligne des deux matrices de covariables et celle sur les deux matrices des covariables auxquelles est ajout'ee par la suite l'estimation des r'esidus de ces r'egressions.

Nous pr'esentons ci-dessous un modèle, plus g'en'eral, o`u tous les paramètres sont estimables en une seule 'etape.

Y = m1IJ + X ·a1 +X·n2 + Z ·b2 +L·Ib2 + X ? Z · (ab)11

- Xn1 est la régression sur les covariables génotypes

+x? Z · (ab)21 + X ?7L· (ab)12 +X?7L· (ab)22 + e

- Y est le vecteur des observations, de longueur IJ

- m1IJ est la moyenne générale des observations

->Xn2 est l'écart des effets génotype a` la régression sur les covariables génotypes,

-7Lb2 est l'écart des effets environnements a` la régression sur les covariables - Zb2 est la régression sur les covariables environnements

Xétant la matrice d'incidence des génotypes

-x?Z(ab)21 est l'effet des covariables environnements modulépar les génotypes - X ? Z(ab)11 est l'effet des covariables environnements modulépar les cova-

environnements,7Létant la matrice d'incidence des environnements

riables génotypes

non expliquépar les covariables génotypes

- X ?L(nb)12 est l'effet des covariables génotypes modulépar les environnements non expliquépar les covariables environnements

-x?7L(ab)22 est l'interaction G×E expliquée ni par les covariables génotypes, ni par les covariables environnements.

Ainsi, les paramètresa1,a2,b2,b2, (ab)11, (ab)21, (ab)12, (rb)22, sont estimés par simple régression linéaire sur les matrices et vecteurs adéquats.

Exemple d'écriture pour un essai multilocal : Pour un essai multilocal de 3 génotypes effectuéen 2 lieux différents o`u nous avons 2 covariables associées au facteur lieu et 1 covariable associée au facteur variété, les vecteurs et matrices se présentent comme suit :

39

?
? ? ? ? ? ? ? ? ? ?

?
? ? ? ? ? ? ? ? ? ?

Y11

Y21

Y31

Y12

Y22

Y32

Y=

?
? ? ? ? ? ? ? ? ? ?

X=

?
? ? ? ? ? ? ? ? ? ?

?
? ? ? ? ? ? ? ? ? ?

?
? ? ? ? ? ? ? ? ? ?

Z=

X=

X111 X211 X311 X121 X221 X321

?
? ? ? ? ? ? ? ? ? ?

?
? ? ? ? ? ? ? ? ? ?

XeZ=

X111Z111 X111Z112 X211Z121 X211Z122 X311Z211 X311Z212 X121Z221 X121Z222 X221Z311 X221Z312 X321Z321 X321Z322

?
? ? ? ? ? ? ? ? ? ?

I

?
? ? ? ? ? ? ? ? ? ?

Z=

1 0 1 0 1 0 0 1 0 1 0 1

Z111 Z112 Z121 Z122 Z211 Z212 Z221 Z222 Z311 Z312 Z321 Z322

1 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 1

?
? ? ? ? ? ? ? ? ? ?

?

XeZ=

? ? ? ? ? ? ? ? ? ?

Z111

0
0

Z221

0
0

Z112

0
0

Z222

0
0

0

Z121

0
0

Z311

0

0
0

Z212

X e

0

0

Z322 1

?
? ? ? ? ? ? ? ? ? ?

X111
X211
X311

0
0
0

0

?

0
0

X121

X221 ? ? ? ? ? ? ? ? ? ?

X321

0 0

Z122 0

0 Z211

0 0

Z312 0

0 Z321

0

0

0

0

0

0

1

0

0

0

0

0

0

1

0

I

0

0

0

0

0

0

1

0

0

0

0

0

0

1

0

1 0 0 1 0 0

x? =

?
? ? ? ? ? ? ? ? ? ?

Jusqu'àmaintenant les covariables sont supposées continues. Toutefois, cette méthode est encore valable dans le cas o`u elles sont de type qualitatif. Il suffit de la même manière que l'on passe de la régression a` l'analyse de variance, de remplacer chaque colonne de la matrice de covariables par des colonnes indicatrices des niveaux de la colonne de covariable qualitative considérée (Denis, 1980).

Dans le cas o`u les covariables sont trop nombreuses, différentes méthodes de sélection sont présentées dans (Denis, 1980).

2.4.2 Illustration avec les données de l'essai multilocal

Les données sont celles du tableau 1.2 de la page 16.

Des variables climatiques ont étémesurées quotidiennement sur les sites des essais. Ces variables (pluie, rayonnement solaire, vitesse du vent, etc.) se trouvent en fait plus nombreuses que les essais, ce qui rend impossible leur complète utilisation dans un modèle de régression factorielle. Pour décrire les différents lieux, nous avons uniquement retenu la pluviométrie totale sur le cycle de culture qui, a` notre sens, permet de bien les caractériser.

Pour la covariable génotype, nous pouvons utiliser des indices de tolérance ou de sensibilitéqui font intervenir le rendement en conditions de sécheresse et le rendement en conditions optimales. Mais le mode de calcul de ces indices pénalise très fortement les génotypes a` rendement potentiel élevé; des valeurs

très élevées caractérisent plutôt des génotypes rustiques a` faible productivitéque des génotypes a` rendement stable et élevé(Belhassen, This et Monne-

veux, 1995). Nous privilégions le taux de croissance de culture (C) décrit par Turner, Wright et Siddique (2002) comme étant :

C = (PF + (1,65 PG))/T

o`u PF est le poids des fanes, PG le poids des gousses et T la durée floraisonrécolte. Ce taux permet effectivement de caractériser les génotypes selon leur sensibilitéa` la sécheresse car plus une variétéproduit de biomasse totale et de gousses en un temps relativement court, mieux elle est adaptée a` la sécheresse. Le calcul de C s'est fait sur des données qui n'ont pas servi a` la modélisation de l'interaction G×E.

Les résultats de la régression factorielle tenant compte de la covariable C attachée aux génotypes et de la covariable Pluie liée aux environnements, sont présentés dans le tableau 2.5. La somme des carrés résiduels (751 771,62) est ce qui reste des interactions G×E une fois que nous avons utiliséles covariables pour les interpréter. Sans ces covariables, cette somme des carrés était égale a` 962 311,6 (modèle additif, tableau 2.1 de la page 24).

Effet

d.l

 

Somme de carrés

 

Carrémoyen

Statistique F

Niveau de signification

Génotype

5

 

232

764,98

46

552,99

2,23

0,0725

Environnement

10

8

100

921,68

810

092,17

38,79

0,0000

C×Pluie

1

 

8

896,50

8

896,50

0,43

0,5181

C×Env.

9

 

162

944,57

18

104,95

0,87

0,5624

Génotype×Pluie

4

 

38

698,94

9

674,74

0,46

0,7622

Résidus

36

 

751

771,62

 
 
 
 

TAB. 2.5 - Régression factorielle des données de l'essai multilocal.

Nous notons tout de même que les covariables associées aux effets principaux ne sont pas significatives (0,5181 pour le produit des deux covariables, 0,5624 pour la covariable liée a` l'environnement et 0,7622 pour celle liée au facteur génotype). Cela indique que la décomposition de l'interaction n'est pas pertinente avec de telles covariables et qu'il faudrait en sélectionner d'autres. Ce qui pose le problème du choix de covariables caractérisant le mieux le climat des environnements. En effet, face au nombre important de variables climatiques quotidiennement mesurées sur les lieux, se pose la difficultéde

les r'esumer efficacement. Dans ce cas, l'utilisation de modèles de simulation de culture pour les synth'etiser peut être une alternative.

2.5 Un modèle de simulation de cultures : SarraH

Les modèles de simulation de cultures permettent de pr'edire la production de l'ensemble du peuplement v'eg'etal cultiv'e d'une parcelle. Pour cela, ils reproduisent le fonctionnement du système sol-plante-atmosphère et permettent la comparaison de divers itin'eraires techniques en fonction de l'espèce utilis'ee, du type de sol, des donn'ees climatiques, etc. Moyennant un changement d'echelle convenable, ces modèles peuvent alors être utilis'es a` diverses fins : pr'evisions des r'ecoltes et planification de la politique agricole et alimentaire d'un pays, analyse prospective des changements climatiques, protection de l'environnement, etc. (Affholder, 1997).

Au Sahel, les modèles pr'ecurseurs fond'es sur une estimation du bilan hydrique des cultures en cours de cycle, ont 'et'e 'ecrits avant le d'ebut des ann'ees 1980 (Franquin et Forest, 1977). Le bilan hydrique se situe a` l''echelle de la plante ou du champ et permet de comparer les quantit'es d'eau fournies et les quantit'es d'eau utilis'ees par la plante. Il tient aussi compte de la constitution de r'eserves d'eau et des pr'elèvements ult'erieurs sur ces r'eserves. Les apports d'eau fournis par les pr'ecipitations sont mesur'es. Les pertes se composent de la combinaison de l''evaporation et de la transpiration des plantes, plus connue sous le nom d''evapotranspiration.

L''equation du bilan hydrique, sous sa forme la plus g'en'erale, se fonde sur l''equation de conservation de la masse

P = ÄS + D + ETR + R

o`u P d'esigne la pluviom'etrie, ÄS la variation de stock d'eau dans le sol, D le drainage, ETR l''evapotranspiration et R les ruissellements.

L'estimation de l''evapotranspiration peut se faire en deux 'etapes. Pour une culture, l''evapotranspiration en conditions non limitantes d'alimentation hydrique ou 'evapotranspiration maximale (ETM) est d'abord calcul'ee a` l'aide de l''evaporation Bac Classe A (EV A) et du coefficient cultural K'c caract'eristique de la culture et de son stade de d'eveloppement.

ETM = K'c × EV A

Ensuite, Eagleman (1971) a propos'e une m'ethode d'estimation de l''evapotranspiration r'eelle qui est fonction de l'evapotranspiration maximale et de l'humidit'e relative du sol.

Doorenbos et Jassam (1979) ont d'evelopp'e une approche de mod'elisation des rendements r'eels fond'ee sur les consommations r'eelles et maximales d'eau et la productivit'e potentielle des cultures. Dans les zones o`u les flux hydriques sont les plus d'eterminants, la mod'elisation du bilan hydrique et la mise en relation de ses paramètres avec la production aboutit a` une estimation bien adapt'ee des rendements des cultures.

Le modèle Arachide bilan hydrique (Arabhy) constitue la première g'en'eration de modèle semi d'eterministe d'evelopp'e par le CERAAS en collaboration avec le CIRAD, pour l'estimation de la production de l'arachide au S'en'egal tenant compte du bilan hydrique (Annerose et Diagne, 1990, 1994). Il ajoute a` la simulation du bilan hydrique des cultures, celle des r'eactions de la plante aux stress hydriques. Ce modèle estime en fin de cycle la production potentielle.

Le modèle de Système d'analyse r'egional des risques agroclimatiques (Sarra) simule des indicateurs hydriques de production (Forest et Clopes, 1991). Ces indicateurs sont fond'es sur la consommation en eau r'eelle et maximale de la plante en relation avec les techniques culturales. Pour ce modèle qui est

utilis'e pour mesurer l'impact du climat sur une culture annuelle, il est suppos'e que la performance d'une culture est une fonction simple d'une combinaison d'indicateurs hydriques cumul'es au cours d'un cycle v'eg'etatif.

Cette première g'en'eration de modèles param'etr'es pour les zones sah'eliennes, utilise en entr'ee une base de donn'ees a` l'echelle locale de la parcelle sur le climat, le sol et les cultures. Ces modèles sont assez simples et sont 'ecrits sans module de bilan de carbone ni prise en compte de la notion de densit'e du peuplement.

Le bilan de carbone est fond'e sur l'assimilation du carbone selon l'interception de l''energie lumineuse en fonction du taux de couverture foliaire et la conversion de la fraction de rayonnement intercept'ee en matière sèche. Associ'e au bilan hydrique, le bilan de carbone constitue un 'el'ement essentiel dans le processus de croissance et de productivit'e des cultures.

Le modèle de simulation de cultures SarraH (Baron, 2002) est quant a` lui, une version plus d'etaill'ee de Sarra et fait intervenir, en plus de la simulation du bilan hydrique, plusieurs autres effets tels que celui de la temp'erature et celui de la radiation solaire sur la production. Il est fond'e sur la notion de l'effets multiplicatif de l'efficience de l'eau (WUE, Water use efficiency) et de l'efficience de l'energie radiative (RUE,Radiation use efficiency) pour simuler l''elaboration des biomasses.

Le modèle SarraH fonctionne au pas de temps journalier et la production de trois types de plantes peuvent y être simul'ee : mil, arachide et palmier. Nous avons pris l'arachide comme plante test pour cette 'etude.

De par la complexit'e inh'erente au système sol-plante-atmosphère, les processus simul'es sont formul'es par des ensembles d''equations que l'on peut regrouper par grand ensembles de (bilan hydrique, ph'enologie, etc.) et optimis'e par sous ensembles de modules ('equations d'ecrivant une 'etape d'un

processus). Le lien entre les modules et les processus s''etablissant au travers
de variables d''etats d'ecrivant la plante, le sol et l'environnement climatique.

D'evelopp'e sous cette approche modulaire, SarraH permet de simuler

- la biomasse initiale qui est fonction de la densit'e de semis et du poids sec moyen d'un grain; ce qui permet de d'eduire la densit'e de peuplement disposant du taux de lev'ee;

- la ph'enologie de la plante qui se d'efinit en plusieurs phases en relation avec la somme de temp'erature : phase v'eg'etative, phase reproductive, phase de maturation des graines. Chaque phase, d'une dur'ee constante, est exprim'ee en temps thermique qui est fonction des temp'eratures maximale, minimale et de base. La temp'erature de base est celle au-dessous de laquelle la plante ne se d'eveloppe pas. Les dur'ees des phases ainsi que la temp'erature de base sont des caract'eristiques vari'etale des plantes simul'ees (pour la vari'et'e d'arachide qui est simul'ee dans SarraH, elle est 'egale a` 13C;

- le bilan hydrique qui d'etermine la dynamique de l'eau dans le sol en fonction des contraintes climatiques ('evaporation du sol) et de la consommation en eau de la plante (transpiration). Cette consommation en eau de la plante permet de d'efinir un frein hydrique qui est le rapport entre la consommation r'eelle et la demande en eau de la plante;

- le bilan de carbone qui d'etermine la fabrication journalière d'assimilats en fonction du coefficient de conversion de l'espèce, du rayonnement intercept'ee et donc de taux de couverture foliaire. A cette production potentielle d'assimilat est appliqu'e le frein hydrique;

- la r'epartition des assimilats, racine, feuille, tige et organes reproducteurs qui 'evolue en fonction des phases ph'enologiques de la plante, ces lois de r'epartition sont fond'ees sur des relations allom'etriques.

2.6 Limites des méthodes classiques d'étude des interactions G×E

Le modèle 2.1, qui correspond a` un modèle d'analyse de variance a` deux facteurs, permet uniquement de tester la significativitédes interactions, mais il ne permet aucunement de les explorer. Dans ce cas, l'information contenue dans ces interactions serait inexploitée si aucune analyse supplémentaire n'était faite (Crossa, 1990). Cette logique sous-tend la modélisation des interactions G×E qui permet alors d'améliorer la prédiction des performances des génotypes dans de nouveaux environnements en contrôlant la variation importante de ces interactions et en l'enlevant de la partie significative du modèle (Gauch, 1990, 1992).

La régression conjointe parait peu adaptée a` cette forte variation d'une année sur l'autre ou d'un site a` l'autre. Cette méthode permet d'interpréter l'interaction par le potentiel du milieu, estimépar l'effet moyen du milieu. Pour un nouveau milieu non encore couvert par une expérimentation, nous n'avons pas d'estimation du potentiel, donc pas de prédiction de l'interaction. De ce fait, elle permet de décrire uniquement les résidus du modèle additif et n'utilise aucune information supplémentaire du milieu pour modéliser l'interaction.

La méthode AMMI est un outil permettant de comprendre des données complexes, notamment celles obtenues dans le cadre des interactions G×E. Cependant, elle n'a qu'un grand intérêt descriptif et constitue une technique appropriée uniquement dans une perspective d'analyse préliminaire. 'Etant donnéqu'une ACP est effectuée sur les résidus du modèle additif, la méthode AMMI permet tout juste d'étudier les corrélations entre composantes principales et covariables de l'environnement et du génotype, alors que le but est de prédire les unes a` partir des autres (Yan et al., 2001). Elle péche ainsi par le fait que cette modélisation de l'interaction se fait sans l'utilisation

des données climatiques des environnements, car, de même que l'analyse de variance, les effets estimés pour les environnements sont imprévisibles.

La régression factorielle, elle, tient compte des conditions climatiques des environnements pour prédire la réponse des génotypes. Mais elle suppose que l'action de l'environnement sur la production est linéaire, ce qui n'est pas certain. De plus, le nombre important de variables climatiques généralement mesurées sur les lieux d'essais fait qu'elles ne peuvent pas être totalement prises en compte par cette méthode.

Il s'agira alors, d'améliorer la prédiction de la performance des génotypes en réduisant l'impact de la variabilitéclimatique sur la précision de cette estimation. Une solution serait de modéliser les variations de la réponse des génotypes en fonction de l'environnement par l'utilisation de modèles de simulation de cultures tels que Diagnostic hydrique des cultures (DHC, Forest et Cortier, 1990), Irrigation scheduling information system (IRSIS, Fao, 1987), SarraH. Seulement, les paramètres de tels modèles ne sont connus que pour un petit nombre de génotypes.

Chapitre 3

La methode APLAT

Ce chapitre traite de notre première m'ethode propos'ee qui consiste a` lin'eariser la performance des g'enotypes pr'edite par le modèle SarraH au voisinage d'un g'enotype de r'ef'erence. Une fois la lin'earisation effectu'ee, l'estimation des paramètres, du fait du nombre important de r'egresseurs dont nous disposions, s'est faite par r'egression Partial least squares. Nous commencerons alors par pr'esenter a` la section 1.1 cette technique de r'egression et terminerons ce chapitre en pr'esentant a` la section 1.2, la m'ethode d'estimation APLAT.

3.1 La regression Partial least squares

La r'egression PLS, Partial least squares est devenue aujourd'hui, une m'ethode très utilis'ee dans le cas des r'egressions sur donn'ees corr'el'ees. Aussi, est-elle une bonne alternative s'il y a plus de r'egresseurs que d'observations (Wold, Albano, Dunn, Esbensen, Hellberg, Johansson, Sjöström 1983; Tenenhaus, 2001).

Un petit nombre de variables appel'ees »facteurs» ou »variables latentes» sont construites l'une après l'autre de façon it'erative et permettent de remplacer l'espace initial des nombreux r'egresseurs par un espace de plus faible dimension. Ces facteurs deviennent les nouvelles variables explicatives dans un modèle de r'egression lin'eaire classique.

Les facteurs sont orthogonaux, et sont des combinaisons lin'eaires des variables explicatives initiales. A ce titre, ils renvoient aux composantes principales de la RCP, R'egression sur composantes principales. Mais alors que ces dernières ne sont calcul'ees qu'àpartir des variables explicatives (et donc sans r'ef'erence a` la variable a` expliquer), les facteurs de la r'egression PLS maximisent les corr'elations successives entre les r'egresseurs et la variable a`

expliquer, tout en maintenant la contrainte d'orthogonalit'e avec ceux d'ejàconstruits.

La r'egression PLS s'effectue selon le principe de l'algorithme NIPALS, Nonlinear estimation by iterative partial least squares d'evelopp'e par Herman Swold (1966) pour l'analyse en composantes principales. Cette r'egression s'inspire de l'approche PLS (Wold, 1975) pour l'estimation des modèles d''equation structurelles reliant plusieurs blocs de variables entre eux.

A pr'esent, pour d'ecrire cette m'ethode, nous nous plaçons dans le cadre du modèle lin'eaire classique. Le vecteur des observations Y de dimension n × 1 est suppos'e suivre le modèle suivant

Y = Xâ + e (3.1)

o`u le vecteur â d'ordre p est le paramètre inconnu a` estimer, X la matrice de dimension n × p des variables explicatives, et le vecteur e un terme d'erreur al'eatoire.

Nous supposerons qu'il n'y a pas de données manquantes et qu'il n'y a qu'une seule variable a` expliquer pour une explication plus claire de la méthode. L'algorithme PLS calcule les variables latentes t1,··· ,th étape par étape. Ces variables latentes th = Xwh sont des combinaisons linéaires des X qui sont orthogonales entre elles et qui maximisent Cov(th, Y) sous la contrainte II wh 11= 1.

A l'étape 1, w1 = (w1 1 · · · wp1)' est solution du problème d'optimisation

? ?

?

max Cov(Xw1, Y) k w1 11= 1

Pour déterminer w1, il suffit d'écrire l'expression du Lagrangien.

L(w1,ë) = Cov(Xw1,Y) - ë(w' 1w1 - 1)

= w1 1Cov(X1,Y) + ··· + wp 1Cov(Xp,Y) - ë[(w1 1)2 + · · · + (wp 1)2 - 1]

o`u ë est le multiplicateur de Lagrange associéa` la contrainte.

Les solutions a` ce problème d'optimisation sont obtenues en dérivant L(w1, ë) par rapport a` w11,··· , wp 1, ë. Les p + 1 équations aux dérivées partielles ou équations normales s'écrivent

? ???????

???????

Cov(X1,Y) - 2ëw1 1 = 0

...

Cov(Xp,Y) - 2ëw1 p = 0
(w
11)2 + ···(wp 1)2 = 1

o`u Xp est la pecolonne de X

En remplacant dans la dernière équation de ce système les composantes de w1 tirées dans les p premières équations, nous obtenons

[Cov(X1,Y)/2ë]2 + · · · + [Cov(Xp,Y)/2ë]2= 1

D'o`u

X p

j=1

[Cov(Xj,Y)]2 = 4ë2

Et

ë = /P[Cov(Xj,Y)]2/2

En reportant cette valeur de ë dans chacune des p premières équations nor-males, nous avons

wj 1 = Cov(Xj,Y)/V/P[Cov(Xj,Y)]2

Ainsi, la première composante t1 = w1 1X1 + · · · + wp 1Xp est construite. Puis, il est effectuéune régression simple de Y sur t1

Y = c1t1 + Y1

o`u c1 est le coefficient de régression et Y1 le vecteur des résidus.

S'il reste encore de l'information, il est construit une deuxième variable latente t2?t1. Cette deuxième variable latente est combinaison linéaire des colonnes de X1, résidu de la régression linéaire de X sur t1.

A l'étape 2, w2 = (w1 2 · · · wp 2)' est solution du problème d'optimisation

? ?

?

max Cov(X1w2, Y1) II w2 11= 1

La deuxième variable latente t2 construite, il est effectuéune régression linéaire multiple de Y sur t1 et t2

Y = c1t1 + c2t2 + Y2

Cette proc'edure it'erative peut ainsi continuer en utilisant les r'esidus Y2, X2 des r'egressions de Y, X sur t1 et t2.

Le nombre de composantes t1,
·
·
· ,tH
a` retenir avec H rang(X), peut être d'etermin'e a` l'aide de trois critères : l'ajustement de l''echantillon d'apprentissage (X, Y) par (bX, bY), la pr'ediction sur un 'echantillon externe et la pr'ediction interne aux donn'ees d'apprentissage appel'ee validation crois'ee.

3.2 La méthode APLAT : linéarisation au-tour d'un témoin

Cette m'ethode a fait l'objet d'un article publi'e aux Comptes rendus de l'acad'emie des sciences dont l'original se trouve en Annexe B.

I. Dieng, E. Goz'e, R. Sabatier

Lin'earisation autour d'un t'emoin pour pr'edire la r'eponse de cultures C. R. Biologies 329 (2006) 148-155

3.2.1 Le modèle proposé

Si nous partons du modèle de simulation de cultures, chacune des sorties de ce modèle, le rendement d'un g'enotype i dans un environnement j est la somme :

1. d'un rendement potentiel pr'edit avec le modèle de simulation;

2. d'un biais, esp'erance de l''ecart du potentiel au r'ealis'e;

3. d'une erreur al'eatoire.

Yij = f(Zj, èi) + îj + uij (3.2)

o`u Zj est le vecteur des variables telles que la pluie, la temperature, etc. mesurees sur l'environnement j et èi le vecteur de longueur P des paramètres du genotype i. Nous supposons que le biais îj ne depend que de l'environnement j : il est donc le màeme pour tous les genotypes d'un màeme environnement. L'erreur uij est supposee aleatoire avecE(uij) = 0 et Var(uij) = ó2u.

Comme dit precedemment, les paramètres des modèles de simulation de cultures ne sont generalement connus que pour un petit nombre de genotypes. Considerons un modèle de simulation de cultures et un genotype de reference dont les paramètres sont connus et appelons è0 le vecteur de ses paramètres. Alors, supposons f de classe C1 dans un voisinage de è0 et f' derivable sur ce voisinage. De plus supposons èi au voisinage de è0. En pratique, les genotypes dont nous chercherons a` estimer les paramètres seront choisis de telle sorte qu'ils ne soient pas trop eloignes du genotype de reference. Alors, un developpement en serie de Taylor a` l'ordre 1 nous donne :

f(Zj, èi) = f(Zj, è0) +

XP ?f

[(p) (e) - è()) + ? [(èi - è0)' (èi - è0)] (3.3)

p=1 0=00 ,Z=Zj

avec è(p) iet è0p) la pe composante du vecteur de paramètres respectivement du genotype i et du genotype de reference.

Posons

X4p) = [?Zd0=00,Z=Zj

c'est une fonction de l'environnement j, et

â(p) i= è(p) i-- è(p)

0

une fonction du g'enotype i.

La fonction X(p)

j est la d'eriv'ee partielle de la sortie du modele de simulation de cultures pour l'environnement j par rapport a` la pe composante du vecteur de parametres de la vari'et'e de r'ef'erence. Comme la fonction f n'est pas g'en'eralement connue analytiquement, ces sensibilit'es peuvent àetre obtenues par une m'ethode de d'erivation num'erique. Nous avons retenu tout simplement

X(p) = ? f

j [f + hè,c)p) ) -- f (èOp) -- hè,c,p))

[BB(P) 0=00,Z=Zj 1

2h (

è,?

Z=Zj

avec hè(p) 0tres petit, de l'ordre de è0p).10-4 en pratique. D'autres m'ethodes existent, celle-ci 'etant la plus simple et la plus 'econome en calculs.

Avec ces notations et d'apres les 'equations (3.2) et (3.3) qui permettent d''ecrire

f(Zj, è0) = Y0j -- îj -- u0j

nous pouvons poser, en n'egligeant o [(èi -- è0)'(èi -- è0)] :

Yij -- Y0j =

XP
p
=1

X(p)

j
· â
(p)

i + oij (3.4)

o`u oij = uij -- u0j.

Ainsi,E(oij) = 0, Var(oij) = 2ó2 u,Cov(oij, oi'j') = 0, mais Cov(oij, oi'j) = ó2 u.

Si nous disposons de I g'enotypes et de J environnements, nous pouvons poser le modele suivant :

Y -- (Y0 1I) = X
·
â + o (3.5)

Le vecteur Y repr'esente le rendement de tous les g'enotypes dans tous les envi-
ronnements, rang'e par environnement et par g'enotype. Si tous les g'enotypes

ont eteobserves une fois dans chaque environnement, ce vecteur est de lon-
gueur IJ. Puis Y'0 = (Y01 · · · Y0J) et 1I est un vecteur formede 1, de longueur

I.

Le symbole ? designe le produit de Kronecker.

Le vecteur o est un vecteur d'erreur aleatoire. Sa matrice de covariance est de la forme ó2uÙ avec

 
 

?
? ? ? ? ? ? ? ? ?

ù1

..

.

 
 

0

1

 

Ù=

 
 
 

ùj

 
 

o`u

 

0

 
 
 

...

ùJ

(

ùj =

2 1

...

1 2

?
? ? ?

Les matrices Ù et ùj sont carrees de nombre de lignes, respectivement le nombre d'observations de tous les environnements et le nombre d'observations de l'environnement j. La matrice Ù est bloc diagonale tandis que ùj est une matrice form'ee de 1 partout sauf des 2 sur la diagonale. Dans le cas o`u tous les genotypes ont etevus une seule fois dans chaque environnement, Ù est de dimension IJ × IJ et ùj de dimension I × I.

Ensuite,

X = [ X(1) ? II · · · X(p) ? II · · · X(P) ? II

o`u

X(p)' = [ X1p) ... XSp) ]

de longueur J, est le vecteur des derivees des sorties de notre modele de simulation de cultures, SarraH, dans chacun des environnements par rapport au pe parametre du vecteur de parametres du temoin.

La matrice II est la matrice identited'ordre I, la matrice X(p) 0II s'ecrit alors de cette facon :

X(p)

1
...

X(p)
( J )

0

(

1

.

0

0

..

1

)

=

X(p)

1

?

0

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

X(p)

J

0

...

...

0

?

X(p)

1

...

0

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

X(p)

J

C'est une matrice a` IJ lignes et I colonnes. Par consequent, la matrice X est de dimension IJ x PI.

Enfin

â = [ â(1)' ...â(P)' 1'

avec

â(p)' = [ â1.p) ... â(p) ]

Nous avons proposed'appeler cette methode par l'acronyme APLAT : Ap-
proximation Par Linearisation Autour d'un Temoin. Elle consiste a` appro-
cher, localement, le rendement predit par un modele de simulation de cultures,

par s'erie de Taylor a` l'ordre 1 au voisinage du vecteur de paramètres d'un g'enotype de r'ef'erence. Cette lin'earisation permet, par r'egression lin'eaire, l'estimation des paramètres de ces g'enotypes. Par la suite, la pr'ediction de l''ecart entre le rendement de ces g'enotypes et celui du g'enotype de r'ef'erence dans des environnements nouveaux, c'est a` dire o`u ils ne sont pas encore test'es, pourra se faire si le climat de ces derniers est connu.

Il y a en g'en'eral beaucoup de paramètres dans un modèle de simulation de cultures et peu d'environnements dans un essai multienvironnement, ce qui rend souvent PI grand par rapport a` IJ.

Pour notre exemple, nous avons utilis'e SarraH comme modèle de simulation de cultures. Ce modèle dispose de 61 paramètres fonction du g'enotype. Avec un tel nombre de pr'edicteurs, l'estimation de â s'est faite par r'egression PLS. Ceci permet de r'eduire l'espace des r'egresseurs de rang de X a` k dimensions.

La r'egression PLS, voir section 3.1, s'effectue selon le principe de l'algorithme NIPALS, Nonlinear estimation by Iterative Partial Least Squares, (Tenenhaus, 2001) o`u un ensemble de r'egressions successives par moindres carr'es ordinaires est effectu'e, en même temps que le calcul des composantes.

Ici, la matrice de covariance de o est 'egale a` ó2 uÙ et non a` ó2 uIIJ. La solution serait d'effectuer toutes les r'egressions partielles par moindres carr'es g'en'eralis'es. Mais cette matrice de covariance est inconnue. Elle s''ecrit tout de même a` une constante multiplicative près en fonction de Ù qui elle est connue. La matrice Ù 'etant sym'etrique et semi-d'efinie positive, par d'ecomposition de Cholesky, il existe une matrice ç tel que ç'ç = Ù-1.

Si nous multiplions a` gauche tous les termes du modèle 3.5 par ç, nous obtenons le modèle 3.6 dont les erreurs sont ind'ependantes.

çY - ç(Y0 ? 1I) = çX · â + ço (3.6)

En effet, la variance de l'erreur ço s''ecrit

uçç-1(ç')-1ç' = ó2

E(çoo'ç') = çI(oo')ç' = ó2 uçÙç' = ó2 uç(ç'ç)-1ç' = ó2 uIIJ

â peut alors être estim'e a` l'aide des moindres carr'es ordinaires, appelons âPLS son estimateur.

Le nombre de composantes a` retenir est d'etermin'e par le PRESS, Prediction Error Sum of Squares (Tenenhaus, 2001).

3.2.2 Illustration avec les données de l'essai pluriannuel

Les données

Les donn'ees sont les r'esultats de l'essai pluriannuel (tableau 1.1, page 13). Rappelons que le g'enotype de r'ef'erence est le 55-437, un g'enotype de 90 jours. C'est une vari'et'e largement cultiv'ee au S'en'egal, dans le bassin arachidier, a` ce titre elle a 'et'e pr'esente comme t'emoin dans tous les essais et c'est elle aussi qui a servi pour le param'etrage du modèle SarraH.

Dans ce milieu a` forte variabilit'e des pluies dans l'espace et même dans le temps pour un même lieu, nous avons consid'er'e chacune des 5 ann'ees d'exp'erimentation comme un environnement (figure 3.1).

SarraH a 'et'e utilis'e pour calculer X. Compte tenu du nombre de donn'ees disponibles, seuls deux paramètres (P = 2) ont 'et'e consid'er'es parmi les 61 de SarraH. Le premier paramètre est en fait un coefficient multiplicateur qui agit sur 5 paramètres de SarraH : Coefficient moyen d'angle des feuilles, Coefficient de conversion en assimilat, Coefficient d'efficience d'assimilation des feuilles a` la phase v'eg'etative juv'enile, Coefficient d'efficience d'assimilation

FIG. 3.1 - R'epartition des pluies sur la station de Bambey au S'en'egal de 1994 a` 1998.

MIT

0 50 100 150 200 250

1994 1995 1996 1997 1998

Juin Juillet Août Septembre Octobre

des feuilles a` la première phase de maturation - phase sensible de remplissage des grains - et Coefficient d'efficience d'assimilation des feuilles a` la deuxième phase de maturation - phase non sensible -. Le deuxième paramètre est le poids moyen des gousses.

Validation croisée

Pour valider notre modèle, nous avons r'eserv'e successivement chacune des ann'ees et estim'e les paramètres des g'enotypes sur les ann'ees restantes. Pour chacune des cinq ann'ees, nous avons identifi'e un modèle par la m'ethode APLAT et les rendements observ'es ont 'et'e compar'es a` ceux ainsi pr'edits. Les rendements sont exprim'es en kilogrammes de gousses par hectare.

L''evaluation de la qualit'e de chaque modèle propos'e est faite avec l'erreur
quadratique moyenne de pr'ediction MSEP, Mean Squared Error of Prediction

(Wallach et Goffinet, 1987). La MSEP est utilis'ee comme critère pour comparer diff'erents modèles dont le mod`ele moyen (Colson, Wallach, Bouniols, Denis et Jones, 1995) d'efini pour nos donn'ees par :

Yij = m + gi + Ej + äij (3.7)

o`u m est la moyenne de la population et gi l'effet g'enotype. L'effet Ej de l'environnement j est suppos'e al'eatoire, d'esp'erance nulle et de variance ó2E. Les erreurs äij sont ind'ependantes, d'esp'erance nulle et de variance ó2ä. De plus, Ej et äij sont suppos'es ind'ependants.

Le modèle moyen n'est rien d'autre que le modèle lin'eaire mixte (2.1) o`u l'interaction al'eatoire G×E, impr'evissible, est fusionn'ee avec le terme d'erreur qui porte les màemes indices i pour le g'enotype et j pour l'environnement.

Nous avons calcul'e les intervalles de confiance des coefficients estim'es par la m'ethode bootstrap (Efron, 1979). Cette technique permet d'estimer la loi inconnue d'un estimateur par une loi empirique obtenue a` partir d'une proc'edure de r'e'echantillonnage fond'ee sur des tirages al'eatoires avec remise des donn'ees. Les intervalles de confiance construits sont de type percentile-t (Aji, Tavolaro, Lantz, et Faraj, 2003).

Soit z(p)?b

i,PLS la variable al'eatoire d'efinie par :

(p)?b
zi,PLS =

(3.8)

ei?LbS)

â(p)?b i,PLS- 7A,S

s?(

o`u â(p)i,PLS est le (p.i)e 'el'ement de eâPLS, il s'agit du pe paramètre de la ie vari'et'e
estim'e par la m'ethode PLS. gL?bS est obtenu au be tirage avec b = 1,
·
·
·
, B.

de la matrice de variance de

â(p)?b i,PLS.

Soit bFB la fonction de répartition empirique des z(pP )?b Le fractile d'ordre á,

i LS'

1
B

XB
b=1

FB (á) est estimépar la valeur bt(á) telle que

1n = á

z(p)?b

Alors un intervalle de confiance percentile-t pour le (p.i)e élément de 13 peut s'écrire :

hs(â(p)i,PLS) t(1 - á) , /R1,3P)LS - s(â(p)i,PLS) · Rá) ] (3.9)

R'esultats

Pour les modeles sans les données respectivement de 1994, 1995 et 1997, le PRESS minimal est atteint avec 6 composantes. Pour les deux autres modeles, le PRESS est minimal avec 9 composantes, mais nous avons réduit leur espace a` 5 dimensions car le PRESS n'y est pas trop différent de ses valeurs minimales (figure 3.2).

Les coefficients des régressions PLS et les intervalles de confiance qui leur sont associés, sont représent'es a` la figure 3.3.

Les MSEP estimées pour les modeles APLAT, sauf celle sans les données de l'année 1998, sont inférieures aux MSEP des modeles moyens correspondants (tableau 4.2). Ce qui signifie que pour ces modeles, prédire le rendement par la méthode APLAT est meilleur que par la moyenne des rendements du passé. Ainsi, 4 fois sur 5, la méthode APLAT s'est révélée meilleure que le modele moyen. Toutefois, cette étude souffre de la faible taille de notre échantillon.

Evolution du PRESS en fonction du nombre de composantes. Le FIG. 3.2 - modèle (-1994) utilise les données sauf celles de l'année 1994 et ainsi de suite.

PRESS

0.0 0.5 1.0 1.5 2.0 2.5

PRESS

Modèle (-1994) : Dim. opt. 6, PRESS=0.051

5 10 15 20

Dim. Mod.

Modèle (-1996) : Dim. opt. 9, PRESS=0.037

5 10 15 20

Dim. Mod.

Modèle (-1995) : Dim. opt. 6, PRESS=0.061

5 10 15 20

Dim. Mod.

Modèle (-1997) : Dim. opt. 6, PRESS=0.034

5 10 15 20

Dim. Mod.

Modèle (-1998) : Dim. opt. 9, PRESS=0.046

5 10 15 20

PRESS

0.0 0.5 1.0 1.5

PRESS

0.0 0.5 1.0 1.5

PRESS

Dim. Mod.

Intervalle de confiance percentile-t a` 95% des coefficients es-
timés. Le modèle (-1994) est sans les données de 1994 et ainsi

FIG. 3.3 - de suite. Sur l'axe des abscisses, les valeurs de chaque paramètre sont rangées par ordre alphabétique de génotype. Le symbole représente l'estimation ponctuelle des coefficients.

0.5 1.0 1.5 2.0 2.5

3

Paramètre 1 Paramètre 2

Modèle (-1994)

Paramètre 1 Paramètre 2

010 20 30

Modèle (-1996)

Paramètre 1 Paramètre 2

Modèle (-1995)

0 10 20 30

Modèle (-1997)

Paramètre 1 Paramètre

0 10 20 30 50 0 10 20 30

-0.5 0.0 0.5 1.0 1.5 2.0

Modèle (-1998)

Paramètre 1 Paramètre 2

50

40

30

0 10 20

 

APLAT

Modèle moyen

Modèle (-1994)

24

687,3

64

651,6

Modèle (-1995)

5

915,0

7

160,6

Modèle (-1996)

35

446,1

37

814,8

Modèle (-1997)

10

038,3

18

201,1

Modèle (-1998)

118

304,9

84

963,6

MSEP des différents modèles APLAT et modèles moyens corres-

TAB. 3.1 - pondants de l'essai pluriannuel. Le modèle (-1994) est sans les données de 1994 et ainsi de suite.

3.2.3 Illustration avec les données de l'essai multilocal

Les donn'ees sont les r'esultats de l'essai multilocal (tableau 1.2, page 15). Chaque lieu est r'eserv'e et l'estimation des paramètres effectu'ee sur les lieux restants.

Le modèle SarraH a aussi 'et'e utilis'e pour simuler le rendement de la vari'et'e de r'ef'erence dans les diff'erents lieux. Les deux paramètres a` r'eestimer restent les mêmes qu'àla section pr'ec'edente.

Les MSEP estim'es pour les modèles APLAT sont inf'erieures aux MSEP des modèles moyens correspondants, sauf celle sans les donn'ees de Wenthiwy (tableau 3.2). Ainsi, pour cet essai multilocal, la m'ethode APLAT s'est montr'ee meilleure que le modèle moyen 10 fois sur 11 (c''etait 4 fois sur 5 avec l'essai pluriannuel).

3.2.4 Conclusion

Au Sahel, l'interaction G×E est largement due aux al'eas climatiques, dont la probabilit'e peut être estim'ee a` l'aide de longues chroniques de relev'es m'et'eorologiques au sol. Cependant, relier l'interaction G×E et la pluviom'etrie a` l'aide d'un modèle de simulation de cultures n'est habituellement possible que pour des vari'et'es dont on a estim'e les paramètres, au prix d'une

 

APLAT

Modèle moyen

Modèle (sans Bambey)

10

289,4

45

374,1

Modèle (sans Gatte)

6

457,1

102

784,7

Modèle (sans Keur Fary)

3

474,2

44

457,9

Modèle (sans Ndangalma)

7

445,7

74

477,6

Modèle (sans Ndiadiane)

12

824,9

99

194,2

Modèle (sans Nioro)

47

015,4

157

989,6

Modèle (sans Nioro Sud)

234

506,4

738

389,6

Modèle (sans Pasokoto)

76

987,8

559

545,3

Modèle (sans Keur Samseun)

1

677,8

120

068,3

Modèle (sans Sinthiou Thiabala)

11

041,1

20

998,8

Modèle (sans Wenthiwy)

80

887,3

48

687,1

TAB. 3.2 - MSEP des différents modèles APLAT et modèles moyens correspondants de l'essai multilocal.

expérimentation spécifique. Le modèle APLAT permet de prédire cette interaction avec les seules données d'une expérimentation multilocale classique, sans autre instrumentation que des stations météorologiques simples.

La méthode APLAT peut être vue ainsi comme un outil d'aide a` la décision pour la sélection au Sahel. Dans l'exemple o`u un sélectionneur doit tester plusieurs génotypes dans un nouvel environnement, cette méthode lui permettra d'écarter d'emblée certains génotypes qui donneront une production faible. En lieu et place de longs essais multilocaux ou pluriannuels ou d'une tentative de paramétrisation d'un modèle de simulation de cultures qui implique un coàut élevé. Son attention sera portée par la suite sur l'ensemble restreint des génotypes retenus avec APLAT o`u il pourra appliquer les schémas classiques de sélection.

Cette méthode évite ainsi de recourir soit a` de longs essais multilocaux et pluriannuels, soit a` la paramétrisation coàuteuse d'un modèle de simulation de culture. De plus, elle permet d'assumer le choix des lieux comme devant expliquer largement la diversitédu milieu plutôt que de la représenter a` travers un sondage équiprobable. En effet, avec APLAT, seuls les résidus de

la modélisation de l'interaction G×E sont aléatoires, et non pas l'interaction toute entière.

Chapitre 4

La méthode APLAT-mixte

Dans ce chapitre, nous partirons de la m'ethode APLAT, qui nous le rappelons, consiste a` lin'eariser autour du vecteur de paramètres d'un g'enotype de r'ef'erence, la r'eponse de g'enotypes pr'edite par un modèle de simulation de cultures.

Notre hypothèse pour cette m'ethode, 'etait qu'un modèle de simulation de cultures, qui est une fonction des paramètres des g'enotypes et des caract'eristiques des environnements o`u nous voulons faire la pr'ediction, permet de capter la majeure partie de l'effet al'eatoire de l'environnement. Ce qui autorise la r'eduction des interactions al'eatoires G×E, et par là, facilite la s'election vari'etale.

Dans cette partie, nous revenons sur cette hypothèse faite en première approximation et consid'erons que certes, si l'al'ea de l'environnement peut être pris en compte par un modèle de simulation de cultures, il ne l'est toutefois pas totalement. Ainsi, si nous pensons toujours pouvoir mod'eliser les variations de la r'eponse d'un g'enotype dans un environnement par le biais de tels modèles de simulation, il subsistera n'eanmoins de l'al'ea environnemental,

responsable d''eventuelles interactions G×E, dont il conviendra d'estimer sa variance, le cas 'ech'eant.

Ce chapitre traite alors de notre deuxième m'ethode mise au point pour estimer les paramètres fixes issus de la lin'earisation du rendement des g'enotypes par le modèle SarraH et les composantes de variance de l'al'ea environnemental restant. Avec les nombreux paramètres de SarraH, ce qui est le cas pour la plupart des modèles de simulation de cultures, nous devons identifier un modèle o`u un nombre important de r'egresseurs et des composantes de variance coexistent. Nous avons a` cet effet, propos'e une m'ethode combin'ee de r'egression PLS et de modèle mixte pour l'estimation des paramètres inconnus. Il s'agit d'une extension de la m'ethode APLAT propos'ee au pr'ec'edent chapitre o`u cette fois-ci, il est not'e la pr'esence d'effets al'eatoires additionnels dont nous nous attacherons a` estimer les variances. Cette m'ethode a 'et'e d'enomm'ee APLAT-Mixte.

Nous d'ebutons ce chapitre par la Section 4.1 o`u nous faisons un retour sur le modèle mixte. Si les composantes de variance 'etaient connues, c'est-àdire s'il y avait uniquement une contrainte a` savoir le nombre important de r'egresseurs par rapport aux observations, une extension de la m'ethode PLS devrait suffire pour r'esoudre le problème. Une telle proc'edure est alors d'etaill'ee a` la Section 4.2. Comme ces composantes sont est en fait souvent inconnues, une m'ethode combin'ee de PLS et d'algorithme EM est pr'esent'ee a` la Section 4.3 pour estimer les paramètres inconnus. Les d'eveloppements de cette m'ethode appel'ee PLS-Mixte, sont fond'es dans un premier temps, sur un modèle mixte o`u des effets al'eatoires sont suppos'es simplement de variance ó2I. Pour l''eprouver, nous nous sommes 'eloign'es de nos donn'ees qui ne s'y prêtent pas et avons eu recours a` des donn'ees de NIRS. Ensuite, puisque nos donn'ees d'interaction G×E peuvent être appr'ehend'ees a` travers un modèle mixte o`u les effets al'eatoires sont suppos'es de variance ó2Ä, nous avons adapt'e la m'ethode PLS-Mixte a` ce type de modèle.

4.1 Le modèle mixte

Consid'erons un modèle lin'eaire mixte comme d'ecrit par McCulloch et Searle (2001). Le vecteur des observations Y de dimension n × 1 est suppos'e suivre le modèle suivant :

Y = Xâ + Zu + e (4.1)

o`u â d'ordre p est le vecteur de paramètres des effets fixes, u d'ordre q le vecteur de paramètres des effets al'eatoires, X et Z deux matrices d'incidence connues, et e le vecteur d'erreur al'eatoire.

Dans ce modèle, si nous avons r effets al'eatoires, Zu peut être d'ecompos'e comme suit :

u1
...

=

Xr
k
=1

Zkuk

Zu = [ Z1 · · · Zr ]

ur

o`u uk d'ordre qk, est le vecteur des effets al'eatoires pour le facteur k avec les suppositions i(uk) = 0, Var(uk) = ó2 kIqk ? k, et Cov(uk,u' k') = 0 pour k =6 k',

q= Xr qk

k=1

Aussi i(e) = 0, Var(e) = ó2 eIn et Cov(uk, e') = 0 ? k. La fonction i(·) indique l'esp'erance.

En posant u0 = e, q0 = n et Z0 = In comme dans la pr'esentation de Rao et Kleffe (1988), l''equation (4.1) devient

Y = Xâ + Xr Zkuk (4.2)

k=0

et V = Xr ZkZ'2 k

k=0

L'estimation des paramètres â et ó2 k peut se faire concomitamment au moyen des méthodes de vraisemblance ML, Maximum likelihood ou REML, Restricted or residual maximum likelihood. Pour chacune de ces méthodes, une fonction log-vraisemblance est maximisée par rapport aux paramètres inconnus. La fonction log-vraisemblance pour la méthode ML (REML étant une variation de ML) s'écrit,

l = (-1/2)[log |V| + (Y - Xâ)'V-1(Y - Xâ) + n log(2ð)]

En dérivant la fonction l par rapport a` â et a` chacun des ó2 k et en annulant ces dérivées, nous obtenons r + 1 équations pour ó2 k et une équation pour â.

? ?

?

?l/?â = 2X'V-1Y - 2X'V-1Xâ

[ ]

?l/?ó2 k = -(1/2) tr(V-1V' k) - (Y - Xâ)'V-1V' kV-1(Y - Xâ)

oiV' k = ?V/?ó2 k

Les solutions de ce système d'équations ne sont généralement pas obtenues de façon explicite. Pour résoudre ce problème d'optimisation, l'on a recours a` des algorithmes itératifs tels que celui de Newton-Raphson ou l'algorithme EM, Expectation maximization.

Ces deux méthodes d'itérations requièrent des valeurs initiales pour les pa-
ramètres inconnus. L'algorithme EM permet de s'approcher de la région de

l'optimum plus rapidement mais la progression vers l'optimum est lente. Au contraire, celui de Newton-Raphson, malgréqu'il soit instable loin de l'optimum, permet une convergence vers celui-ci beaucoup plus rapidement une fois dans sa région.

L'algorithme de Newton-Raphson utilise un développement de premier ordre de la fonction score c'est-à-dire du gradient de la fonction log-vraisemblance autour de l'estimation du paramètre a` la me itération pour fournir l'estimation a` la (m + 1)e itération. Chaque étape dans l'algorithme nécessite le calcul de la fonction score et de sa dérivée, la matrice hessienne de la logvraisemblance.

L'algorithme EM (Meng and van Dyk, 1997) permet l'estimation de paramètres dans des modèles avec des données incomplètes. L'argumentaire de l'utilisation de cet algorithme dans le cadre du modèle mixte est fourni en détail par Searle, Cassella et McCulloch (1992, pp. 297-303). Ainsi, les effets aléatoires sont-ils vus comme des données non observées. Searle et al. considèrent alors que si ces effets aléatoires étaient connus, l'estimation des paramètres inconnus pourrait facilement se faire. En effet, il suffirait d'adopter une démarche a` deux étape.

D'abord, estimer la variance de chaque effet aléatoire par

2 k = (1/qk) Xqk (uk - uk)2 = (1/qk) Xqk u2 k = u' kuk/qk k=1 k=1

o`u uk d'ordre qk est supposégaussien d'espérance nulle et de variance ó2 k.

Ensuite, déduire ces effets aléatoires supposés connus du vecteur des données Y et appliquer une régression OLS, Ordinary least squares, sur le modèle suivant

Y - Xr Zkuk ~ N(Xâ, ó2 0In) k=1

Mais comme ces effets al'eatoires ne sont pas connus en r'ealit'e, l'algorithme EM permet de calculer les valeurs conditionnelles de u'iui a` utiliser a` la place de u'iui et les valeurs conditionnelles de ui a` la place de ui.

Selon la terminologie de l'algorithme EM, dans le cas du mod`ele mixte, les donn'ees observ'ees Y sont appel'ees donn'ees incompl`etes et Y en plus des effets al'eatoires non observ'es u1, . . . , ur constituent les donn'ees compl`etes. Nous rappelons ci-dessous cet algorithme pour l'estimation des param`etres fond'ee sur une variation de ML publi'ee par Laird (1982). Les valeurs calcul'ees ók 2(m) de óz sont obtenues apr`es la me it'eration et sont utilis'ees pour la mise a` jour de la variance V-1(m).

'Etape 0 Poser m = 0 et choisir des valeurs initiales 2(0)

ók

'Etape 1 ('Etape-E) Calculer

Q(ó2 | ó2(m)) =Eó2(m)(u'kuk | Y)

= qkók
· ak

2(m) + 4(m) [Y'P(m)ZkZ'kP(m)Y - tr(Z'kV-1(m)Zk)1 o`u P(m) = V-1(m) - V-1(m)X(X'V-1(m)X~-X'V-1(m)

'Etape 2 ('Etape-M) Determiner ó2k(m+1) qui maximise Q(ó2 | ó2(m)) c'est-`a-dire,

tel que Q(ó2(m+1) | ó2(m)) Q(ó2 | ó2(m)). Alors,

ók2(m+1) = Eó2(m)(ukuk | Y)/qk for k = 0, 1,···, r

'Etape 3 A la convergence c`ad L(ó2k (m+1) | Y) -L(ó2k (m) |Y) ç o`u

ç est une quantit'e arbitrairement petite et L la fonction de vraisemblance, prendre2k = ók2(m+1) et alors calculer

Xbâ = X(X'V-1(m+1)X)-X'V-1(m+1)Y

sinon ajouter 1 a` m et retourner a` l''Etape 1.

A l''Etape-E, calculer l'esp'erance de la vraisemblance conditionnelle fond'ee sur fY,u1,··· ,ur,la fonction de densit'e des donn'ees compl`etes sachant les donn'ees incompl`etes est 'equivalent a` calculerEó2(m)(u'kuk | Y).

4.2 La r'egression PLS sur un modèle de variance connue

La régression PLS est une méthode d'estimation particulière utilisée pour les modèles linéaires avec l'éventualitén < p. Pour ce type d'analyse, l'objectif est de prédire Y par des combinaisons linéaires des colonnes de X appelées variables latentes. Il est habituellement mis en oeuvre a` l'aide de l'algorithme NIPALS, Nonlinear estimation by iterative partial least squares (Wold 1966; de Jong 1993) o`u le calcul des variables latentes est effectuésimultanément avec un ensemble de régressions par OLS. Cependant, ces régressions sont adéquates seulement dans le cas des erreurs sur Y iid.

L'algorithme PLS appliquéa` un modèle de variance connue est effectuéen remplaçant les régressions OLS sur les variables latentes par des régressions GLS, General least squares, dont voici la description.

1. Centrer et éventuellement réduire X et Y : x0 = X, y0 = Y

2. Pour h = 1,··· ,H avec 1 H rang(X)

(a) Calculer les p-vecteurs wh = [w1 h · · · wp h]' V/X

o`u wp h = Cov(xp h, yh)/ Cov2(xp h, yh) et xp h la pe colonne de xh

p

(b) Normer wh : wh = wh/ wh II

(c) Calculer les variables latentes PLS th = xh-1wh

(d) Calculer ch par régression GLS de yh-1 sur th

yh-1 = thch + yh o`u Var(yh-1) = V ch =(t' hV-1th)-t' hV-1yh-1

(e) Calculer ph par régression de xh-1 sur th

)-1t'

xh-1 = thp' h + xh d'o`u p' h =(t' hth hxh-1

(f) Calculer les résidus xh et yh

(g) Alors Y = t1c1 +
·
·
· + thch + yh

Ainsi, le seul changement par rapport a` l'algorithme PLS classique est le remplacement de la régression OLS par la régression GLS au point 2.(d).

4.3 La méthode PLS-Mixte

Les méthodes de vraisemblances, ML ou REML, comme techniques pour estimer les paramètres fixes et les composantes de variance dans un modèle linéaire mixte, ne sont applicables que dans le cas classique o`u le nombre de régresseurs est faible devant le nombre d'observations, c'est-à-dire n > p. Dans ce cas, comme nous l'avons vu, un algorithme itératif tel que l'algorithme EM est nécessaire pour obtenir l'estimation des paramètres inconnus.

Pour traiter du cas n < p, nous proposons d'imbriquer une méthode de réduction de dimension telle que la régression PLS dans l'algorithme EM. Puisqu'il s'agira d'estimer des composantes de variance dans un contexte de réduction de dimension, nous avons appelécette technique PLS-Mixte.

Avant cette méthode proposée, dans les modèles o`u il y avait plus de régresseurs que d'observations et plusieurs sources de variation, l'estimation des paramètres inconnus se faisait simplement par régression PLS, c'est-à-dire sans

tenir compte précisément des sources de variation. Aussi, avons-nous comparél'estimation faite par simple régression PLS a` celle faite par notre méthode en

utilisant le critère MSEP, Mean square error of prediction, dans les différentes applications de ce chapitre. La question de la convergence sera abordée plus loin.

4.3.1 La méthode PLS-Mixte sur un modèle a` effets aléatoires indépendants de variances homogènes

Nous nous plaçons dans le cadre du modèle 4.2 et considérons que n < p. Nous proposons la méthode PLS-Mixte qui consiste donc a` imbriquer une méthode de réduction de dimension telle que la régression PLS dans l'algorithme EM. Cette méthode d'estimation est fondée sur ML et ses variantes. L'estimation par ML est réalisée en maximisant la vraisemblance de Y par rapport aux paramètres inconnus.

Suivant l'algorithme EM, nous prenons des valeurs de départ pour les paramètres inconnus. Ces valeurs permettent de calculer les variables latentes obtenues a` partir du modèle (X, Y) vu que la variance V(0) est connue, les valeurs initiales ó2(0)

k étant choisies. Sur ces variables latentes, sont calculées les composantes de varianceó2(1)

k comme dans le cas classique de l'algorithme

EM. Avec les valeurs ó2(1)

k , ces étapes sont répétées avec les composantes ó2(0)

k

remplacées par les estimations courantes ó2(1)

k . Ce processus itératif est alors

continuéjusqu'àconvergence. Nous décrivons ci-dessous l'algorithme de la méthode proposée avant de le détailler plus loin.

'Etape 1 ('Etape-E) Centrer et reduire X et Y

'Etape 1.1 Reduire la dimension de l'espace des regresseurs en

determinant les h variables latentes T(m) = [t(m)

1 · · · t(h :m)]

vu que la variance V(m) est connue 'Etape 1.2 Calculer

Q(ó2 | ó2(m))

=Eó2(m)(u'iuk | Y)

= qkó2(m) k + ó4(m) [Y'P(m)ZkZ'kP(m)Y - tr(ZkV-1(m)Zk)1

o`u P(m) = V-1(m)-V-1(m)T(m)(T(m)'V-1(m)T(m))-T(m)'V-1(m)

'Etape 2 ('Etape-M) Determiner ó2k(m+1) qui maximise Eó2(m)(u'iuk | Y) c`ad, tel

que QT(m)2(m+1) | ó2(m)) % QT(m)2 | ó2(m))

ók2(m+1)

= Eó2(m)(u'iuk | Y)/qk pour k = 0, 1, · ··, r

'Etape 3 Si convergence, prendre2k = ók2(m+1) et alors calculer

X-â = X(X'V-1(m+1)X)-X'V-1(m+1)Y

sinon ajouter 1 a` m et retourner a` 'Etape 1.

Les variables latentes sont ainsi recalculees au debut de chaque iteration dans l'algorithme EM avec les composantes de variance mises a` jour. Cet algorithme de la methode PLS-Mixte fondee sur une variation de ML est detaillede la facon suivante.

'Etape 1 Centrer et reduire X et Y : x0 = X, y0 = Y

'Etape 1.1 Pour h = 1,2, ... , rang(X)

(a) Calculer les p-vector wh = [w1h · · · wph]'

o`u wph = Cov(xph,yh)/ E Cov2(xph, yh) et xph la pe

p

colonne de xh

(b) Normer wh : wh = wh/ II wh II

(c) Calculer les variables latentes t(m)

h = xh-1wh

(d) Calculer ch par regression GLS de yh-1 sur t(m)

h

yh-1 = t(h m)ch + yh o`u Var(yh-1) = V(m) =

Xr
k
=0

ZkZ'k2(m)

ch =~t(m)'

h V-1(m)t(m) ~-t(m)'

h V-1(m)yh-1

h

(e) Calculer ph par regression de xh-1 sur t(m)

h
~-1t(m)'

xh-1 = t(m)

h p' h + xh d'o`u p' h =~t(m)'

h t(m) h xh-1

h

(f) Calculer les residus xh and yh

(g)

Xr
i
=0

Ziui

Finalement Y = T(m)C +

o`u T(m) =[t(m)

1 ···t(h m)] et C = [c1 · · · ch]'

'Etape 1.2 Calculer

2m+1)

ók( = C r k 2(m) + (ó k(m) / qk) [Y'P(m) Z kZ'kP(m)Y - tr (Z'kV -1(m) Zk)1

o`u P(m) = V-1(m)-V-1(m)T(m)(T(m)'V-1(m)T(m))-T(m)'V-1(m)

'Etape 2 Si convergence, prendre2k = ó2k(m+1) ; sinon ajouter 1 a` m

et retourner a` l''Etape 1.1

La procedure REML, quant a` elle, maximise la vraisemblance de certaines combinaisons lineaires des elements de Y par rapport aux param`etres inconnus (McCulloch and Searle, 2001). Notre methode fond'ee sur cette procedure REML est effectuee en remplacant l''Etape 1.2 par

2(m+1)

ói = ó(m) + (ó4(m) /qi) [Y'P(m)ZiZ'iP(m)Y - tr(Z'iP(m)Zi)]

o`u P(m) reste defini comme ci-dessus.

Convergence de l'algorithme de la m'ethode PLS-Mixte :

Les proprietes de convergence de l'algorithme EM restent valides avec cette methode PLS-Mixte, en particulier sa convergence monotone. Par exemple, pour la monotonocitede l'algorithme EM, nous devons montrer que la fonction de vraisemblance, L(ó2 | Y) ne decroit pas apr`es une iteration, c'est-`adire,

LT(m)(órm+1) | Y) LT(m-1)(ói 2(m)| Y) (4.3)

o`u la valeur de la vraisemblance LT(m)(ó2(m+1) | Y) est calculee a` la (m + 1)e

i

iteration en utilisant les valeurs actuelles de T(m) comme regresseurs et la valeur de la vraisemblance LT(m-1)(ói 2(m) | Y) calculee a` la me iteration avec les valeurs de T(m-1)

Pour l'algorithme EM classique, le fait que la vraisemblance augmente a` chaque iteration est un resultat bien connu qui a etemontrepar Dempster, Laird et Rubin (1977) et discuteplus tard par Wu (1983) et par McLachlan et Krishnan (1997).

Nous nous sommes fond'es sur ce resultat pour montrer l'inegalite(4.3). La fonction de densiteconditionnelle des donnees compl`etes [Y, u'] o`u u' = [u' 1,· · · ,u'r] sachant les donnees incompl`etes Y est egale a`

k([Y,u'] | Y, ó2) = f[Y,u']([Y,u'] | ó2)

f(Y | ó2)

(4.4)

Alors la fonction log-vraisemblance des donnees incompl`etes peut s'ecrire comme suit :

l(ó2 | Y) = ln (f(Y | ó2))

= ln (f[Y,u']([Y, u'] | ó2)/k([Y, u'] | Y, ó2))

= ln (f[Y,u']([Y, u'] | ó2)) -- ln (k([Y, u'] | Y, ó2)) = l[Y,u']2 | [Y, u']) -- ln(k([Y,u'] | Y, ó2))

L'esperance de cette equation est prise par rapport a` la distribution conditionnelle des donnees compl`etes sachant les donnees incompl`etes, et en utilisant ó2(m) a` la place de ó2. Ainsi,

Eó2[l(ó2 | Y) | Y1 = lT(m-1)(ó2 | Y) (4.5)

= IEó2(m) [l[Y,u']2 | [Y,u']) | Y1

--Eó2(m) [ln(kT(m-1)([Y,u'] | Y, ó2)) | Y1

Nous avons, a` l''Etape-E de l'algorithme du mod`ele PLS-Mixte avec une variance connue (section 2.2), la relation suivante :

Eó2(m) [l[Y,u']2 | [Y,u']) | Y1 =Eó2(u'u | Y)

= QT(m-1)(ó2 | ó2(m))

et en posant

GT(m-1)(ó2 | ó2(m)) = [Eó2(m) [ln(kT(m-1)([Y,u'] | Y,ó2)) | Y1

l'equation (4.5) devient

lT(m-1)(ó2 | Y) = QT(m-1)(ó2 | ó2(m)) -- GT(m-1)(ó2 | ó2(m))

Nous pouvons maintenant calculer

lT(m)(ó2(m+1) | Y) - lT(m-1)(ó2(m) | Y) = QT(m)(ó2(m+1) | ó2(m))

- GT(m)(ó2(m+1) | ó2(m))

- QT(m-1)(ó2(m) | ó2(m)) +GT(m-1)(ó2(m) | ó2(m))

La quantit'e QT(m)(ó2(m+1) | ó2(m))-QT(m-1)(ó2(m) | ó2(m)) est positive car ó2(m+1)

est choisie tel que

QT(m)(ó2(m+1) | ó2(m)) = QT(m-1)(ó2 | ó2(m)) ? ó2

Et, ? ó2

GT(m-1)(ó2 | ó2(m)) - GT(m-1)(ó2(m) | ó2(m)) = Eó2(m) [ln(kT(m-1)([Y,u'] | Y, ó2)) | Y]

-Eó2(m) [ln(kT(m-1)([Y,u'] | Y,ó2(m))) | Y]

= ln(1)

= 0

Ce r'esultat est montr'e par McLachlan et Krishnan (1997) pour l'algorithme
EM classique o`u les r'egresseurs sont consid'er'es comme fixes. Ici, la quantit'e

GT(m-1)(ó2 | ó2(m)) - GT(m-1)(ó2(m) | ó2(m))

est prise, ? ó2, par rapport aux màemes r'egresseurs T(m-1). Ce qui ne change donc pas le r'esultat.

Nous avons alors

lT(m)(ó2(m+1) | Y) - lT(m-1)(ó2(m) | Y) ~ 0

La m'ethode PLS-Mixte, utilise entre autres, la technique de r'eduction de dimension. Et dans ce sens, il faudra d'eterminer la dimension du modèle retenue. Pour cela, nous choisissons un nombre maximum h (h < rang(X)) de variables latentes au d'epart. La m'ethode it'erative d'ecrite plus haut permettra de calculer et d'actualiser tour a` tour ces h variables latentes et les composantes de variance. Avec ces composantes de variance estim'ees au final sur le modèle a` h variables latentes, les PRESS, Prediction error sum of squares (Stone 1974), des h sous-modèles avec respectivement 1, 2,
·
·
·
, h r'egresseurs sont calcul'es. La dimension retenue est celle du sous-modèle a` plus faible PRESS.

Illustration avec des données de NIRS

Les algorithmes pr'esent'es ci-dessus sont test'es et appliqu'es a` titre illustratif sur un jeu de donn'ees de Rami, Dufour, Trouche, Fliedel, Mestres, Davrieux, Blanchard et Hamon (1998).

Il s'agit d'une population de lign'ees recombinantes de sorgho 'etudi'ee a` la station exp'erimentale de l'INERA au Burkina Faso. Cette population est obtenue par une m'ethode »modified single-seed descent» avec le g'enotype IS 2807 (collection de l'ICRISAT) consid'er'e comme femelle crois'ee avec le g'enotype 249 (collection du CIRAD) consid'er'e comme màale. Cette population de 90 individus fut r'ecolt'ee en 1995 a` la g'en'eration F7, a` partir d'un dispositif exp'erimental en lattice 9x10 avec trois r'ep'etitions.

Nous avons seulement retenu la teneur en prot'eine parmi un ensemble de mesures biochimiques effectu'ees sur les lign'ees, pour nous conformer aux conditions de notre m'ethode; c'est-à-dire qu'il n'est consid'er'e qu'une seule variable a` expliquer.

Pour cette teneur en prot'eine, il a 'et'e utilis'e une m'ethode traditionnelle de mesure, fiable mais longue a` effectuer; les valeurs mesur'ees sur toutes les lign'ees constituent le vecteur Y.

Parallèlement a` cette m'ethode de mesure, la technique NIRS, Near infrared reflectance spectroscopy, beaucoup plus rapide a 'et'e effectu'ee; les spectres d'absorption obtenus pour 1050 longueurs d'onde constituent la matrice X. La s'erie de longueurs d'onde consid'er'ee est constitu'ee d'une s'equence de 400 a` 1098 par 2 (figure 4.1).

FIG. 4.1 - Spectres d'absorption proches de l'infrarouge pour une population de lignées de sorgho récoltées en 1995 a` la Station expérimentale de l'INERA au Burkina Faso.

500 1000 1500 2000 2500

absorbance

0.1 02 0.3 0.4 0.5 0.6 0.7

longueurs d'onde

Au delàde notre souci d'utiliser ces donn'ees pour tester et 'eprouver notre m'ethode, l'int'erêt de cette 'etude chez le praticien, pourrait être de calibrer la technique NIRS sur le sorgho pour la teneur en prot'eine dans le but d'obtenir une m'ethode de mesure rapide en tenant compte de la structure particulière de la covariance des erreurs induite par le dispositif exp'erimental.

Pour la mise en oeuvre de la m'ethode PLS-Mixte sur ces donn'ees, il existe cependant des donn'ees manquantes a` savoir la troisième r'ep'etition et trois lign'ees des deux autres r'ep'etitions. Eu 'egard au nombre important de longueurs d'onde (1050) et la corr'elation massive habituellement constat'ee sur les donn'ees de NIRS, nous avons d'ecid'e de conserver syst'ematiquement une longueur d'onde toutes les cinq.

Le modèle consid'er'e pour ces donn'ees s''ecrit comme suit :

Y = Xâ + Z1u1 + Z2u2 + e (4.6)

o`u u1 d'ordre 2 est l'effet al'eatoire de la r'ep'etition et u2 d'ordre 20 l'effet al'eatoire du bloc hi'erarchis'e dans la r'ep'etition.

Finalement, la dimension de Y est 174×1 et la dimension de X est 174×210. Aussi, Z1 est une matrice 174×2 et u1 un vecteur 2×1 tandis que Z2 est une matrice 174×20 et u2 un vecteur 20×1.

Les hypothèses pour ce modèle sont par cons'equent

? ????

????

u1 ~ N(0,ó21I2)

u2 ~ N(0, ó2 2I20)

u0 ~ N(0,ó2 0I174) avec u0 = e

Nous avons donc pour ce modèle, plus de r'egresseurs que d'observations (210 contre 174) et trois composantes de variance a` estimer (ó21 pour l'effet al'eatoire de la r'ep'etition, ó2 2 pour l'effet al'eatoire du bloc et ó2 0 pour l'erreur r'esiduelle al'eatoire). Nous allons donc avoir recours a` la m'ethode PLS-Mixte fond'ee sur ML et sur REML pour estimer les quatres paramètres â, ó2 1, ó2 2 et ó2 0.

Pour le calcul du PRESS, nous avons, comme annonc'e plus haut, choisi un
nombre maximum de 10 variables latentes. Avec un modèle de dimension 10,

nous avons utilis'e la m'ethode PLS-Mixte pour estimer les trois composantes de variance. Par la suite, pour chacun des sous-modèles de dimension 1 a` 10, nous avons enlev'e successivement chaque lign'ee (dans les deux r'ep'etitions) dont nous avons pr'edit sa teneur en prot'eine par les lign'ees restantes en utilisant une r'egression GLS avec les composantes de variance estim'ees sur le modèle de dimension 10.

Le PRESS d'ecroàýt continuellement avec le nombre de variables latentes pour les deux modèles fond'es sur ML et sur REML quand le nombre de composantes maximum avait initialement 'et'e fix'e a` 10. Cependant, nous avons d'ecid'e pour ces modèles de r'eduire leur espace a` 7 dimensions 'etant donn'e que le PRESS n'y est pas trop diff'erent de ses valeurs minimales (figure 4.2).

FIG. 4.2 - 'Evolution du PRESS selon le nombre de variables latentes quand le nombre maximal de variables latentes avait initialement étéfixéa` dix pour les données de NIRS.

ML REML

PRESS

20 25 30 35

2 4 6 8 10

2 4 6 8 10

20 25 30 35

PRESS

Par rapport a` l'objectif de cette 'etude, il serait question de s'electionner les r'egresseurs influents. Nous pouvons alors pour cela, consid'erer les coefficients les plus grands en valeur absolue des r'egresseurs pour le modèle s'electionn'e. Nous notons ainsi que les bandes d'absorption localis'ees autour de 2210, 1940, 1690 et 1450 ont les plus grands coefficients (figure 4.3).

FIG. 4.3 - 'Evolution des coefficientsâb (modèle (4.6)) selon les différentes longueurs d'onde pour les modèles a` 7 variables latentes fondés sur ML et REML des données de NIRS.

ML REML

.9 02

02

0.0 0.1

-0 -02 .1 -0

-0.9

02

02

00 0.1

-02 -0.1

500 1000 1500 2000 2500 500 1000 1500 2000 2500

wavelengths wavelengths

Les estimations de ó k pour ML et pour REML sont montr'ees au tableau 4.1. Nous notons que la variance de l'effet bloc hi'erarchis'e dans la r'ep'etition est deux fois plus faible que celle de l'effet r'ep'etition.

ML REML

ó 1 0,11273 0,11276
ó 0,06248 0,06309
ó
0 0,46839 0,48917

Estimation des composantes de variance pour les modèles a` 7 va-

TAB. 4.1 - riables latentes fondés sur ML et REML des données de NIRS.

Au tableau 4.2, nous avons le MSEP du modèle 4.6 analys'e par r'egression PLS et le MSEP du même modèle analys'e par la m'ethode PLS-Mixte fond'ee sur ML et sur REML. La pr'ediction par la m'ethode PLS-Mixte, comme nous nous y attendons, de la teneur en prot'eine du sorgho par les bandes d'absorption, quand il y a plusieurs sources de variation, est meilleure que celle faite par simple r'egression PLS.

MSEP

ML 0,64637

PLS-Mixte REML 0,64639

PLS 0,91479

TAB. 4.2 - MSEP des modèles de la méthode PLS-Mixte et de la régression PLS pour les données de NIRS.

Toutefois, la détermination de la dimension optimale a` travers le calcul du PRESS est ici liée a` h, le nombre maximum de variables latentes choisi au départ. En effet, les composantes de variance sont estimées avec les h variables latentes et utilisées par la suite respectivement pour chaque sous-modèle a` 1, 2, ..., h variables latentes pour estimer â et finalement pour calculer les PRESS. Cependant, le choix de h semble ne pas avoir un impact important sur le calcul des PRESS dans notre example. A la figure 4.4, nous avons présentéles valeurs des PRESS calculées pour un nombre maximum de variables latentes choisi initialement pour être égal respectivement a` 10, 20, 30, 40 et 50. L'évolution du PRESS jusqu'àla dixième variable latente n'est quasiment pas affectée par le choix initial du nombre maximum de variables latentes.

4.3.2 La méthode PLS-Mixte sur un modèle a` effets aléatoires corrélés de variances hétérogènes

La méthode PLS-Mixte, présentée ci-dessus et appliquée aux données de NIRS, a étéécrite avec les hypothèses classiques de normalitédes effets aléatoires et surtout de la forme particulière des matrices de variance de ces effets aléatoires. En effet, il a fallu supposer que cette variance pour chaque effet aléatoire Uk était de la forme ó2 kIqk.

Ici, nous allons légèrement relâcher cette hypothèse et considérer que la va-
riance pour chaque effet aléatoire pourrait être de la forme ó2 kAk o`u Ak est

Variation du PRESS selon les dix premières variables latentes

FIG. 4.4 quand le nombre maximum de variables a initialement étéfixéde façon successive a` 10, 20, 30, 40 et 50 pour le modèle fondésur

ML pour les données de NIRS. Le modèle fondésur REML donne des résultats voisins de ceux présentés ici.

ML

20 25 30 35 40

PRESS

2 4 6 8 10

une matrice quelconque symétrique connue. Nous allons alors voir comment la méthode PLS-Mixte s'écrira avec ces nouvelles données du problème.

Nous nous plaçons toujours dans le cadre du modèle (4.2) que nous allons rappeler.

Y = Xâ + Xr ZkUk (4.7)

k=0

Nous supposons cette fois-ci donc que Uk ~ N(0, ó2 kÄk), d'o`u V = Xr ZkÄkZ'2 k.

k=0

Avant de présenter notre méthode avec un modèle o`u n < p et la variance
V des observations écrite comme ci-dessus, nous traiterons dans un premier

temps, du cas plus simple n > p o`u nous verrons comment s'effectuent les estimations des paramètres inconnus â et ó2 k a` l'aide de l'algorithme EM fondésur ML.

Le modèle mixte a` effets aléatoires corrélés

L'algorithme EM, nous le rappelons, permet de calculer l'espérance condi-
tionnelle des effets aléatoires sachant les données incomplètes Y. Pour cela, il
est nécessaire d'avoir la loi jointe de Y et u = [ u'1 u' 2 ... u' r ]'. Nous avons

Cov(Y, u' k') = Cov(Xâ + Xr Zkuk,u' k') = Zk'Cov(uk',u' k') = ó2 k'Zk'Äk' (4.8)

k=0

car Var(uk) = ó2 kÄk V k, et Cov(uk,u'k') = 0 pour k =6 k'.

Ainsi, avec les suppositions du modèle (4.7), la loi jointe de Y et u est gaussienne de la forme .IV(12,Ó) o`u

12 =

Xâ
0
...

0

?

? ? ? ? et Ó =

?

" #

V Cov(Y,u')

Cov(u,Y') Var(u)

(4.9)

avec Cov(Y,u') = [ ó2 1Z1Ä1 . . . ó2 rZrÄr ]

21Ä1Z'1

?

Cov(u,Y') = ? ..

? .

ó2 rÄrZ' r

ó2 1Ä1

et Var(u) = 0 ... 0

ó2 rÄr

Ce qui implique la fonction de densitésuivante

Pr

fY,u1,··· ,ur(Y, u1, · · · , ur) = (2ð)- 1 k=0 qk|Ó|- 1

o`u

2 2 exp(-1 2Q) (4.10)

[ ]

Q = (Y - Xâ)' u' 1 · · · u' Ó-1

r

Y - Xâ
u1
...

(4.11)

ur

Nous allons donc avec les développements qui vont suivre, trouver les valeurs de |Ó| et de Ó-1 dans le but de simplifier la densité(4.10). Il s'agira par la suite, de dériver tout simplement cette densité, pour avoir les estimations des paramètres.

Pour calculer |Ó|, nous faisons appel au résultat déjàétabli (Searle et alp 453, 1992) : Si A, B, C et D sont quatre matrices avec les bonnes dimensions, alors

~~~~~

A B
C D

~~~~~

= |D||A - BD-1C|

Ainsi,

|Ó| =

~~~~~

V Cov(Y,u')

Cov(u,Y') Var(u)

~~~~~

= |Var(u)||V - Cov(Y, u')(Var(u))-1Cov(u, Y')|

|Var(u)| =

~~~~~~~~

ó21Ä1

0 ... 0

ó2 rÄr

~~~~~~~~

= |ó21Ä1| × ··· × |ó2 rÄr| =

Lr
k
=1

2 k)qk|Äk|

Or,

car chaque matrice Äk est carree de nombre de lignes qk D'autre part,

Cov(Y, u')(Var(u))-1Cov(u, Y')

= [ ó21Z1Ä1 ··· ó2 rZrÄr ]

ó1 2Ä1-1

0
·
·
·

0

ó-2

r Ä

-1 r

ó2 1Ä1Z' 1

·
·
·

ó2rÄrZ'r

=

Xr
k
=1

ó2kZkÄkZ' k

Or,

(Var(u))-1Cov(u, Y') =

0
·
·
·

0

ó-2

r

Ä

ó21Ä1Z'1

·
·
·

ó2rÄrZ'r

-1

r

ó-2

1 Ä1-1

=

Z'1

·
·
·

Z'r

D'o`u

|Ó| = Yr (ó2k)qk|Äk||V - Xr ó2 kZkÄkZ' k|

=

Yr
k
=1

k=1 k=1

2k)qk|Äk||ó20Ä0|

=

Yr
k
=0

2k)qk|Äk|

Pour calculer Ó-1, nous utilisons les resultats des inverses generalisees (Searle et al p 450, 1992) et etablissons que

" #

=

0 0

0 (Var(u))-1

"+

# I

ó,:72Ä:7, 1 [ I -Cov(Y, u')(Var(u))-1

-(Var(u))-1Cov(u, Y')

Par ailleurs,

Cov(Y, u')(Var(u))-1 = [ Z1 · · ·Zr

Par cons'equent,

Ó-1 = Ó1 -1 + Ó-1

2

o`u Ó1 1 =

ó-2

1 Ä-1

1

?

m ?0

... 0

ó-2

r Ä-1

r

I

et Ó2 -1 =

-

Z'1

...

h h i i

ó-2

0 Ä-1 I - Z1 · · · Zr

0

Z' r

Nous allons donc remplacer Ó-1 par Ó-1

1 -1

2 dans (4.11) pour avoir la valeur

de Q.

Ainsi,

Q = Q1 + Q2

o`u Q1 = [ (Y - Xâ)' u'1 · · · u' Ó-1

r 1

Y - Xi3
u1

...

ur

et Q2 = [ (Y - Xâ)' u'1 · · · u'Ó-1

r 2

Y - Xi3
u1

...

ur

m 0

m ?0

?

? ó-2

1 Ä-1

1

... 0

r 2Är-1

ó

Q1 = [ (Y - Xâ)' uc. · · · u'r ]

Y - Xi3
u1

...

ur

= I 0 [ u'1 · · · u'r ]

 

ó-2

1 Ä-1

1

0

...

0
ór 2Är-1

Y - Xi3
u1

...

ur

= [ u'1 · · · u'r ]

ó-2

1 Ä-1

1

0

...

0
ór 2Är-1

u1

...

ur

u'kÄk 1uk

=

ó2

k

Er
k=1

Pour calculer Q2, trouvons d'abord une formule simplifiée de Ó-1

2

I

Ó-1

2 =

-

Z'1

...

Z'r

ó

0 2Ä,Y1 [ I - [ Z1 ··· Zr ] ]

 

Ä01 ,y1 [ Z1 ·

1

·· Zr ]

 

= ó-2

0

-

Z'1

...

Z'r

? ?

Ä-1 ?

0 ?

Z'1

...

Z'r

Ä01 [ Z1 · · · Zr ]

 

Ainsi Q2 = ó02 [ Q21 Q22 ]

Y - Xi3
u1

...

ur

 

Z'1
...

Z'r

Ä0-1

 

?

?

avec Q21 = (Y - Xâ)'Ä-1

0 - [ u' 1 · · · u' r ] ? ?

Ä-1

0 [ Z1 · · · Zr ]

Z' r

Z' 1

...

? ?

et Q22 = -(Y-Xâ)'Ä-1

0 [ Z1 · · · Zr ]+[ u' 1 · · · u' r ] ? ?

D'o`u,

Z'1

...

Z'r

? ?

Q2 = ó-2 ? r ]

0 ?(Y - Xâ)'Ä-1

0 - [ u' 1 · · · u'

? ?

? ?

? Ä-1 ? (Y - Xâ) ? 0 ?

Z'1

...

Z'r

?
? ? ?

- ó-2

0

? ?

(Y - Xâ)'Ä-1

0 [ Z1 · · · Zr ] - [ u' 1 · · · u' r ] ? ?

?

? ?Ä-1

0 [ Z1 · · · Zr ]

?

u1

×

...
ur

 

- 2 (Y - Xâ)'Ä-1

0 -

Xr
k
=1

!

u' kZ'-1 (Y - Xâ)

ó0

=

0

- ó-2

0

(Y - Xâ)'Ä-1

0

Xr
k
=1

Zkuk -

Er
k=1

u'kZ'0-1

Xr
k
=1

!Zkuk

 

!

Xr Xr

Zkuk - ó-2 u' kZ'-1 Y - Xâ - Zkuk

0 0

k=1 k=1

- 2 (Y - Xâ)'Ä-1 Y - Xâ -

0

Er
k=1

ó

=

0

! Xr

u' kZ'-1 Y - Xâ - Zkuk

0

k=1

- 2 (Y - Xâ)'Ä-1

0 -

Xr
k
=1

= ó 0

= ó-2 Y - Xâ -

0

Xr
k
=1

!' Xr

Zkuk Ä-1 Y - Xâ -

0

k=

1

Zkuk)

u' -1

k uk + ó-2 Y - Xâ -

ó2 0

k

) !

X

Zkuk Ä-1 Y - Xâ - Zkuk (4.12)

0

k=1

Q = Xr

k=1

Er
k=1

' r

En ajoutant Q1 et Q2, nous obtenons

En remplaçant (4.11) dans (4.9) et en passant au logarithme, nous avons

l = -1

2

X r
k
=0

log27r --

) k -

k=0 k=1

1 Er (gkiegOlc + loglAkl) -- 1 `-r uk' Ä-1u1 qk '

2

2 L--1

ó2

k

Zkuk) Ä0 1 Y

- Xâ-

-2 ó0

2

Y - Xâ -

Xr
k
=1

EZkuk)

k=

1

1

-

2

X r
k
=0

) 1(qklogó

r r 1.1' Ä-1uk

qk log27r -- Nlc + log|Äk |) - V k k

2 1---/ 2 L--/ ,.,.2

"

k=0 k=0 k

car Y - X0 - Xr Zkuk = e = u0

k=1

De ce fait, il suffira de d'eriver la fonction l ci-dessus par rapport a` chacun des param`etres inconnus du mod`ele (4.7) pour trouver les estimateurs suivants

= ukÄk 1uk/qk, k = 0,1,· · · r (4.13)

et

XS = X(X'Ä,y1X)-X'Ä,y1 Y -

k=1 Zkuk) ) (4.14)

Ainsi, comme les uk ne sont pas connus, nous avons besoin des esp'erances conditionnelles de

u'k k 1uk

et de

r
Y - Zkuk

k=1

sachant les donn'ees incompl`etes Y.

Pour cela, nous pouvons utiliser le r'esultat suivant : si

I # I # I

x1 u1 V11 V12

~ N ,

x2 u2 V21 V22

alors la loi conditionnelle de x1 sachant x2 est

x1|x2 ~ N[u1 + V12V-1

22 (x2 - u2), V11 - V12V-1

22 V21]

Avec uk ~ N(0,ó2 kÄk) et Y ~ N(Xâ,V), nous avons

I # I # I #!

uk 0 ó2 kÄk Cov(uk, Y')

~ N ,

Y Xâ Cov(Y,u' k) V

D'apr`es (4.8), il vient

uk|Y ~ N (ó2 )

kÄkZ' kV-1(Y - Xâ), ó2 kÄk - ó2 kÄkZ' kV-1ó2 kZkÄk

D'o`u

kV-1(Y - Xâ)

[(uk|Y) = ó2 kÄkZ' (4.15)

Ensuite, en utilisant le th'eor`eme suivant (Searle p 231, 1987)

Théorème 1

si x ~ N(u, V) alors[(x'Ax) = tr(AV) + u'Au ? A

et d'apr`es ce qui pr'ec`ede, nous avons

-1-1

E(u' k uk|Y) = tr(ó2-1

k Äk - ó4 k ÄkZ' kV-1ZkÄk)

4k(Y - Xâ)'V-1ZkÄ;cÄk 1ÄkZ'kV-1(Y - Xâ)

D'o`u

E(u'-1 k uk|Y) = tr(ó2kIqk - ó4kZ'kV-1ZkÄk) 4k(Y - Xâ)'V-1ZkÄ'kZ'kV-1(Y - Xâ) (4.16)

Nous pouvons alors établir l'algorithme EM dans le cas du modèle linéaire mixte o`u chaque effet aléatoire est de variance ó2kÄk. L'estimation, fondée sur ML, s'effectue en plusieurs itérations. Des valeurs initiales ók 2(0) et â(0) sont choisies au départ. A la me itération de l''Etape-E, sont calculées les espérances conditionnelles suivantes, a` partir de (4.16),

g(k m) = E(ukÄk 1uk|Y)|0=0(0) et óZ=óZ(m) (4.17)

= tr(ók(m)Iqk) - ó4(m)

k tr(Z' kV-1(m)ZkÄk)

+ók 4(m) (Y - Xâ(m))'V-1(m)ZkÄ'kZ'kV-1(m)(Y - Xâ(m)) = qkók + (ó4(m)

2(m) k )

× [ (Y - Xâ(m))'V-1(m)ZkÄ'kZ'kV-1(m) (Y - Xâ(m)) - tr(Z'kV-1(m)ZkÄk)]

Et, a` partir de (4.15)

b(m) =E(Y -

Xr
k
=1

Zkuk|Y)0=0(0) et ó2 (4.18)

k=ó2(m)

k

= Y - Xr ZkÄkZ;2k (m)V-1(m)(Y - Xâ(m)) k=1

= Y - (V(m) - ó,!,(m)Ä0)V-1(m)(Y - Xâ(m))

= Y - V(m)V-1(m)(Y - Xâ(m)) + ó02(m)Ä0V-1(m)(Y - Xâ(m)) = Xâ(m) + ó0 2(m)Ä0V-1(m)(Y - Xâ(m))

A l''Etape-M, pour trouver les estimateurs, il suffit de prendre

ók

2(m+1)

.ik m)/qk (4.19)

= 4,(m) + (4(m)/qk)

× [(Y - Xâ(m))'V-1(m)ZkÄ;,Z'kV-1(m)(Y - Xâ(m)) - tr(Z'kV-1(m)ZkÄk)]

Et, a` partir de (4.14)

Xâ( 1)

= X(X'Ä,y1X)-X'Ä,y1 (Xâ(m) + ó0 2(m)Ä0V-1(m)(Y - Xâ(m)) ) (4.20)

= X(X'Ä-1

0 X)-X'Ä-1

0 Xâ(m) + ó0(m)X(X'Ä,y1X)-X'ÄC,1Ä0V-1(m)(Y - Xâ(m)) = Xâ(m) + 4(m)X(X'Ä1X)-X'V-1(m)(Y - Xâ(m))

A la place d'itérer pour obtenir a` la fois les valeurs de â et de ó2k, Laird (1982) suggère de trouver les valeurs de ó2k et seulement, a` la fin des itérations, de calculer la valeur de â. En effet, a` la place de calculer V-1(m)(Y - Xâ(m)) dans l'équation (4.19), il est calculéP(m)Y o`u

P(m) = V-1(m) - V-1(m)X(X'V-1(m)X)-X'V-1(m)

ne depend pas de â.

En effet, si Xâ(m) etait l'estimation de Xâ, c'est-`a-dire

Xâ(m) = X(X'V-1(m)X)-X'V-1(m)Y

alors

V-1(m)(Y - Xâ(m)) = V-1(m)Y - V-1(m)Xâ(m)

= V-1(m)Y - V-1(m)X(X'V-1(m)X)-X'V-1(m)Y = (V-1(m) - V-1(m)X(X'V-1(m)X)-X'V-1(m)) Y

= P(m)Y

De ce fait, il ne sera pas necessaire de disposer de â(m) dans les iterations et a`
l''Etape-E. Il ne sera alors plus calculequ'une seule esperance conditionnelle

ó2(m+1)

k =

bs(m)

k /qk (4.21)

= ó2k (m) + (4(m)/qk) [ Y'P(m)ZkÄ'kZ'kP(m)Y - tr(Z'kV-1(m)ZkÄk)]

Nous presentons ci-dessous l'algorithme EM fondesur ML appliqueaux effets aleatoires corr'el'es du mod`ele mixte.

'Etape 0 Mettre m = 0 et choisir des valeurs initiales ó2k(0)

'Etape 1 ('Etape-E) Calculer

Q(ó2 | ó2(m))

= Eó2(m) (ukÄk 1uk | Y)

= qkók (Irk2(m) + 4(m) [Y'P(m)Zk k Ä' Z' P(m)Y -- tr(Z'kV-1(m)ZkÄk)1

o`u P(m) = V-1(m) -- V-1(m)X(X'V-1(m)X~-X'V-1(m)

'Etape 2 ('Etape-M) Determiner ó2k(m+1) qui maximise Q(ó2 | ó2(m)) c'est-`a-dire,

tel que Q(ó2(m+1) | ó2(m)) ?. Q(ó2 | ó2(m)). Alors,

ók2(m+1) = E 2(m) (ukÄi;1uk | Y)/qk for k = 0,1,
·
·
· , r

'Etape 3 A la convergence c`ad L(ó2k (m+1) | Y) -- L(ó2k (m) | Y) ,.... ç o`u

ç est une quantitearbitrairement petite et L la fonction de vraisemblance, prendre2k = ók2(m+1) et alors calculer

X-â = X(X'V-1(m+1)X)-X'V-1(m+1)Y

sinon ajouter 1 a` m et retourner a` l''Etape 1.

Simulations pour la convergence de l'algorithme EM appliqu'e aux effets al'eatoires corr'el'es du mod`ele mixte :

Pour tester la convergence de cet algorithme et verifier la qualitedes estima-
tions, nous avons effectuedes simulations numeriques. Nous avons considerea` cet effet le modele simple suivant :

Y = X/3 + Z1u1 + Z2u2 + Z0u0 (4.22)

o`u la dimension du vecteur des reponses Y est 120x1, celle de la matrice des observations X est 120x5 et le vecteur 13 des parametres fixes est de longueur 5. Aussi, avons-nous suppose

? ????

????

u1 ~ N(0,ó21Ä1)

u2 ~ N (0, ó2 2Ä2)
u
0 ~ N (0, ó2 0Ä0)

?

o`u Ä1 =

???????

2 1 1 1 1

1 1 1 1 1

1

1

2
1
1

1
1

1

2
1

1 1 1 1 1

?

,

???????

?

? ? ? ? ? ? ? ? ? ?

Ä2 =

3 1 1 1 1 1

1

2 1 1 1 1

1 1 1 1 1 1

1
1
1

3
1
1

1 1 1 1

3
1

1 1 1 1

1

2

?

et Ä0 = I120.

??????????

Nous avons choisi un dispositif équilibréavec le facteur 2 (6 niveaux) hiérarchisédans le facteur 1 (5 niveaux). Les matrices Z1 et Z2 sont donc les matrices

d'incidence correspondantes a` ces deux facteurs tandis que la matrice Z0 est l'identitéd'ordre 120.

Nous présentons au Tableau 4.3 les résultats des simulations obtenues avec le modèle 4.22 sur 300 jeux de données.

 

Valeurs simulées

Valeurs estimées

 

0,5402
0,8948

Moyenne

0,5380

0,8974

'Ecart-type

0,0937

0,0931

â

0,6476

0,6423

0,0912

 

0,9513

0,9526

0,0921

 

0,0772

0,0748

0,0933

ó21

0,4653

0,4241

0,4416

ó2 2

0,2458

0,2471

0,3324

ó2 0

0,9226

0,8874

0,1233

TAB. 4.3 - Résultats des simulations pour un modèle mixte a` effets aléatoires corrélés effectuées sur 300 jeux de données.

Au vu de ces résultats, les valeurs estimées pour les paramètres ne sont pas, en moyenne, éloignées des valeurs simulées.

Le modèle PLS-Mixte a` effets aléatoires corrélés

Nous venons ainsi de voir, a` la section pr'ec'edente, l'estimation des paramètres
fixes et des composantes de variance dans un modèle lin'eaire mixte, a` l'aide
de l'algorithme EM, o`u chaque effet al'eatoire est de variance ó2 kÄk et o`u n > p.

Le cas n < p avec cette même structure de variance des effets al'eatoires, n'ecessite, comme au chapitre pr'ec'edent, d'imbriquer la r'egression PLS, en tant que m'ethode de r'eduction de dimension, a` l'algorithme EM. Nous proposons l'algorithme PLS-Mixte suivant, fond'e sur la variation de ML propos'ee par Laird

'Etape 0 Mettre m = 0 et choisir des valeurs de depart ó2k(0)

'Etape 1 Centrer et reduire X et Y : x0 = X, y0 = Y

'Etape 1.1 For h = 1, 2, ... , rang(X)

(a) Calculer les p-vector wh = [w1h · · · wph]' o`u wph = Cov(xph, yh)/ E Cov2(xph, yh) et xph la pe

p

colonne de xh

(b) Normer wh : wh = wh/ II wh II

(c) Calculer les variables latentes t(m)

h = xh-1wh

(d) Calculer ch par regression GLS de yh-1 sur t(m)

h

yh-1 = t(h m)ch + yh o`u Var(yh-1) = V(m) =

Er
k
=0

ZkÄk Z'2k m)

ch =(t(h m)'V-1(m)t(hm))-t(h m)'V-1(m)yh-1

(e) Calculer ph par regression de xh-1 sur t(m)

h

xh-1 = t(h m)p'h+ xh p'h =(t(h m)'t(hm) )-1t(h m)'xh-1

(f) Calculer les residus xh and yh

(g)

Er
i
=0

Ziui

Finalement Y = T(m)C +

o`u T(m) =[t(m)

1 ···t(h m)] et C = [c1 · · · ch]'

'Etape 1.2 Calculer

2m+1)

ók( = ó2k (m) (ók (m) / qk) [YP(m) Z k Ä'kZ'kP(m)Y - tr(Z'kV -1(m) Zk k)1

o`u P(m) = V-1(m)-V-1(m)T(m)(T(m)'V-1(m)T(m))-T(m)'V-1(m)

'Etape 2 Si convergence, prendre2k = ó2k(m+1) ; sinon ajouter 1 a` m

et retourner a` 'Etape 1.1

Bien evidemment, le changement par rapport a` l'algorithme de la section precedente concerne l''Etape 1.1 (d) et l''Etape 1.2 o`u l'estimation des ó2k tient compte de la variance ó2kÄk des effets aleatoires uk.

En resume, les estimations dans le mod`ele PLS-Mixte a` effets aleatoires
corr'el'es ont ete'ecrites de mani`ere explicite. Neanmoins, pour l'algorithme

itératif proposéa` cet effet, la convergence n'a pas étéétablie et est restée locale.

Chapitre 5

Conclusion générale

Nous nous 'etions fix'es comme objectif principal de mod'eliser les interactions G×E en fonction de covariables notamment climatiques observ'ees sur le milieu, avec comme application sa pr'ediction dans une exp'erimentation multienvironnements sah'elienne.

Nous avons commenc'e par exposer les principales m'ethodes existantes dans la litt'erature et montrer leurs limites. Ces m'ethodes ne sont adapt'ees dans le contexte sah'elien que par la prise en compte de la grande variabilit'e climatique du milieu d'une ann'ee sur l'autre. Or, la plupart de ces m'ethodes ne considèrent pas justement les caract'eristiques du milieu pour y pr'edire la performance des g'enotypes. La seule m'ethode a` notre connaissance qui y tient compte - la r'egression factorielle - ne permet pas de g'erer les nombreuses variables climatiques ordinairement mesur'ees sur ces lieux.

Les modèles de simulation de culture ont aussi 'et'e pr'esent'es comme une m'ethode alternative pour 'evaluer le comportement des g'enotypes selon les environnements. Cependant, ces modèles tout comme le modèle SarraH que nous avons utilis'e pour cette 'etude, sont rarement param'etr'es pour plus d'une vari'et'e. Or, pour pouvoir rendre compte des diff'erences de production

des g'enotypes, il est essentiel que les paramètres de ces modèles puissent changer selon les g'enotypes.

Nous proposons en cons'equence la m'ethode APLAT, Approximation par lin'earisation autour d'un t'emoin. Cette m'ethode consiste a` lin'eariser la r'eponse pr'edite par un modèle de simulation de culture de tout g'enotype d'un environnement donn'e autour du vecteur de paramètres connu d'un g'enotype de r'ef'erence. Après cela, certains des paramètres du modèle de simulation de culture, qui peuvent être choisis aux dires d'experts, peuvent être r'eestim'es a` l'aide de cette lin'earisation locale. L'avantage de cette m'ethode est de ne pas n'ecessiter pour tout g'enotype, l'exp'erimentation sp'ecifique indispensable a` la param'etrisation du t'emoin. A l'ensemble de ces exp'erimentations instrument'ees requises pour toute nouvelle vari'et'e d'int'erêt, est substitu'e un essai multilocal classique qu'on aura pris soin de munir de stations m'et'eorologiques simples.

La m'ethode APLAT a 'et'e valid'ee avec les donn'ees d'arachide d'un essai pluriannuel men'e a` la station exp'erimentale du CERAAS au S'en'egal de 1994 a` 1998. Pour ces donn'ees, chacune des ann'ees a 'et'e successivement r'eserv'e et le rendement des g'enotypes pr'edit a` l'aide des ann'ees restantes, d'abord a` l'aide de la m'ethode APLAT, ensuite a` l'aide du modèle moyen. Le modèle moyen est utilis'e pour estimer la performance des g'enotypes pour une ann'ee donn'ee par la moyenne des autres ann'ees. Un modèle qui pr'edit moins bien en moyenne que le modèle moyen n'est pas acceptable. Nous avons trouv'e que quatre fois sur cinq, la m'ethode APLAT s''etait montr'ee meilleure que le modèle moyen.

Ensuite sur les donn'ees de 11 sites d'un essai multilocal men'e durant la saison des pluies de 2005 au S'en'egal, la m'ethode APLAT a fourni une meilleure pr'ediction moyenne du rendement des g'enotypes que le modèle moyen, 10 fois sur 11.

Par la suite, la m'ethode APLAT a 'et'e 'etendue au cas d'essais a` plusieurs composantes de variance, qui devient APLAT-Mixte. Nous avons adjoint au modèle SarraH que nous avions utilis'e pour rendre compte du comportement diff'erenci'e des g'enotypes dans cette situation de variabilit'e environnementale accrue, un effet al'eatoire de l'environnement responsable d'interactions G×E dont il a fallu estimer la variance. Cette m'ethode s'appuie sur la technique PLS-Mixte que nous avons propos'e pour l'estimation des composantes de variance dans le cas o`u il y a plus de r'egresseurs que d'observations. Cette technique PLS-Mixte consiste a` imbriquer la r'egression PLS dans l'algorithme EM et constitue un algorithme it'eratif d'estimation des paramètres inconnus dans le cas du modèle mixte dans un contexte de r'eduction de dimension.

Cette technique PLS-Mixte a 'et'e illustr'ee avec des donn'ees de NIRS obtenues a` partir d'un dispositif exp'erimental en lattice 9×10 o`u l'effet du bloc et l'effet de la r'ep'etition ont 'et'e suppos'es al'eatoires. Sur ces donn'ees, nous avons estim'e les paramètres fixes et les composantes de variance du modèle avec cette m'ethode PLS-Mixte fond'ee sur ML et sur REML. Nous avons compar'e ce type d'estimation a` celui de la r'egression PLS qui 'etait habituellement utilis'ee dans ce genre de situation c'est-à-dire, quand il y avait plus de r'egresseurs que d'observations. Il a alors 'et'e trouv'e que les MSEP de la technique PLS-Mixte fond'ee sur ML et sur REML 'etaient plus faibles que le MSEP de la r'egression PLS faite simplement sans tenir compte des diff'erentes sources de variation.

Nous avons voulu adapt'e la technique PLS-Mixte au cas d'effets al'eatoires corr'el'es et h'et'erogènes. Pour cela, il a d'abord fallu se placer uniquement dans le cadre du modèle mixte avec de tels effets al'eatoires et surseoir au cas de r'eduction de dimension. Ainsi, les estimations des composantes de variance pour ces effets al'eatoires et celles des paramètres ont 'et'e 'ecrits. Sur les simulations effectu'ees pour tester de la convergence et de la qualit'e des ces estimations, nous avons retrouv'e en moyenne des valeurs très proches de

ceux des paramètres inconnus simul'es. Cependant, l'algorithme 'ecrit pour le cas PLS-Mixte avec des effets al'eatoires corr'el'es et h'et'erogènes s'est heurt'e a` des difficult'es de convergence.

Il nous parait n'ecessaire d'attirer l'attention sur les limites de notre travail qui sont multiples. Tout d'abord, la m'ethode APLAT s'appuie essentiellement sur un modèle de simulation de culture. Et a` ce titre, l'efficacit'e de cette m'ethode a` bien g'erer le comportement vari'etal selon les environnements est intrinsèquement li'e a` la capacit'e du modèle de simulation utilis'e a` bien exprimer les interactions G×E.

Ensuite, dans ce travail, il est propos'e de r'eestimer les paramètres des g'enotypes utilis'es dans le cadre d'un modèle de simulation de culture pour pouvoir mieux pr'edire leurs rendements. Or, de tels modèles de simulation disposent g'en'eralement d'un ensemble important de paramètres qui ont 'et'e estim'es seulement pour un t'emoin, au moyen d'exp'erimentations sp'ecifiques. Pour appr'ecier la diff'erence de productivit'e des vari'et'es selon les environnements, il serait n'ecessaire de r'eestimer tous les paramètres pour tout nouveau g'enotype avant l'utilisation de ces modèles. Ce qui peut être complexe et fastidieux. Mais comme tous les paramètres n'agissent pas de la même façon sur la performance des vari'et'es, nous avons propos'e d'en r'eestimer seulement quelques uns. Pour cela, nous avons effectu'e ce tri s'electif par dires d'experts pour gagner du temps et aussi parce qu'en g'en'eral les promoteurs d'un modèle de simulation de culture ont une assez bonne vue du comportement g'en'eral et individuel des paramètres vari'etaux. N'eanmoins, cette prise en compte des connaissances a priori sur les paramètres peut être coupl'ee a` une analyse de sensibilit'e qui permet d'avoir l'impact quantitatif de ces paramètres sur la production des g'enotypes. Une autre voie est d'attacher une loi de probabilit'e aux paramètres, qui permet d'int'egrer les connaissances a priori des experts sur les vari'et'es. Cette m'ethode, non loin de celle que nous avons utilis'e dans le cadre de ce travail, se place dans le cadre bay'esien. Les dires d'experts,

pour chaque paramètre, peuvent ainsi être consid'er'es comme une r'ealisation d'une variable al'eatoire dont on connaàýt la loi a priori. Il s'agira par la suite de prendre comme estimation de chaque paramètre vari'etal l'esp'erance de la loi a posteriori obtenue avec les donn'ees.

Enfin, nous avons utilis'e dans le cadre de cette 'etude des donn'ees d'essais multienvironnements. La courte s'erie de cinq ann'ees de l'essai pluriannuel et le nombre important d'abandons de g'enotypes au cours de cet essai n'autorisent pas de conclure directement quant a` l'efficience de la m'ethode APLAT. A l'essai multilocal, la s'erie 'etait plus longue, 11 lieux, mais ce qui gêne en r'ealit'e au Sahel, c'est moins la variabilit'e climatique entre les lieux que celle d'une ann'ee sur l'autre pour un même lieu. Pour cela, ce qu'il aurait fallu faire si le temps l'avait permis, c''etait de r'ep'eter l'essai multilocal sur deux a` cinq ans tout en diminuant le nombre de lieux. Ce qui est pr'ef'erable a` mener le même nombre d'essais sur plusieurs lieux en une seule ann'ee (Talbot, 1997).

En somme, nous avons propos'e de pr'edire les interactions G×E par lin'earisation d'un modèle de simulation de culture. Dès lors qu'il est possible, pour tout g'enotype, de r'eestimer les paramètres n'ecessaires a` un modèle de simulation de culture, cette m'ethode permet la comparaison de vari'et'es dans des environnements o`u elles n'ont pas 'et'e observ'ees. Bien entendu, pour cela faudrait-il disposer de longues s'eries de donn'ees climatiques pour les lieux. Ces donn'ees climatiques pourront servir alors comme entr'ees d'un modèle de simulation des pluies journalières a` l'exemple du modèle stochastique des chroniques pluviom'etriques d'evelopp'e par Goz'e (1990).

Permettant de mesurer l'impact du changement climatique, cet outil est destin'e en premier lieu aux s'electionneurs du Sahel qui pourront dans des programmes de s'election de courte dur'ee (deux a` cinq ans) r'eduire l'incertitude de la pr'ediction des performances des nouvelles vari'et'es. Adapt'e en outre a` l''echelle de la r'egion et coupl'e a` une m'ethode d'estimation des surfaces

cultivées, il peut être utilisédans le cadre de la prévention des crises alimentaires en Afrique de lOuest, et particulièrement au Sahel. Ainsi, pour chaque année, le rapprochement entre les productions et les besoins prévisionnels peut alimenter le dispositif de veille déjàmis en place par le CILSS avec l'ensemble de ses partenaires techniques dans le cadre de l'alerte précoce, afin de faciliter la prise de décision dans l'élaboration des stratégies alimentaires au Sahel.

R'ef'erences cit'ees

[1] AASTVEIT A.H. et MARTENS H. ANOVA interactions interpreted by partial least squares regression. Biometrics, 1986, 42, 829-844.

[2] AFFHOLDER F. Empirically modelling the interaction between intensification and climatic risk in semi arid regions. Field Crops Research; 1997, 52, 79-93.

[3] AJI S., TAVOLARO S., LANTZ F., FARAJ A. Apport du bootstrap a` la r'egression PLS : application a` la pr'ediction de la qualit'e des gazoles, Oil & Gas Science andTechnology-Rev. IFP, 2003, 58, 599-608.

[4] ANNEROSE D. et DIAGNE M. Caract'erisation de la s'echeresse agronomique en zone semi-aride. Pr'esentation d'un modèle simple d''evaluation appliqu'e au cas de l'arachide cultiv'ee au S'en'egal. Ol'eagineux, 1990, 45, 12, 547-554.

[5] ANNEROSE D. et DIAGNE M. Les modèles de cultures : des outils de la recherche et du d'eveloppement agricole. Arachide Infos, 1994, 5, 5-11.

[6] ANNICCHIARICO, P. Genotype x environment interaction - challenge and opportunities for plant breeding and cultivar recommendations. FAO, Rome, 150 p.

[7] BAKER R.J. Tests for crossover genotype-environmental interactions. Canadian Journal of Plant Science, 1988, 68, 405-410.

[8] BARIL, C.P. Etude de la stabilit'e du rendement chez le bl'e tendre d'hiver.- 170 p. Th : Agronomie : Paris-Sud centre d'Orsay : 1992.

[9] BARON C. Modèle de bilan hydrique et de croissance des plantes cereals: Mil, Sorgho et Arachide. CIRAD, 2002.

[10] BATTERBURY S., WARREN A. The African Sahel 25 years after the great drought : assessing progress and moving towards new agendas and approaches. Global Environmental Change, 2001, 11, 1-8.

[11] BECKER H.C. Correlations among some statistical measures of phenotypic stability. Euphytica, 1981, 30, 835-840.

[12] BECKER H.C. et L'EON J. Stability analysis in plant breeding. Plant Breeding, 1988, 101, 1-23.

[13] BELHASSEN E., THIS D. et MONNEVEUX P. L'adaptation génétique face aux contraintes de sécheresse. Cahiers agricultures, 1995, 4, 251-261.

[14] BRADU D. et GABRIEL K.R. The biplot as a diagnostic tool for models of two-way tables. Technometrics, 1978, 20, 47-68.

[15] BRANCOURT-HULMEL M., BIARNES-DUMOULIN V. et DENIS J.B. Points de repères dans l'analyse de la stabilitéet de l'interaction génotype-milieu en amélioration des plantes. Agronomie, 1997, 17, 219- 246.

[16] CALINSKI T., CZAJKA S. et KACZMAREK, Z. A model for the analysis of a series of experiments repeated at several places over a period of years. I. Theory. Biuletyn Oceny Odmian, 1987, 17/18, 7-33.

[17] CILLS. CSSA, Cadre stratégique de sécuritéalimentaire durable dans une perspective de lutte contre la pauvretéau sahel. CILSS, Ougadougou, 2000, 88 p.

[18] COLSON J., WALLACH D., BOUNIOLS A., DENIS J., JONES J. Mean Squared Error of Yield Prediction by SOYGRO. Agronomy Journal, 1995, 87 , 397-407.

[19] CORNELIUS P.L. Functionc approximating Mandel's tables for the means and standard deviations of the first three roots of a Wishart matrix. Technometrics, 1980, 22, 613-616.

[20] CORNELIUS P.L. Statistical tests and retention of terms in the additive main effects and multiplicative interaction model for cultivar trials. Crop Science, 1993, 33, 1186-1193.

[21] CORNELIUS P.L., SEYEDSADR M.S. et CROSSA J. Using the shifted multiplicative model to search for »separability» in crop cultivar trials. Theoretical and Applied Genetics, 1992, 84, 161-172.

[22] CROSSA J. Statistical analyses of multilocation trials. Advances in agronomy, 1990, 44, 55-85.

[23] CROSSA J., CORNELIUS P.L., SAYRE K. et ORTIZ-MONASTERIO R.J. A shifted multiplicative model fusion method for grouping environments without cultivar rank change. Crop Science, 1995, 35, 54-62.

[24] CROSSA J., CORNELIUS P.L., SEYEDSADR M.S. et BYRNE, P. A shifted multiplicative model cluster analysis for grouping environments without genotypic rank range. Theoretical and Applied Genetics, 1993, 85, 577-586.

[25] de JONG S. SIMPLS : An alternative approach to partial least squares regression. Chemometrics and Intelligent Laboratory Systems, 1993, 18, 251-263.

[26] DEMPSTER A.P., LAIRD N.M. et RUBIN, D.B. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society B, 1977, 39, 1-38.

[27] . DENIS J.B. et VINCOURT P. Panorama des méthodes statistiques d'analyse des intéractions génotype x milieu. Agronomie, 1982, 2, 3, 219- 230

[28] DENIS J.B. L'analyse de régression factorielle. Biométrie Praximétrie, 1980, 10, 1-34.

[29] DENIS J.B. Two-way analysis using covariates. Statistics, 1988, 19, 123- 132.

[30] DENIS J.B., PIEPHO H.P. et van EEUWIJK F.A. Modelling expectation and variance for genotype by environment data. Heredity, 1997, 79, 162-171.

[31] DIENG I. Pr'ediction de l'interaction g'enotype x environnement a` partir d'indices vari'etaux de sensibilit'e a` la s'echeresse et de bilan hydrique a` l'aide d'un modèle de r'egression factorielle dans des essais d'arachide au S'en'egal.- 60 p. M'emoire de DEA : Biostatistique : Montpellier II : 2003.

[32] DIENG I.; GOZE E., SABATIER R. Lin'earisation autour d'un t'emoin pour pr'edire la r'eponse des cultures. Comptes Rendus de l'Acad'emie des Sciences Biologies, 2006, 329, 148-155.

[33] DOORENBOS J. et JASSAM A. H. Yield response to water. In Irrigation and drainage Paper 33. FAO, Rome, 1979, pp 193.

[34] EAGLEMAN J.R. An experimentally derived model for actual evapotranspiration. Agricultural meteorology, 1971, 8, 4-3, 385-94.

[35] EBDON J.S. et GAUCH, H.G. Jr. Additive Main Effect and Multiplicative Interaction Analysis of National Turfgrass Performance Trials : I. Interpretation of Genotype x Environment Interaction. Crop Science, 2002a, 42, 489-496.

[36] EBDON J.S. et GAUCH H.G. Jr. Additive Main Effect and Multiplicative Interaction Analysis of National Turfgrass Performance Trials : II. Cultivar Recommendations. Crop Science, 2002b, 42, 497-506.

[37] EBERHART S.A. et RUSSELL W.A. Stability parameters for comparing varieties. Crop Science, 1966, 6, 36-40.

[38] EFRON B. Bootstrap Methods : Another Look at the Jacknife. Annals of statistics, 1979, 7, 1-26.

[39] FAO. IRSIS, Irrigation scheduling information system. FAO, Rome, 1987.

[40] FINLAY K.W. et WILKINSON G.N. The analysis of adaptation in a plant-breeding programme. Australian Journal of Agricultural Research, 1963, 14, 742-754.

[41] FOREST F. et CLOPES A., 1991. Contribution a` l'explication de la variabilitédes rendements d'une culture de ma·ýs plus ou moins intensifiée a` l'aide d'un modèle de bila hydrique amélioré. In Bilan hydrique agricole et sécheresse en Afrique tropicale. France : John Libbey Eurotext, 1991.- pp 3-15.

[42] FOREST F. et CORTIER B. Le diagnostic hydrique des cultures et la prévision du rendement régional du mil cultivédans les pays du CILSS. IRAT/CIRAD/AGRHYMET. IAHS, 1990, 544-557.

[43] FRANQUIN P. et FOREST F. Des programmes pour l'évaluation et l'analyse frequentielle des termes du bilan hydrique. Agronomie Tropicale, Janvier-Mars 1977, XXXII-1, 7-11.

[44] FREEMAN G. H. et PERKINS J. M. Environmental and genotype-environmental components of variability. VIII. Relations between genotypes grown in different environments and measures of these environments. Heredity, 1971, 27, 15-23.

[45] GAUCH H.G. et ZOBEL R.W. 1996. AMMI analysis of yield trials. In Genotype-by-environment interaction. Boca Raton, Floride : M.S. Kang & H.G. Gauch, 1996.- pp 85-122.

[46] GAUCH H.G. et ZOBEL R.W. Predictive and postdictive success of statistical analyses of yield trials. Theoretical and Applied Genetics, 1988, 76, 1-10.

[47] GAUCH H.G. Jr. Statistical Analysis of Yield Trials by AMMI and GGE. Crop Science, 2006, 46 :1488-1500.

[48] GAUCH H.G. Statistical analysis of regional yield trials : AMMI analysis of factorial designs. Amsterdam : Elsevier, 1992.

[49] GAUCH, H.G. Full and reduced models for yield trials. Theoretical and Applied Genetics, 1990, 80, 153-160.

[50] GOLLOB H.F. A statistical model which combines features of factor analytic and analysis of variance techniques. Psychometrika, 1968, 33, 73-115.

[51] GOZE E. Modèle stochastique de la pluviométrie au Sahel - Application a` l'agronomie- Th : UniversitéMontpellier II : 1990.

[52] KEMPTON R.A. The use of biplots in interpreting variety by environment interactions. Journal of Agricultural Science, 1984, 103, 123-135.

[53] LAIRD N. M. Computation of variance components using the EM algorithm. Journal of Statistical Computation and Simulation, 1982, 14, 295-303.

[54] LIN C.S., BINNS M.R. et LEFKOVITCH L.P. Stability Analysis : Where Do We Stand? Crop Science, 1986, 26, 894-900.

[55] MANDEL J. A new analysis of variance model for non-additive data. Technometrics, 1971, 13, 1-18.

[56] MANDEL J. Non-additivity in two-way analysis of variance. Journal of American Statistical Association, 1961, 56, 878-888.

[57] MCCULLOCH C. E. et SEARLE S. R. Generalized, Linear, and Mixed Models. New York: John Wiley & Sons, 2001.

[58] MCLACHLAN G.J. et KRISHNAN T. The EM Algorithm and Extensions. New Jersey : Wiley, 1997.

[59] MENG X.L. et van DYK D.A. Fast EM-type implementations for mixed effects models. Journal of the Royal Statistical Society B, 1998, 60, 559- 578.

[60] MORENO-GONZALEZ J., CROSSA J. et CORNELIUS P.L. Additive Main Effects and Multiplicative Interaction Model : I. Theory on Variance Components for Predicting Cell Means. Crop Science, 2003a, 43, 1967- 1975.

[61] MORENO-GONZALEZ J., CROSSA J. et CORNELIUS P.L. Additive Main Effects and Multiplicative Interaction Model: II. Theory on Shrinkage Factors for Predicting Cell Means. Crop Science, 2003b, 43 :1976- 1982

[62] PERKINS J.M. et JINKS J.L. Environmental and genotype-environmental components of variability. III. Multiple lines and crosses. Heredity, 1968, 23, 339-356.

[63] PIEPHO H.P. Best Linear Unbiased Prediction (BLUP) for regional yield trials : a comparison to additive main effects and multiplicative interaction (AMMI) analysis. Theoretical and Applied Genetics, 1989, 89, 647-654.

[64] PIEPHO H.P. Methods for Comparing the Yield Stability of cropping Systems - A Review. Journal of Agronomy and Crop Science, 1998, 180, 193-213.

[65] PIEPHO H.P., Denis J.B. et van Eeuwijk F.A. Predicting cultivar differences using covariates. Journal of Agricultural, Biological, and Environmental Statistics, 1998, 3, 151-162.

[66] PIEPHO, H.P. Robustness of statistical tests for multiplicative terms in the additive main effects and multiplicative interaction model for cultivar trials. Theoretical and Applied Genetics, 1995, 90, 438-443.

[67] RAMI J. F., DUFOUR P., TROUCHE G., FLIEDEL G., MESTRES C., DAVRIEUX F., BLANCHARD P., et HAMON P. Quantitative trait loci for grain quality, productivity, morphological and agronomical traits in Sorghum (Sorghum bicolor L. Moench). Theorical Applied genetics, 1998, 97, 605-616.

[68] RAO C. R. et KLEFFE J. Estimation of variance components and applications. Amsterdam : North Holland series in statistics and probability, Elsevier, 1988.

[69] SEARLE S. R. Linear models for unbalanced data. New York : John Wiley & Sons, 1987.

[70] SEARLE S. R., CASELLA G. et MCCULLOCH C. E. Variance Components. New York : John Wiley & Sons, 1992.

[71] SEIF E., EVANS J.C. et BALAAM L.N. A multivariate procedure for classifying environments according to their interaction with genotypes. Australian Journal of Agricultural Research, 1979, 30, 1021-1026.

[72] STONE, M. Cross-validatory choice and assessment of statistical predictions. Journal of the Royal Statistical Society B, 1974, 36, 111-147.

[73] TALBOT M. et WHEELWRIGHT A.V. The analysis of genotype x environment interactions by partial least squares regression. Biuletyn Oceny Odmian, 1989, 21/22, 19-25.

[74] . TALBOT M. Resource allocation for selection systems. In : Statistical methods for plant variety evaluation. London : KEMPTON RA, FOX PN, Chapman et Hall, 1997.- pp 162-174.

[75] TENENHAUS M. La Régression PLS : théorie et pratique. Parsi : Tech-nip, 1998.- 254 p.

[76] . THEOBALD C.M., TALBOT M. et NABUGOOMU F. A Bayesian approach to regional and local-area prediction from crop variety trials. Journal of Agricultural, Biological, and Environmental Statistics, 2002, 7, 12-28.

[77] TUCKER C.J., DREGNE H.E., NEWCOMB W.W. Expansion and contraction of the Sahara Desert from 1980 to 1990. Science, 1991, 253, 299-301.

[78] TUKEY J.W. One degree of freedom for non additivity. Biometrics, 1949, 5, 232-242.

[79] TURNER N. C., WRIGHT G. C. et SIDDIQUE K. H. M. Adaptation of grain legumes (pulses) to water-limited environments. Advances in agronomy, 2002, 71, 193-231.

[80] van EEUWIJK F.A. Interpreting genotype-by-environment interaction using redundancy analysis. Theoretical and Applied Genetics, 1992, 85, 89-100.

[81] van EEUWIJK F.A. Linear and bilinear models for the analysis of multi-environment trials. I. An inventory of models. Euphytica, 1995, 84, 1-7.

[82] van EEUWIJK F.A., DENIS J.B. et KANG M.S. 1996. Incorporating additional information on genotypes and environments in models for two-way genotype by environment tables. In Genotype-by-environment interaction. Boca Raton, Floride : M.S. Kang & H.G. Gauch, 1996.- pp 15-49.

[83] VARGAS M., CROSSA J., SAYRE K., REYNOLDS M., RAM`IREZ M.E. et TALBOT M. Interpreting genotype x environment interaction in wheat by partial least squares regression. Crop Science, 1998, 38, 679-689.

[84] VARGAS M., CROSSA J., van EEUWIJK F.A., RAM`IREZ M.E. et SAYRE K. Using partial least squares regression, factorial regression, and AMMI models for interpreting genotype x environment interaction. Crop Science, 1999, 39, 955-967.

[85] WALLACH D., GOFFINET B. Mean Squared Error of Prediction in Models for Studying Ecological and Agronomic Systems. Biometrics, 1987, 43, 561-573.

[86] WILLIAMS E.J. The interpretation of interactions in factorial experiments. Biometrika, 1952, 39, 65-81.

[87] WOLD H. Estimation of principal components and related models by iterative least squares. In Multivariate Analysis. New York : Krishnaiah P.R., Academic Press, 1966, pp 391-420.

[88] WOLD H. Modelling in Complex Situations with Soft Information. Third World Congress of Econometric Society. Toronto, Canada, 1975 August 21-26.

[89] WOLD S., ALBANO C., DUNN W.J., ESBENSEN K., HELLBERG S., JOHANSSON E., SJOSTROM M. Pattern recognition: Finding and

using patterns in Multivariate Data. In : Food Research and Data Analy-
sis. London : Applied Science: Martens H, Russwurm H Jr, 1983 ;147-188.

[90] WOOD J. T. The use of environmental variables in the interpretation of genotype-environment interaction. Heredity, 1976, 37, 1-7.

[91] WU C. F. On the convergence properties of the EM algorithm. The Annals of Statistics, 1983, 11, 95-103.

[92] YAN W. et HUNT W.A. Interpretation of Genotype x Environment Interaction for Winter Wheat Yield in Ontario. Crop Science, 2001, 41, 19-25.

[93] YATES F. et COCHRAN W.G. The analysis of groups of experiments. Journal of Agricultural Science, 1938, 28, 556-580.

[94] ZOBEL R.W., WRIGHT M.J. et GAUCH H.G. Statistical analysis of a yield trial. Agronomy Journal, 1988, 80, 388-393.

Annexe A : Mod`ele de

R'egression factorielle

On dispose de trois matrices : X de dimension I x p est la matrice des co-variables associees au premier facteur (facteur varietepar exemple), Z de dimension J x q est la matrice des covariables associees au deuxieme facteur (facteur lieu) et Y de dimension I x J est la matrice des observations. Les matrices X, Y et Z s'ecrivent ainsi :

x11

?

x21

X=

? ? ? ? ? ...

xI1

x12

x22
...

xI2

'' '

' ' '

'' '

x1p
x2p

...

xIp )

z11

?

z21

Z=

? ? ? ? ? ...

zJ1

z12

z22
...

zJ2

' ''

' ' '

' ''

z1q
z2q

...

zJq )

y11

?

y21

Y=

? ? ? ? ? ...

yI1

y12

y22
...

yI2

' '

' '

' '

'
'

'

y1J
y2J

...

yIJ )

L'idee est d'utiliser les deux matrices de covariables X et Z attachees aux deux facteurs varieteet environnement pour expliquer la matrice Y.

Pour cela, une premiere regression de Y sur X est faite : Y = Xa bYX = X(X/X)-1X'Y

et RX = Y -

 

àYX= (II - X(X'X)-1X')Y

avec II repr'esentant la matrice identit'e d'ordre I et RX la matrice des r'esidus de la r'egression de Y sur X qui est de dimension I × J.

Une deuxième r'egression de àY' X sur Z est faite.

àY'X = Zâ àY'XZ = Z(Z'Z)-1Z' àY'X

Ainsi, àYXZ = àYXZ(Z'Z)-1Z' = X(X'X)-1X'YZ(Z'Z)-1Z'

D'o`u RàYx = àYX - àYXZ = X(X'X)-1X'Y - X(X'X)-1X'YZ'(ZZ')-1Z RàYx = X(X'X)-1X'Y(IJ - Z'(ZZ')-1Z)

Enfin, une dernière r'egression de RX sur Z est faite.

R'X = Zy àR'XZ = Z(Z'Z)-1Z'R'X

àRXZ = RXZ(Z'Z)-1Z' d'o`u àRXZ = (IJ - X(X'X)-1X')YZ(Z'Z)-1Z' Ainsi, Y = àYXZ + RàYx + àRXZ + R'esidus,

Posons

àYXZ = X(X'X)-1X'YZ(Z'Z)-1Z' = XMZ' (B.1)

RàYx = X(X'X)-1X'Y(IJ - Z(Z'Z)-1Z') = Xâ' (B.2)

àYXZ = (IJ - X(X'X)-1X')YZ(Z'Z)-1Z' = áZ' (B.3)

X et Z peuvent àetre mis sous la forme X = ( 1I Xÿ ) Z = ( 1J Zÿ )

1' 1'

avec ./ ) et Z' = ÿI ) vec Xÿ se d'eduisant de la matrice X par

X' Z'

centrage des colonnes (de màeme pour ÿZ)

! !

1' I 1' I Xÿ

ÿX'X = I ( 1I Xÿ ) =

ÿX' ÿX'1I ÿX' Xÿ

! !

IJ 1'

1 1

IY1J I 1' IY ÿZ( ÿZ' ÿZ)-1 m m' 2

=

J ( ÿX' ÿX)-1 ÿX'Y1J ( ÿX' ÿX)-1 ÿX'Y ÿZ( ÿZ' ÿZ)-1

1 m1 Mÿ

M=

!-1

A B = A-1 + FE-1F' --FE-1

Or

B' D --E-1F' E-1

avec E = D -- B'A-1B et F = A-1B

Ici A = I , B = 1'I Xÿ = B' = ÿX'1I et D = ÿX' Xÿ D'o`u A-1 = 1I , F = I 1 1' I Xÿ = 0 car Xÿ centre

et E = ÿX' Xÿ = E-1 = (ÿX' Xÿ) 1.

!-1 1

ÿX'1I ÿX' Xÿ

0

( ÿX' ÿX)

-1

De màeme ( ÿZ'Z)-1 =

0 ( ÿZ' ÿZ)-1

1 J 0

D'après l'equation (B.1) M = (X'X)-1X'YZ(Z'Z)-1

I 1' I Xÿ 0

Ainsi ( ÿX'X)-1 = I

=

M=
M=

M= D'o`u

! ! 1 !

1 0 1' 0

I I Y ( 1J Zÿ ) J

0 ( ÿX' ÿX)-1 ÿX' 0 ( ÿZ' ÿZ)-1

! 1 !

I 1'

1 IY 0

( 1J Zÿ ) J

( ÿX' ÿX)-1 ÿX'Y 0 ( ÿZ' ÿZ)-1

I 1'IY1

J I 11'IY Zÿ )

1 0

J

( ÿX' ÿX)-1 ÿX'Y1J ( ÿX' ÿX)-1 ÿX'Y Zÿ 0 ( ÿZ' ÿZ)-1

D'après l'equation (B.2) â' = (X'X)-1X'Y(IJ -- Z(Z'Z)-1Z')

!

I 1'

( ÿX' ÿX)-1 ÿX'Y =

1 IY

( ÿX' ÿX)-1 ÿX'Y

1!

0

Z(Z'Z)-1 = ( 1J Zÿ ) J = ( 1 J 1J ÿZ( ÿZ' ÿZ)-1 )

0 ( ÿZ' ÿZ)-1

!

1'

Donc Z(Z'Z)-1Z' = ( 1 J 1J ÿZ( ÿZ' ÿZ)-1 ) J = 1 J 1J1' J + ÿZ( ÿZ' ÿZ)-1 ÿZ'

ÿZ'

!I11'IY (IJ- 1 J1J1' J- ÿZ(ÿZ'ÿZ)-1ÿZ')

D'o`u â' =

( ÿX' ÿX)-1 ÿX'Y

! !

I 1'

1 IY(IJ- 1J1J1'J - ÿZ(ÿZ' ÿZ)-1ÿZ') = b'

( ÿX' ÿX)-1 ÿX'Y(IJ- 1J1J1'J - ÿZ(ÿZ'ÿZ)-1ÿZ') B'

â' =

D'après l'équation (B.3) á = (II - X(X'X)-1X')YZ(Z'Z)-1

X(X'X)-1X' = ( 1I Xÿ )

!

I 1' 1

I= I 1 1I1' I + ÿX( ÿX' ÿX)-1 ÿX' ( ÿX' ÿX)-1 ÿX'

D'o`u a = (II - 1I1I1'I - ÿX(ÿX'ÿX)-1ÿX')( 1J Y1J YÿZ(ÿZ'ÿZ)-1 )

a = ( (II - I11I1'I - ÿX(ÿX'ÿX)-1ÿX') 1JY1J (II - 1I1I1'I - ÿX(ÿX'ÿX)-1 ÿX')YÿZ(ÿZ' ÿZ)-1 )
= ( a A )

Ainsi Y = àYxZ + RàYX + àRxZ + R'esidus = XMZ' + Xâ' + áZ' + R'esidus

! !

mD'o`uY= ( 1IX) m' 2 J + ( 1I Xÿ )

m1 Mÿ Zÿ B'

!

1' J

+ ( a A ) Zÿ

!

1'

Yà = ( 1Im + ÿXm1 1Im' 2 + Xÿ Mÿ ) J + 1Ib' + ÿXB' + a1' J + A ÿZ'

ÿZ'

D'o`u

Yà = 1Im1'J + ÿXm11' J+ 1Im' 2 ÿZ' + Xÿ Mÿ ÿZ' + 1Ib' + ÿXB' + a1'J + A ÿZ'

Annexe B : Article au C.R.

Biologie

 
 
 

C. R. Biologies 329 (2006) 148-155

http://france.elsevier.com/direct/CRASS3/

Biomodélisation / Biological modelling

Linéarisation autour d'un témoin pour prédire la réponse de cultures

Ibnou Dieng a,*, Éric Gozé b, Robert Sabatierc

a Centre d'étude régional pour l'amélioration de l'adaptation à la sécheresse, BP 3320, Thiès-Escale, Thiès, Sénégal
b Centre de coopération internationale en recherche agronomique pour le développement, TA 70/09, avenue d'Agropolis,
34398 Montpellier cedex 5, France
c Laboratoire de physique moléculaire et structurale, faculté de pharmacie, 15, avenue Charles-Flahault, 34060 Montpellier, France

Reçu le 18 avril 2005; accepté le 17 janvier 2006
Disponible sur Internet le 9 février 2006
Présenté par Michel Thellier

Résumé

Une nouvelle méthode pour modéliser les interactions génotype x environnement : APLAT. Le rendement de génotypes prédit par un modèle de simulation de cultures est développé en série de Taylor à l'ordre 1 au voisinage du vecteur de paramètres d'un génotype de référence. À l'aide de cette linéarisation locale, l'estimation des paramètres de ces génotypes se fait par régression linéaire des rendements observés sur la sensibilité des sorties du modèle de simulation de cultures par rapport aux paramètres. Pour citer cet article :I. Dieng et al., C. R. Biologies 329 (2006).

(c) 2006 Académie des sciences. Publié par Elsevier SAS. Tous droits réservés.

Abstract

Prediction of crop response by linearisation about control approximation. A new method for modelling genotype x environment interaction: APLAT. The yield predicted by a crop-simulation model is developed as a Taylor series in the neighbourhood of a parameter vector of a control genotype. With this local linearisation, these genotype parameters can be estimated by a linear regression of the observed yield on the derivatives of the crop-simulation model predictions with respect to its parameters. To cite this article: I. Dieng et al., C. R. Biologies 329 (2006).

(c) 2006 Académie des sciences. Publié par Elsevier SAS. Tous droits réservés.

Mots-clés: Linéarisation; Prédiction de la réponse de cultures ; Témoin; Interaction genotype x environnement Keywords: Linearization; Predict responses culture; Control; Genotype x environment interaction

Abridged English version

In Sahel, genotype x environment interactions are often large: this is the justification behind multilocation

* Auteur correspondant.

Adresses e-mail: ibnou.dieng@ceraas.org,

dieng_ibnou@yahoo.fr (I. Dieng), eric.goze@cirad.fr (É. Gozé), sabatier@univ-montp1.fr (R. Sabatier).

and pluriannual trials. Because of these sizeable environment effects and interactions, the prediction of an expected yield with a linear mixed model is generally imprecise.

Improving this prediction can be achieved by modelling the environment effect. It is then partly shifted from the random part to the fixed part of a mixed model, by the use of a crop-simulation model like DHC, IRSIS, SarraH... This could not be possible with the empirical

genotype × environment interactions analysis methods like AMMI and joint regression, which do not make use of environmental variables. The factorial regression method does make use of environmental variables; however, it requires their effect on the production to be linear, which might not be the case.

Unfortunately, most crop-simulation models bear a number of parameters, the estimation of which requires a specific and costly experiment. As a consequence, these parameters are usually known, but for a small set of reference genotypes. It would not be sensible to invest in a parameter estimation experiment for every new genotype that is proposed for selection.

To overcome this problem, one can notice that multisite experiments usually share a control variety for which parameters have already been estimated. In this paper, we propose to develop as a Taylor series the modelled response about the parameters of this control genotype. The other genotypes' parameters can then be estimated by a linear regression of the observed yields on the sensitivity to parameters, i.e., on the derivatives of the response with respect to the parameters. With this estimation, one can predict the new genotype responses in environments where they have not been tested. In a given location, this estimation can benefit from the available historic climatic records to estimate a distribution of probable yields.

Let f (Zj,èi) denote the yield of a genotype i predicted by a crop simulation in an environment j and Yij the observed yield. We can write:

Yij = f (Zj ,èi) + îj + uij

where Zj is the vector of the jth environment regressors and èi the P -vector of the ith genotype parameters. The bias îj is that of the crop-simulation model. We suppose that it depends only on environment and is the same for all genotypes in a same environment. The error term uij is supposed random with expectation 0 and variance ó2u.

Let us consider a control genotype, i.e., whose parameters are known or at least already estimated. Let è0 be the vector of parameters of this control genotype and let us suppose that f is a C1 class function in a neighbourhood of è0 and f' derivable in this neighbourhood. Moreover, let us suppose èi in the neighbourhood of è0. Then, a Taylor series expansion yields:

f (Zj,èi) = f(Zj,è0) + P_1 aè(p) è=è0,Z=Zj

EP [ ?f

× (èi (p) - è0p))+ ?[(èi - è0)'(è - è0)]

with èi (p) the pth component of the parameters vector

of the ith genotype, è(p)

0 that of the control genotype.

(p) ?

Let Xj = [ ? fo(p) |è=è0,Z=Zj ] and âi (p) = èi (p) - è0(p)

for p = 1, . . . , P. As f is not known in closed form, one
has to estimate its derivatives by numerical approxima-
tion. The function X(p) jis a function of environment j,

while â(p)

i is a function of genotype i. Then, the local

linearization yields:

Yij - Y0j = ~P

p=1

X(p)

j ·âi (p) + ~ij

where Y0j is the control response in the environment j and eij = uij - u0j. So, E(eij) = 0, V(eij) = 2ó2u, Cov(eij , ~i~j~) = 0, but Cov(eij, ei,j) = ó2u.

This equation can be put in the form of a linear model with correlated errors:

Y - (Y0 ? 1I) = X · â + e

In this equation, Y is the vector of responses of the I genotypes in the J environments, Y'0 = (Y01 · · · Y0J), 1I is unit vector of size I × 1. The symbol ? indicates the Kronecker product and E is a random error vector. Its covariance matrix is ó2u? where:

 

?

? ? ? ? ? ?

ù1

...

? =

0

 

and

?

?

0 ? ?

ùj ? ?

..?

.

ùJ

1

2

?

?

ùj = (21 . . .

The number of columns of the square matrices ? and ùj are respectively the number of observations for all the environments and the number of observations for environment j.

Also, X = [ X(1) ? II · · · X(P) ? II ] where X(p)' = [X(p)

1 ··· X(p)

J ] is a J × 1 vector and II is the I × I unit matrix. The dimension of X is then IJ × PI.

inally, )= [â(1)' · · · â("] where â(p), = [ â Pit

1

We call this method APLAT for Approximation Par Linéarisation Autour d'un Témoin.

Because of the large number of columns of X, some dimension reduction method like Partial Least Squares regression is necessary. The dimension of the space spanned by the regressors is then reduced from rank of X to k. The PLS regression is usually carried out

with the NIPALS (Nonlinear estimation by Iterative Partial Least Squares) algorithm, where the calculation of the components is performed simultaneously with a set of regressions by ordinary least squares. Here, the error covariance matrix is ó2u?, not ó2uIIJ, generalized least squares should be used instead. As ? is symmetric and positive semi-definite, a work around consists in factorizing its inverse, finding a matrix ç such that ç~ç = ?-1.

Then, estimating â by PLS with regressions by generalized least squares is equivalent to consider the model:

çY - ç(Y0 ? 1I) = çX · â + çE

where âPLS is the estimation with regressions made by ordinary least squares.

The number of components is chosen to minimize
the PRESS (Prediction Error Sum of Squares) criterion.
To calculate the confidence interval of the coeffi-

cients, we used a bootstrap technique. Let z(p)~b

i,PLS be the

random variable defined by:

(p)*b

zi, PLS =

â(p)~b

i,PLS -â(p)

i,PLS

s*(

â(p)~b i,PLS)

where

â(p)

i,PLS is the (p · i)th element of âPLS,â(p)~b

i,PLS

is obtained at the bth draw with b = 1, . . . , B and

s( àâ(p)~b

i,PLS) is the standard error of â~b PLS. Let ~FB be

the empirical distribution function of z(p)~b

i,PLS. The frac-

tile FB 1(á) is estimated by àt(á) such that #{z(p)~b

i,PLS

~ àt(á)} = áB.

A percentile-t confidence interval for the (p · i)th element of â is in the following form:

~ â(p)

i,PLS -sOilitS ) · àt(1 - á), sOilltS) · àt(á)]

To evaluate the quality of the new model, we compared its MSEP (Mean Squared Error of Prediction) with that of the average model defined for our data as follows:

Yij = m + gi + Ej + äij

where m is the population mean and gi the genotype effect. The term Ej is the year effect and it is assumed random with expectation 0 and variance ó2E. Errors äij are distributed independently with expectation 0 and variance ó2ä . The terms Ej and äij are assumed to be mutually independent.

The data set consists of plant yields of 26 groundnut genotypes. The experiments have been carried out at Bambey (14?42N and 16?28W) in Senegal, over a period of five years from 1994 to 1998. The data of each year were kept in turn as a test sample. Yields are expressed in kilograms of pods per hectare.

We used SarraH, a crop simulation model developed by CIRAD in collaboration with CERAAS, to calculate X. Taking into account the available number of data, we estimated two of its varietal parameters.

The PRESS is minimal with six components for models adjusted without the data of 1994, 1995 and 1997. For each of the others, the PRESS is minimal with nine components. However, we decided to keep only five components, as the PRESS was not very different from its minimum value.

The APLAT MSEPs are lower than the average model MSEP, except for prediction of 1998 data. Then the prediction of yield for these models by APLAT was better than that made with the average model four times out of five.

With the APLAT method, the prediction of a genotype in a new environment comes at a relatively low price, using mostly available data, except for the environmental data, which has to be recorded for every site of the experiment, according to the crop-simulation model needs. This method seems promising, but requires additional studies with more numerous data.

1. Introduction

Au Sahel, les interactions genotype × environnement constatées lors des essais multilocaux et pluriannuels sont généralement importantes. Sur les réponses moyennes par variété et par environnement, le modèle linéaire généralement adopté s'écrit :

Yij = m + gi + Ej + (gE)ij + eij (1)

Yij est la réponse du génotype i de l'environnement j, m la moyenne générale et gi l'effet fixe du génotype i. L'effet Ej de l'environnement j et l'interaction (gE)ij peuvent être fixes ou aléatoires. Pour l'objectif de prédiction des réponses de génotypes dans l'ensemble des environnements potentiels auxquels ils sont destinés, l'optique aléatoire est plus pertinente. Ainsi, supposons ces deux effets et le terme d'erreur eij aléatoires, iid et indépendants les uns des autres avec E(Ej) = E[(gE)ij] = E(eij) = 0 et V(Ej) = ó2 E, V[(gE)ij] = ó2gE et V(eij) = ó2e E(·) et V(·) désignent l'espérance et la variance.

Choisir un génotype i dans un environnement j suppose d'estimer l'espérance de sa performance dans j. La précision de cette estimation est fonction de ó2E, ó2gE et de ó2e . Dans cette zone du Sahel, l'environnement est variable, c'est-à-dire que ó2E et ó2gE sont grands, ce qui

dégrade cette précision. Pour l'améliorer, une solution est de modéliser les variations de Yij en fonction de l'environnement par l'utilisation de modèles de simulation de cultures tels que DHC [1], IRSIS [2], SarraH [3], etc. De ce fait, une partie de l'effet aléatoire de l'environnement est reportée dans la partie fixe du modèle. Cette approche n'est pas possible avec les modèles classiques de l'interaction génotype × environnement. En effet, la méthode AMMI, Additive Main effects and Multiplicative Interactions [4] ainsi que la régression conjointe [5,6] ne tiennent pas compte des nouveaux environnements pour y prédire les réponses des génotypes. La régression factorielle [4,5] en tient compte, mais suppose que l'action des variables des environnements sur la production est linéaire, ce qui n'est pas certain.

Cependant, les paramètres des modèles de simulation de cultures ne sont pour la plupart connus que pour un petit nombre de génotypes, car leur évaluation demande une expérimentation spécifique et des mesures coûteuses.

L'objectif de cette étude se pose alors en ces termes : comment prédire le comportement de génotypes dans de nouveaux environnements en tenant compte de ces derniers, sans coût excessif ?

2. Le modèle proposé

Si nous partons du modèle de simulation de cultures, chacune des sorties de ce modèle, le rendement potentiel par exemple, peut s'interpréter comme la réponse d'un génotype i dans un environnement j :

Yij = f (Zj,èi) + îj + uij (2)

Zj est le vecteur des variables telles que la pluie, la température, etc., mesurées sur l'environnement j et èi le vecteur de longueur P des paramètres du génotype i. L'erreur îj est le biais du modèle de simulation de cultures ; nous supposons qu'elle ne dépend que de l'environnement j : elle est donc la même pour tous les génotypes d'un même environnement. Le terme uij est pris aléatoire, avec E(uij) = 0 et V(uij) = ó2 u .

Comme on l'a dit précédemment, les paramètres des modèles de simulation de cultures ne sont généralement connus que pour un petit nombre de génotypes. Considérons un modèle de simulation de cultures et un génotype de référence dont les paramètres sont connus et appelons è0 le vecteur de ses paramètres. Alors, supposons f de classe C1 dans un voisinage de è0 et f' dérivable sur ce voisinage. De plus supposons èi au voisinage de è0. En pratique, les génotypes dont nous chercherons à estimer leurs paramètres seront choisis de telle sorte qu'ils ne soient pas trop éloignés du génotype de référence. Alors, un développement en série de Taylor à l'ordre 1 nous donne :

f (Zj,èi) = f (Zj,è0) +

~P ~?f ~

(p))

p=1 è=è0,Z=Zji

× (èi (p) - è(p)

0 ) + ?[(èi - è0)'(èi - è0)]

(3)

(p

avec èi (p) et è0 ) la pe composante du vecteur de paramètres respectivement du génotype i et du génotype de référence.

Posons X(p) j=

[ ?f

?è(p) ]è=è0,Z=Zj : c'est une fonction de l'environnement j et â(p)

i = è(p) i- è(p)

0 une fonc-

tion du génotype i. La fonction X(p)

j est la dérivée partielle de la sortie du modèle de simulation de cultures pour l'environnement j par rapport à la pe composante du vecteur de paramètres de la variété de référence. Comme la fonction f n'est pas généralement connue analytiquement, ces sensibilités peuvent être obtenues par une méthode de dérivation numérique. Nous avons retenu tout simplement :

X(p) = L?è(p) jè=è0,Z=Zj
~f (è(p)

0 + hè(p)

0 ) - f (è(p)

0 - hè(p)

0 ) ~

~

2hè(p) Z=Zj

0

(p

avec 0 (p) très petit, de l'ordre de è0 ) × 10-4 en pra-

tique. D'autres méthodes existent, celle-ci étant la plus simple et économe en calculs.

Avec ces notations et d'après l'Éq. (2), qui permet d'écrire f (Zj,è0) = Y0j - îj - u0j, nous pouvons écrire, en négligeant ?[(èi - è0)'(èi - è0)] :

Yij - Y0j = ~P

p=1

X(p) j · â(p)

i + ~ij (4)

oùfi eiji = uiji --- u0j.. Ainsi, E(eij)) = 0, V(eij)) = 2ó2u,, Cov(eij ,, Eijj~) == 0, mais Cov(eij , ~i~j)) = ó2u..

Si nous disposons de I génotypess et de J environnements, nous pouvons poser le modèle suivant :

Y - (Y0 ? 1I) = X · â + ee (5)

Le vecteur Y représente le rendement de tous les génotypess dans tous les environnements ; ilt est de longueur IJ,, Y'0 = (Y01l ·
· ·
· ·
· Y0J)) et 1I/ est un vecteur formé de 1, de longueur I. Le symbol ? désigne le produit de Kronecker. Le vecteur E est un vecteur d'erreurr aléa-

toire. Sa matrice de covariance est de la forme ó2u?, avec :

 

?
? ? ? ? ? ?

ù1

..

? =

0

 

?

?

. 0 ? ?

ùj ? ?

..?

.

ùJ

2 1

ù j = ( ..?

.

1 2

Les matrices ? et ùj sont carrées de nombre de lignes, respectivement le nombre d'observations de tous les environnements et le nombre d'observations de l'environnement j.

Ensuite, X = [X(1) ? II · · · X(P) ? II ] où X(p)' = [ X(p) 1· · · X(J p) ] est de longueur J et II est la matrice identité d'ordre I. La matrice X est donc de dimension IJ × PI.

Enfin, â~ = [ â(1)~ · · · â(P )~ ] avec â(p)~ =

[ â(p)

1 · · · â(p)

I ].

Nous proposons d'appeler cette méthode par l'acronyme APLAT : Approximation Par Linéarisation Au-tour d'un Témoin. Elle consiste à approcher, localement, le rendement prédit par un modèle de simulation de cultures, par série de Taylor à l'ordre 1 au voisinage du vecteur de paramètres d'un génotype de référence. Cette linéarisation permet, par régression linéaire, l'estimation des paramètres de ces génotypes. Par la suite, la prédiction de l'écart entre le rendement de ces génotypes et celui du génotype de référence dans des environnements nouveaux, c'est-à-dire où ils ne sont pas encore testés, pourra se faire si le climat de ces derniers est connu.

3. Estimation des paramètres et validation du modèle

Il y a en général beaucoup de paramètres dans un modèle de simulation de cultures et peu d'environnements dans un essai multienvironnement, ce qui rend souvent PI grand par rapport à IJ. Pour notre exemple, nous avons utilisé SarraH comme modèle de simulation de cultures. Ce modèle dispose de 61 paramètres, qui sont fonction du génotype. Avec un tel nombre de prédicteurs, l'estimation de â s'est faite par régression PLS, Partial Least Squares [7]. Il s'agit donc pour nous d'écrire un modèle linéaire de prédiction des rendements des génotypes pour de nouveaux environnements par les sensibilités par rapport aux paramètres des génotypes des sorties d'un modèle de simulation de cultures, fondé sur la construction de composantes orthogonales dans l'image de X. Ceci permet de réduire l'espace des régresseurs de rang de X à k dimensions. La régression PLS s'effectue selon le principe de l'algorithme NI-PALS, Nonlinear estimation by Iterative Partial Least Squares [7], où un ensemble de régressions partielles par moindres carrés ordinaires est effectué, en même temps que le calcul des composantes. Ici, la matrice de covariance de E est égale à ó2u? et non à ó2uIIJ . La solution serait d'effectuer toutes les régressions partielles par moindres carrés généralisés. Mais cette matrice de covariance est inconnue. Elle s'écrit tout de même, à une constante multiplicative près, en fonction de ?, qui elle est connue. La matrice ? étant symétrique et semi-définie positive, par décomposition de Cholesky, il existe une matrice ç tel que ç~ç = ?-1.

Ainsi, estimer â par PLS avec les régressions partielles par moindres carrés généralisés consiste à poser le modèle suivant :

çY - ç(Y0 ? 1I) = çX · â + çe (6)

âPLS est l'estimation avec les régressions partielles effectuées par moindres carrés ordinaires.

Dans ce cas, la variance de l'erreur çc s'écrit :

E(ç~E~ç~) = çE(ce)ç' = ó2uç?ç' = ó2uç(ç'ç)-1ç~

2

= óuçç

-1(çr)-1ç/ = ó2uIIJ

Le nombre de composantes à retenir est déterminé par le PRESS, Prediction Error Sum of Squares [7].

Nous avons calculé les intervalles de confiance des coefficients estimés par la méthode bootstrap [8]. Cette technique permet d'estimer la loi inconnue d'un estimateur par une loi empirique obtenue à partir d'une procédure de rééchantillonnage fondée sur des tirages aléatoires avec remise des données. Les intervalles de confiance construits sont de type percentile-t [9]. Soit

(p)*b

zi,PLS la variable aléatoire définie par :

(p)*b zi,PLS =

(7)

â(p)~b

i,PLS - â(p)

i,PLS

s*(

â(p)~b i,PLS)

âi(,pPlS est le (p · i)e élément de âPLS, âi(,PL p)*S obtenu

au be tirage avec b = 1, . . . , B et s( â(p)~b

i,PLS) l'écart-type

estimé de â~bPLS. Soit 'FB la fonction de répartition empi-

rique des z(p)~b

i,PLS. Le fractile d'ordre á, %1 (á) est estimé

par la valeur àt(á) telle que :

1
B

~B
b=1

(p)*bà= á {zi,PLS t(á)}

Donc un intervalle de confiance percentile-t pour le (p.i)e élément de â peut s'écrire :

[ â(p)

i,PLS - s~ â(p) ~ · àt(1 - á), â(p)

i,PLS - s( â(p) ) · àt(á)]

i,PLS i,PLS

(8)

L'évaluation de la qualité du modèle proposé est faite avec l'erreur quadratique moyenne de prédiction MSEP, Mean Squared Error of Prediction [10]. La MSEP est utilisée comme critère pour comparer différents modèles dont le modèle moyen [11], défini pour nos donnés par:

Yij = m + gi + Ej + äij (9)

m est la moyenne de la population et gi l'effet génotype. L'effet Ej de l'environnement j est supposé aléatoire, d'espérance nulle et de variance ó2 E. Les erreurs äij sont indépendantes, d'espérance nulle et de variance ó2 ä . De plus, Ej et äij sont supposés indépendants.

Le logiciel R [12] a été utilisé la fonction qui a servi pour les régression est de J.-F. Durand [13].

4. Les données utiisées

Nous avons des résultats d'essais agronomiques d'arachide menés de 1994 à 1998 sur la station expérimentale du Ceraas, située à Bambey (14?42N et 16?28O), au Sénégal. Ces essais pluriannuels ont concerné au total 26 génotypes à cycle de développement de 90 jours et répondaient à l'objectif de recherche de génotypes physiologiquement adaptés à la sécheresse.

La variété de référence choisie est la 55-437, c'est une variété hâtive de 90 jours; elle a donc une longueur de cycle proche de celle des autres variétés utilisées. Elle a été choisie parce que ses données étaient disponibles.

Dans ce milieu à forte variabilité des pluies dans l'espace et même dans le temps pour un même lieu, nous avons considéré chacune des cinq années d'expérimentation comme un environnement (Fig. 1).

Pour valider notre modèle, nous avons réservé successivement chacune des années et estimé les paramètres des génotypes sur les années restantes. Pour chaque année, les rendements observés ont été comparés à ceux prédits par la méthode APLAT. Les rendements sont exprimés en kilogrammes de gousses par hectare.

SarraH a été utilisé pour calculer X. Compte tenu du nombre de données disponibles, seuls deux paramètres (P = 2) ont été considérés parmi les 61 de SarraH. Le premier paramètre est en fait un coefficient multiplicateur qui agit sur cinq paramètres de SarraH : coefficient

Fig. 1. Répartition des pluies sur la station de Bambey, au Sénégal, de 1994 à 1998.

moyen d'angle des feuilles, coefficient de conversion en assimilat, coefficient d'efficience d'assimilation des feuilles à la phase végétative juvénile, coefficient d'efficience d'assimilation des feuilles à la première phase de maturation, phase sensible de remplissage des grains et coefficient d'efficience d'assimilation des feuilles à la deuxième phase de maturation, phase non sensible. Le deuxième paramètre est le poids moyen des gousses.

5. Résultats

Au Sahel, l'interaction G×E est largement due aux aléas climatiques, dont la probabilité peut être estimée à l'aide de longues chroniques de relevés météo au sol. Cependant, relier l'interaction G×E et la pluviométrie à l'aide d'un modèle de simulation de cultures n'est habituellement possible que pour des variétés dont on a estimé les paramètres, au prix d'une expérimentation spécifique. Le modèle APLAT permet de prédire cette interaction avec les seules données d'une expérimentation multilocale classique, sans autre instrumentation que des stations météo simples.

Pour les modèles sans les données respectivement de 1994, 1995 et 1997, le PRESS minimal est atteint avec six composantes. Pour les deux autres modèles, le PRESS est minimal avec neuf composantes, mais nous avons réduit leur espace à cinq dimensions, car le PRESS n'y est pas trop différent de ses valeurs mini-males (Fig. 2).

Les coefficients des régressions PLS et les intervalles de confiance qui leur sont associés sont représentés sur la Fig. 3.

Les MSEP estimées pour les modèles APLAT, sauf celle sans les données de l'année 1998, sont inférieures aux MSEP des modèles moyens correspondants (Tableau 1). Ce qui signifie que, pour ces modèles, pré-

Fig. 2. Evolution du PRESS en fonction du nombre de composantes. Le modèle (-1994) utilise les données, sauf celles de l'année 1994, et ainsi de suite.

Fig. 3. Intervalle de confiance percentile-t à 95 % des coefficients estimés. Le modèle (-1994) utilise les données, sauf celles de l'année 1994, et ainsi de suite. Sur l'axe des abscisses figurent les génotypes par ordre alphabétique pour chacun des deux paramètres. Le symbole représente l'estimation des coefficients.

Tableau 1

MSEP des différents modèles APLAT et modèles moyens correspon-
dants. Le modèle (-1994) utilise les données, sauf celles de l'année

1994, et ainsi de suite

 
 
 

APLAT

Modèle moyen

Modèle (-1994)

24687,3

64651,6

Modèle (-1995)

5915,0

7160,6

Modèle (-1996)

35446,1

37814,8

Modèle (-1997)

10038,3

18201,1

Modèle (-1998)

118304,9

84963,6

dire le rendement par la méthode APLAT est meilleur que par la moyenne des rendements du passé. Ainsi, quatre fois sur cinq, la méthode APLAT s'est révélée meilleure que le modèle moyen. Toutefois, cette étude souffre de la faible taille de notre échantillon.

6. Conclusion

La méthode APLAT peut être vue comme un outil d'aide à la décision pour la sélection au Sahel. Dans l'exemple où un sélectionneur doit tester plusieurs génotypes dans un nouvel environnement, cette méthode lui permettra d'écarter d'emblée certains génotypes qui donneront une production faible, en lieu et place d'essais multilocaux ou pluriannuels dans ces environnements contrastés ou d'une tentative de paramétrisation d'un modèle de simulation de cultures qui implique un coût élevé. Son attention sera portée par la suite sur l'ensemble restreint des génotypes retenus avec APLAT, où il pourra appliquer les schémas classiques de sélection.

Cette nouvelle approche semble prometteuse, mais il faut des études supplémentaires. Notamment disposer de données agronomiques plus conséquentes pour l'éprouver.

Remerciements

Nous remercions Danièle Clavel pour les données de l'étude et Jean-Claude Combres pour toutes les discussions autour du modèle SarraH.

Références

[1] AGRHYMET, Bulletins décadaires et mensuels de suivi de la campagne agricole pluviale, Niamey, 1991.

[2] FAO, IRSIS, Irrigation scheduling information system, Rome, 1987.

[3] C. Baron, Modèle de bilan hydrique et de croissance des plantes céréales : Mil Sorgho et Arachide, Cirad, 2002.

[4] M. Vargas, J. Crossa, F.v. Eeuwijk, K.D. Sayre, M.P. Reynolds, Interpreting treatment × environment interaction in agronomy trials, Agron. J. 93 (2001) 949-960.

[5] J.-B. Denis, P. Vincourt, Panorama des méthodes statistiques d'analyse des interactions génotype × milieu, Agronomie 2 (1982) 219-230.

[6] S.A. Eberhart, W.A. Russel, Stability parameters for comparing varieties, Crop Sci. 6 (1966) 36-40.

[7] M. Tenenhaus, La Régression PLS : théorie et pratique, Technip, Paris, 1998.

[8] B. Efron, Bootstrap methods: another look at the jackknife, Ann. Stat. 7 (1979) 1-26.

[9] S. Aji, S. Tavolaro, F. Lantz, A. Faraj, Apport du bootstrap à la régression PLS : application à la prédiction de la qualité des gazoles, Oil Gas Sci. Technol.-Rev. IFP 58 (2003) 599-608.

[10] D. Wallach, B. Goffinet, Mean squared error of prediction in models for studying ecological and agronomic systems, Biometrics 43 (1987) 561-573.

[11] J. Colson, D. Wallach, A. Bouniols, J. Denis, J. Jones, Mean squared error of yield prediction by SOYGRO, Agron. J. 87 (1995) 397-407.

[12] R Development Core Team, R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, ISBN 3-900051-07-0, 2004, URL http://www.R-project.org.

[13] J.-F. Durand, Calcul matriciel et analyse factorielle des données, université Montpellier-2, Montpellier, France, 2002.






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Et il n'est rien de plus beau que l'instant qui précède le voyage, l'instant ou l'horizon de demain vient nous rendre visite et nous dire ses promesses"   Milan Kundera