WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Méthodes géostatistique pour l'interpolation et la modélisation en 2d/3d des données spatiales

( Télécharger le fichier original )
par Wilfried DESPAGNE
Université de Bretagne Sud - Master en Statistique et Informatique 2006
  

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Estimation

Modélisation 3D

Données récoltées

Coupe horizontale

Corrélation

Variogramme

 

Université de Bretagne Sud

Institut Universitaire Professionnalisé Informatique et Statistique

Rue Yves Mainguy

56000 Vannes

Rapport de stage

« Méthodes géostatistique pour

l'interpolation et la modélisation en 2D/3D

des données spatiales. »

Par Wilfried DESPAGNE
Master 2 / 2005-2006

Date de soutenance : Juin 2006

Remerciements

C'est un plaisir pour moi de remercier l'ensemble des chercheurs du groupe LEMEL et plus particulièrement Evelyne GOUBERT, David MENIER et Valérie MONBET. Ces derniers m'ont accordé beaucoup de leur temps, m'ont fait bénéficier de leur savoir et de leur expérience tout au long de ce travail. Ils ont été d'une aide précieuse pour comprendre la problématique, la cerner et y répondre.

Résumé

Les travaux de recherche présentés dans ce rapport ont été effectués au sein du laboratoire LEMEL (Laboratoire d'Etude et Modélisation des Environnements Littoraux). Il parcourt différentes techniques d'interpolations spatiales. A partir d'un échantillon de données sédimentologiques, géophysiques, et bathymétriques, il s'agit de réaliser des cartes 2D/3D indiquant la profondeur au toit du socle rocheux à l'est de l'île aux Moines dans le Golfe du Morbihan. Les méthodes d'interpolations sont également utilisées pour localiser des zones à forte présence en crépidules au nord ouest de l'île de Bailleron. Ces deux applications concrètes permettent d'opposer les méthodes déterministes aux méthodes géostatistiques. Les fondements mathématiques des techniques d'interpolations spatiales sont analysés. Des préconisations générales sont données, sur l'usage des modèles d'interpolation pour la cartographie.

Mots-clés : coordonnées géographiques, interpolation, extrapolation, lissage, estimation, sectorisation, variable régionalisé, géostatistique, variogramme, krigeage, validation croisée, toit de substratum.

Summary

The research tasks presented in this memory were carried out within laboratory LEMEL (Laboratory for Study and Modelling of the Littoral Environments). It goes through various techniques of spatial interpolations. From a sample of `sedimentologics', geophysics, and bathymetric data, it involves of realizing 2D / 3D maps modelling the depth to the roof of the rocky in the Morbihan's bay. The methods of interpolations are also used to localize zones with strong presence of `crépidules' in the western North of Bailleron's island. These two concrete applications will oppose the determinist methods against the géostatistics methods. The mathematical bases as well as their demonstrations are examined. General recommendations are giving, on the usage of the models of interpolation for the mapping.

Keywords: geographic coordinated, interpolation, extrapolation, smoothing, estimation, division into sectors, regionalized variable, geostatistic, variogram, model fitting, kriging, model validation, roof of substratum.

REMERCIEMENTS 2

RÉSUMÉ 3

INTRODUCTION : PRÉSENTATION DE L'ÉTUDE 6

CHAPITRE I : DIFFÉRENTS OUTILS DE CARTOGRAPHIE 8

1/ INTERPOLATION SPATIALE 8

1.1/ Forme générale de l'interpolation linéaire 8

1.1.1/ Méthodes d'interpolation par partitionnement de l'espace 8

1.1.1.1/ Polygones de Thiessen 8

1.1.1.2/ Triangulation 9

1.1.2 / Méthodes d'interpolation barycentriques 11

1.1.2.1/ Plus proches voisins 11

1.1.2.2/ Méthode de l'inverse des distances 11

1.1.3/ Résumé 12

1.2/ Modèles d'estimation géostatistique 12

CHAPITRE II : MÉTHODES DE LA GÉOSTATISTIQUE LINÉAIRE 14

1/ NOTATIONS ET DÉFINITIONS 14

1.1/ Notion de variable régionalisée et notion de champ 14

1.2/ Notations 14

2/ HYPOTHÈSES DE BASE 15

3/ VARIOGRAMME 17

3.1/ Variogramme théorique et variogramme expérimental 17

3.2/ Propriétés du variogramme 18

3.3/ Modélisation du variogramme 19

3.4/ Isotropie et anisotropie 20

3.5/ Cas multivarié : calcul des variogrammes croisés 20

4/ KRIGEAGE 21

4.1/ Hypothèses et contraintes 21

4.2/ Estimateur de krigeage 23

4.3/ Cas multivariable : Cokrigeage 23

4.4/ Conclusion 24

CHAPITRE III : RECUEIL ET ANALYSE PRÉALABLE DE L'INFORMATION 25

1/ LOCALISATION DE LA ZONE D'ÉTUDE 25

2/ SOURCE DES DONNÉES 25

2.1/ Informations provenant des campagnes sismiques 26

2.1.1/ Recueil des données sismiques 26

2.1.2/ Plan d'échantillonnage 27

2.2/ Bathymétrie : Information auxiliaire 28

3/ ETUDE EXPLORATOIRE DE L'ÉCHANTILLON DE LA VARIABLE D'INTÉRÊT 29

3.1/ Histogrammes et statistiques descriptives 29

3.2/ Comportements directionnels : Etude de stationnarité 30

3.3/ Nuage de corrélation différée ou « h-scatter plots » 31

3.4/ Description bivariée 32

4/ TRANSFORMATION DES COORDONNÉES 33

5/ CONCLUSION 34

CHAPITRE IV : ANALYSE VARIOGRAPHIQUE 35

1/ VARIOGRAMMES EXPÉRIMENTAUX 35

1.1/ Variogramme omnidirectionnel 35

1.2/ Variogrammes directionnels 36

1.3/ Anisotropie 37

1.4/ Comportement à l'origine du variogramme 39

1.5/ Variogrammes croisés 39

2/ AJUSTEMENT À UN MODÈLE 40

2.1/ Cas monovariable 40

2.2/ Validation croisée 42

3/ CONCLUSION 44

CHAPITRE V : ESTIMATION PAR KRIGEAGE 45

1/ CHOIX DE LA GRILLE ET DU VOISINAGE DE KRIGEAGE 45

2/ RÉSULTATS OBTENUS PAR KRIGEAGE ORDINAIRE 45

3/ RÉSULTATS OBTENUS PAR COKRIGEAGE ORDINAIRE 46

3.1/ Ajustement du variogramme croisé 47

3.2/ Validation Croisée 47

3.3/ Résultat du cokrigeage 49

4/ COMPARAISON GRAPHIQUE AVEC D'AUTRES MÉTHODES D'INTERPOLATION 51

1/ EPAISSEUR DE SÉDIMENT 52

2/ COURANTS MARINS 52

CHAPITRE VII : LOCALISATION DES COLONIES DE CRÉPIDULES 54

1/ PROBLÉMATIQUE 54

2/ ZONE D'ÉTUDE 54

3/ STATISTIQUES SPATIALES DESCRIPTIVES 55

3.1 Position et dispersion 55

3.2 Sectorisation 56

3.3 Méthode des quadrats 56

3.4 Analyse spatiale exploratoire basée sur les distances 58

3.4.1 Méthode du voisin le plus proche 58

3.4.2 Fonction de Ripley modifiée (L de Besag) 59

3.5 Conclusion de l'analyse spatiale descriptive 61

4 / MÉTHODE D'INTERPOLATION PAR PARTITIONNEMENT DE L'ESPACE 61

4.1 Polygones de Thiessen 61

4.2 Interpolation par la méthode des plus proches voisins 61

5.3 Interpolation suivant le nombre d'individus comptés 62

5.4 Conclusion 65

BIBLIOGRAPHIE 67

Introduction : présentation de l'étude

Les travaux de recherche présentés dans ce mémoire ont été effectués au sein du laboratoire LEMEL (Laboratoire d'Etude et Modélisation des Environnements Littoraux). Il est rattaché à la « Faculté de Science et Science de l'Ingénieur » de l'Université de Bretagne Sud. C'est un groupe pluridisciplinaire (géologues, biologistes, mathématiciens, statisticiens...) qui s'attache à modéliser les écosystèmes à l'interface terre/mer. Il passe pour cela par l'intermédiaire de SIG (Système d'Information Géographique) afin d'acquérir, de consulter et de gérer l'information géographique.

Ce mémoire de stage présente l'élaboration d'une carte de la profondeur au toit du socle rocheux à l'ouest de l'île aux Moines et une carte localisant les crépidules au nord ouest de l'île de Bailleron (golfe du Morbihan). Une image 3D au du toit du substratum fournit un outil pour comprendre comment se répartissent les corps sédimentaires dans l'espace. Localiser les zones à présence de crédidules permet de lutter contre cet envahisseur. La connaissance, des profondeurs au toit du substratum* ou la quantité de crépidules**, en tout point d'une zone, nécessite :

- d'une part, de nombreuses données de mesure géophysiques, bathymétriques

et sédimentologique que l'on rapporte à des coordonnées géographiques précises (latitude / longitude)

- d'autre part, un outil d'interpolation permettant de calculer, à partir des

données de mesure, les profondeurs en tout point de la zone : il s'agit alors d'une estimation mathématique de cette profondeur.

Il existe de nombreuses techniques d'interpolation définies comme :

- des méthodes d'interpolation déterministes

- des approches statistiques ou géostatistiques (stochastique)

Elles ont toutes leurs avantages et inconvénients. Mais dans tous les cas, le principe reste le même : une valeur est estimée pour des sites non échantillonnés, sur la base d'observations existantes.

Le premier chapitre du rapport recense différentes approches déterministes pour interpoler un ensemble de données. Une description très générale en est fournit.

Le deuxième chapitre, propose une analyse des techniques géostatistiques et des conditions de leur mise en oeuvre. Les fondements mathématiques ainsi que leurs démonstrations sont examinées. Le krigeage et l'analyse variographique, une étape préalable du krigeage, sont analysés et commentés. Elles s'appuient sur une synthèse bibliographique.

Les chapitres III à VI présentent une application des méthodes géostatistiques pour aboutir un modèle numérique de terrain au toit du substratum. Ils fournissent également des conseils sur la nature de l'information qu'il est nécessaire de recueillir pour utiliser efficacement ces méthodes. Ils préconisent une démarche à suivre pour interpréter les résultats. Ils mettent en évidence les avantages et les limites des méthodes géostatistiques.

Le dernier chapitre dévoilera une application des méthodes d'analyse spatiale concernant
uniquement la position géographique des objets, et des méthodes non stochastiques présentées

* Substratum : base (souvent un socle rocheux ou cristallin) sur laquelle repose les sédiments. ** Crépidule : mollusque gastéropode

en première partie. Elles ont pour objectif d'identifier des zones géographiques occupées par les crépidules.

Chapitre I : Différents outils de cartographie 1/ Interpolation spatiale

L'interpolation spatiale est une procédure qui consiste à estimer la valeur d'un attribut pour des sites non échantillonnés. Dans le contexte de ce stage, nous utilisons l'interpolation spatiale pour mettre en oeuvre des algorithmes mathématiques ou probabilistes afin d'estimer la profondeur de la roche entre les points d'échantillonnages.

Il existe de nombreuses méthodes d'interpolation parmi lesquels il faut faire un choix. Nous distinguerons deux familles :

- les méthodes d'interpolation classiques basées sur des algorithmes purement déterministes.

- Les méthodes d'estimation géostatistiques qui s'appuient sur une modélisation probabiliste du phénomène étudié.

Les méthodes s'appliquent à des variables régionalisées, c'est-à-dire des fonctions numériques qui prennent leurs valeurs dans des régions délimitées de l'espace appelées champ. Dans notre cas, la variable régionalisée est la profondeur au toit du substratum. Le champ est la zone d'étude décrite dans le chapitre III.

1.1/ Forme générale de l'interpolation linéaire

Pour estimer la valeur ponctuelle en un site, nous utilisons des combinaisons linéaires pondérées. La distance entre les lieux d'observations a une influence sur ce que l'on observe. Autrement dit, les valeurs dans deux localités voisines sont souvent plus semblables que dans deux localités éloignées. Les poids doivent donc tenir compte non seulement de la disposition des observations les unes par rapport aux autres, mais aussi de la distance entre le site à estimer et les sites observés.

1.1.1/ Méthodes d'interpolation par partitionnement de l'espace 1.1.1.1/ Polygones de Thiessen

La méthode consiste à partitionner l'espace géographique en polygones, puis à attribuer une valeur à chacun des polygones. Elle permet de déterminer un zonage où la valeur de la variable à prédire est à priori la même que celle du site d'observation*.

Supposons que l'on désire estimer la valeur en un point S0 du champ (cf. figure 1.1). Ce point appartient nécessairement à l'un des polygones d'influence des sites d'observations.

Un polygone d'influence pour l'observation C s'obtient en traçant les médiatrices des segments joignant C aux sites voisins.

* site d'observation : donnée source connue et localisée

On attribue à S0 et à tout point appartenant au même polygone, la valeur du site ayant ce polygone d'influence. Sur la figure 1.1, la valeur estimée au point S0 sera identique à celle du site C.

Médiatrice

Angle droit

C

S0

A

B

Figure 1.1

La méthode de Thiessen peut s'améliorer tout en gardant le même principe. L'idée de Sibson est de construire un polygone de Thiessen autour du site à estimer. Dans un deuxième temps calculer les surfaces d'intersection (P(S0,i)) entre le polygone précèdent et ceux des sites voisins. Enfin, Sibson propose une estimation de S0 à l'aide d'une combinaison linéaire des valeurs des sites voisins (Z(S0)) pondéré par les surfaces P(S0,i).

Notons, n : nombre d'observation

P(S0) : surface du polygone de Thiessen en S0

P(S0,i) : surface de l'intersection du polygone de l'observation i et celle de S0

Alors,

à

S 0

Z ( )

n

?=

i

1

P S i

( , )

0 Z P ()

S 0

()

S 0

La méthode de Sibson a les propriétés suivantes : - l'estimation en S0 est unique

à

- l'estimation est exacte : ? i = 1 ... n Z( S i ) = Z(S i ) .

1.1.1.2/ Triangulation

La méthode d'interpolation par triangulation consiste à diviser le champ en triangles disjoints, dont les sommets sont les sites échantillonnés, puis à interpoler à l'intérieur de chaque triangle.

La construction des triangles n'est pas unique, différentes approches sont donc proposées.

Triangulation de Delaunay

On peut à partir du diagramme de Thiessen, en construire le dual. C'est à dire construire un nouveau diagramme où cette fois, on relie par un segment toutes les paires de sites dont les régions de Thiessen correspondantes sont adjacentes (les points séparés par une arête de Thiessen).

 

Polygone de Thiessen

Polygone de Delaunay

Figure 1.2

On observe que la triangulation de Delaunay opère seulement dans l'enveloppe convexe des sites d'observations et ne recouvre donc pas entièrement le champ.

Interpolation linéaire

Supposons que le point S à estimer se trouve à l'intérieur du triangle formé par les sites S1,S2, S3 (figure 1.3). L'estimation de la valeur de la variable régionalisée au point S par interpolation linéaire s'écrit :

+

+

S S S

123

à

Z S

( )

S SS

1 2

Z S

( )

3

SSS

1 3

Z S

( )

2

S SS

2 3

Z S

( )

1

où |.| désigne la surface et Z(.) la valeur prise en (.).

|S2SS3|

|S1SS2|

S

|S1SS3|

S3

S1

S2

Figure 1.3

L'interpolation linéaire a les propriétés suivantes : - l'estimation en S0 est unique

à

- l'estimation est exacte : ? i = 1 ... n Z( S i ) = Z(S i )

- la triangulation ne permet pas d'extrapoler les valeurs au-delà de l'enveloppe convexe des sites d'observation.

1.1.2 / Méthodes d'interpolation barycentriques

Les méthodes d'interpolations précédentes ne considèrent, pour estimer la valeur d'un site S0, que les sites d'observation immédiatement voisins. Elles ignorent par conséquent une grande partie de l'information disponible. Les méthodes barycentriques permettent de prendre en compte un nombre plus important de données.

1.1.2.1/ Plus proches voisins

Le plan sur lequel se situe le point à interpoler est découpé en octants. La méthode de calcul consiste en une interpolation sur les huit points de référence les plus proches du point à interpoler, répartis dans les octants. L'importance d'un point de référence est d'autant plus grande dans le résultat du calcul que sa distance au point à interpoler est faible.

P8(v8)

P1(v1)

P2(v2)

Pi(vi)

P3(v3)

P7(v7)

8

)

d Pi Pm

( ,

? ?

vk

1

8

=

k

1

m

m k

?

=

vi

8

8

)

d Pi Pm

( ,

? ?

1

=

k

1m

m k

?

P6(v6)

P5(v5)

P4(v4)

L'algorithme est efficace lorsque l'on dispose de beaucoup de points bien répartis dans la fenêtre de calcul.

On peut imaginer découper l'espace en plus ou moins huit parties et prendre plus qu'un point observé par partie. C'est en cela que l'on se rapproche de la méthode qui suit.

1.1.2.2/ Méthode de l'inverse des distances

La première étape est d'effectuer une recherche des sites qui vont intervenir dans l'estimation. On peut par exemple se fixer un rayon de recherche dont le centre est la localisation de la valeur à estimer. On ne retiendra que les sites Si appartenant au cercle.

Dans un deuxième temps on attribue à chaque site Si retenu un poids inversement proportionnel à la distance entre ce site et le point à estimer S0. Considérons que l'on a retenu n0 données dans le cercle alors on obtient comme estimateur :

n 0

?

i

( ) n

=

1

Z S

( )

i

S S

-

i 0

à

Z S

0 0 1

S S

-

i 0

?

i = 1

où |.| désigne la distance.

Les deux méthodes précédentes ont l'inconvénient de prendre en compte uniquement la distance qui sépare les sites entre eux. Cela donne un poids important au groupement de données, alors qu'il n'est pas nécessairement justifié.

1.1.3/ Résumé

Les méthodes ci-dessus ont la caractéristique de traiter uniquement les données de la variable étudiée. Toutes définissent la valeur recherchée en un point comme une combinaison linéaire pondérée des mesures disponibles.

Ce sont des méthodes implémentées dans la plus part des logiciels de Système d'Information Géographique (SIG).

Ces techniques présentent néanmoins des défauts. Elles ignorent la structure spatiale de la variable et produisent du coup des surfaces interpolées très lisses. Des situations locales très spécifiques peuvent alors être omises (zones de fortes ou de très faibles valeurs). Nous prenons le risque d'aboutir à des cartes peu réalistes. Enfin, aucun critère statistique pour juger de la précision de ces cartes n'est formulé.

Si l'on veut optimiser la précision des estimations, il faudra utiliser d'autres outils qui feront appel à des modèles probabilistes. La géostatistique et le krigeage en font partie. Nous allons les étudier dans la suite.

1.2/ Modèles d'estimation géostatistique

Le mot géostatistique est un néologisme forgé à l'École des Mines. La géostatistique est née des problèmes rencontrés dans le secteur de la mine : contrôle des teneurs, optimisation de maille, cartographie des ressources, prévision des réserves récupérables, étude de scénarios d'exploitation...

Daniel Kriege, géologue dans les mines d'or, proposa dans les années 60 une méthode statistique pour estimer la teneur d'un bloc de minerai à partir d'échantillons pris autour du bloc à exploiter. Dix ans plus tard, Georges Matheron développa un outil pour analyser la continuité spatiale des teneurs appelé le « variogramme » et une méthode d'estimation basée sur le « variogramme » appelée le « krigeage ». Nous étudierons ces deux méthodes.

Aujourd'hui, la géostatistique s'exprime dans des champs d'applications comme l'océanographie, la météorologie, le génie civil, l'environnement, la géologie, la qualité de l'air et des sols, la santé, etc.

Techniquement, la géostatistique utilise également une combinaison linéaire des données
observées, mais à la différence des méthodes classiques d'interpolation, elle tient compte à la
fois de l'information relative à leur position et du caractère aléatoire du phénomène étudié. De

plus, elle permet d'intégrer des informations auxiliaires dans l'estimation. Ces avantages font considérablement améliorer les estimations dans le contexte spatial.

La mise en oeuvre de la méthode de krigeage passe par une étape d'analyse des données. Elle est destinée à décrire la structure spatiale de la variable régionalisée. La carte de l'interpolation est alors accompagnée d'indicateurs de fiabilité des résultats.

Chapitre II : Méthodes de la géostatistique linéaire

La géostatistique se réfère aux méthodes d'analyse probabiliste pour étudier des phénomènes corrélés dans l'espace appelés phénomènes régionalisés. A ce titre elle fournit différents outils pour répondre au problème posé par la cartographie du socle rocheux dans le golfe du Morbihan.

1/ Notations et définitions

1.1/ Notion de variable régionalisée et notion de champ

Une variable régionalisée quantifie des grandeurs mesurées sur l'espace géographique. L'espace dans lequel cette variable prend ses valeurs est appelé champ.

Exemple de variable régionalisée : la profondeur du substratum sous le niveau zéro de la mer, mesurée par des campagnes sismiques dans une zone géographique située à l'est de l'île aux Moines, dans le golfe du Morbihan.

Exemple de champ : la zone géographique située entre la côte et l'est de l'île aux Moines. Nous pourrons estimer les valeurs prises par la variable régionalisée dans cette zone.

1.2/ Notations

Z : la variable régionalisée

D : le champ (domaine sur lequel la variable régionalisée est définie) s ? D : une position dans le champ

Z(s) : une valeur prise par la variable régionalisée au point s

Z à ( s ) : une estimation de Z(s)

h : la distance qui sépare deux points

Z(s2)

Z(s3)

Z(s1)

Niveau Zéro

Profondeur à estimer

Bathymétrie

Sédiments

Roche

14

Prenons un exemple dans le golfe du Morbihan

si est un l'emplacement géographique.

Tous les si ont une profondeur de roche : Z(si).

Chaque profondeur de roche est une variable aléatoire. Ensemble elles forment une fonction aléatoire de s.

La mesure faite au point si est une réalisation particulière de la fonction aléatoire Z(si).

Définissons à présent les hypothèses indispensables pour utiliser les techniques de la géostatistique linéaire.

2/ Hypothèses de base

Une fonction aléatoire {Z(s), s ? D} est caractérisé par sa loi spatiale F. Elle correspond à la loi de probabilité conjointe de (Z(s1), Z(s2), Z(s3), ..., Z(sn)).

F v v v P Z s v Z s v Z s v

( , ,..., ) ( ( ) ), ( ( ) ),..., ( ( ) )}

= { < < <

1 2 n 1 1 2 2 n n

Or cette fonction est très complexe par l'infinité des combinaisons possibles. Nous n'allons donc pas pouvoir estimer la fonction de distribution conjointe. La géostatistique linéaire se limite à la fonction de distribution d'ordre un F(v) et d'ordre deux FZ(si),Z(sj)(vi,vj) .

FZ (s ) ( v) = P{ Z (s ) = v}

F i

( ) , ( ) ( , ) { ( ( ) ) , ( ( ) )}

=

Z s Z s i j

v v P Z s v Z s v

= =

i i j j

j

i ? j i=1,...,n et j=1,...,n

La première nous permet de calculer l'espérance de la fonction aléatoire Z en un point s.

E ( Z ( s )) = v
· fZ(s ) (v)dv

avec ( ) ' ( )

f Z ( s ) v = F Z ( s ) v

La fonction de distribution d'ordre deux, fourni la loi de probabilité entre les valeurs prises en deux sites si et sj. On utilise la covariance pour quantifier le degré de ressemblance entre les valeurs prises en si et sj et le variogramme pour mesurer la dissemblance entre les valeurs prises aux sites si et sj.

cov( s i ,s ) = E(Z ( s i ) Z ( s j )) - E(Z ( s i )) E ( Z (s j ))

ã( s i , s j ) = Var Z s i Z s j

1 [ ( ), ( )] , (variogramme*)

2

Le problème qui se pose est que la variable régionalisée est observée qu'une seule fois à un endroit précis. En d'autres termes, nous n'avons qu'une seule réalisation de la variable aléatoire. Or pour estimer les moments d'ordre un et deux il nous faudrait un grand nombre (>30) d'observations. Ce problème ne concerne pas la quantité d'information disponible mais le fait que l'on essaie de décrire un phénomène unique (profondeur au toit du socle rocheux), qui ne se répète pas, à l'aide de lois de probabilités.

Pour palier à ce problème nous posons comme hypothèse que la variable régionalisée est stationnaire. Concrètement cela veut dire que deux paires de points espacés d'un même vecteur h ont des caractéristiques (moyenne et covariance) semblables. Ou encore, la variable régionalisée ne dépend pas de sa position dans l'espace, elle garde les mêmes caractéristiques

* ã : cigle retenu pour désigner le variogramme

où que l'on se place. Cela nous permet de nous détacher de la localisation et de nous restreindre uniquement à la distance qui sépare les points d'observations.

La traduction mathématique est la suivante : Stationnarité du second ordre :

Une fonction aléatoire Z(s) est stationnaire du 2nd ordre quand l'espérance mathématique existe et ne dépend pas du point s ; et que la covariance entre chaque paire ( Z(s+h) , Z(s)) existe et ne dépend que de h (distance).

- L'espérance mathématique ne dépend pas de s : ? s , E(Z ( s )) = m constante indépendante de s

- La covariance entre Z(s) et Z(s+h) ne dépend que de h :

? s s h

, + , cov ( ( ) , ( ) ) ( )

Z s h Z s C h

+ = ne dépend que de h et non de s

C(h) est appelé fonction de covariogramme

- La variance existe en tout site s et est une constante indépendante du site s :

? s Var ( Z s ) ( Z s Z s ) C cons te

, ( ) cov ( ), ( ) (0)

= = = tan

- Le covariogramme et le variogramme sont liés :

? s s h Var Z s h Z s

, + , ( ( ) ( ) ) / 2 ( ) (0) ( )

+ - = ã h C C h

= -

Remarque : L'hypothèse de stationnarité d'ordre deux ne peut être validé de manière rigoureuse et infaillible à l'aide d'un test statistique sur les données expérimentales (Arnaud et Emery, 2000 p.107).

L'hypothèse intrinsèque :

On dit qu'une fonction aléatoire Z(s) est intrinsèque quand ses accroissements Z(s+h)-Z(s) sont stationnaires d'ordre 2. C'est-à-dire que

- L'espérance des écarts est zéro :

E ( Z ( s + h ) - Z(s )) = 0 ? s et h fixé

- La variance des écarts ne dépend que de h :

Var Z s h Z s E Z s h Z s

( ( ) ( )) [ ( ( ) ( ))2 ] 2 ( )

+ - = + - = ã h

Cette hypothèse permet de dire que la variabilité entre les valeurs prises en deux points différents ne dépend que de h (la distance entre ces points).

Toute fonction aléatoire stationnaire d'ordre deux est également intrinsèque (la réciproque est
fausse). Autrement dit, l'hypothèse de stationnarité intrinsèque est moins restrictive que la

stationnarité du second ordre. L'hypothèse intrinsèque ne requiert pas de connaître l'espérance ni sa covariance de la variable aléatoire.

La fonction la plus utilisée en géostatistique pour décrire la continuité spatiale est le variogramme. La continuité spatiale est réalisée lorsque les valeurs prises entre deux sites proches l'un de l'autre sont similaires.

3/ Variogramme

3.1/ Variogramme théorique et variogramme expérimental

D'après Marcotte (cours de «géostatistique minière »), la nature n'est pas entièrement imprévisible. Deux observations situées l'une près de l'autre devraient en moyenne se ressembler davantage que deux observations éloignées. La différence entre les valeurs prises par deux variables aléatoires est Z(s)-Z(s+h). C'est également une variable aléatoire dont on peut calculer la variance. Cette variance devrait être plus petite lorsque les points sont rapprochés (les valeurs se ressemblent plus en moyenne) et plus grande lorsque les points sont éloignés. On appelle variogramme la demi-variance de cette différence.

ã

( h ) = Var Z s + h - Z h

1 ( ( ) (

2

))

L'outil mesure la « variabilité spatiale », c'est-à-dire la dissemblance entre les valeurs en fonction de leurs séparations. Il décrit la continuité spatiale de la variable régionalisée.

Le variogramme théorique est défini comme :

1

1

+ - = [

h Var Z s h Z h E

ã ( )

= ( ( ) ( ))

2 2

( ( ) ( ))2 ] (0) ( )

Z s h Z s C C h

+ - = -

avec C (0) = Var(Z( s )) et C ( h ) = Cov(Z( s + h ),Z ( s ))

Démonstration :

h Var

1

( ) =

( Z s Z s h

( ) ( )

- + )

ã

2

1

2

E Z s Z s h

[ ( ( ) ( ) ) 2 ] [ ( ) ( ) ]2

1

- + - E Z s Z s h

- +

2

or dans le cas d'une variable aléatoire stationnaire, E[Z(s)-Z(s+h)]=0

1 E

2

[( Z s - Z s + h ( ) ( ) ) 2]

( )

h Var

=

( Z s Z s h

( ) ( )

- + )

1

ã

2

1 [ ( ) (

) ( )

( ) ]

Var Z s

- Z s Z s h Var Z s h

2

( ) 2 cov ( ), ( )

+ +

+

or si Z est stationnaire d'ordre deux alors Var(Z(s))=C(0)=constante

C (0) - C(h )

Remarque :

- Un variogramme peut se calculer non seulement pour une distance donnée mais

aussi pour direction è donnée : ãè (h)

- La covariance mesure la ressemblance entre les valeurs en fonction de leur éloignement alors que le variogramme mesure la dissemblance entre les valeurs en fonction de leur éloignement.

- Dans l'hypothèse de stationnarité d'ordre 2, covariance et variogramme existent et sont liés par la relation ã ( h ) = C(0) - C(h ) . Dans l'hypothèse intrinsèque, seul le variogramme existe. C'est pourquoi il est généralement préféré à la covariance pour décrire et interprété la structure spatiale du phénomène étudié.

- Le variogramme réel d'une fonction aléatoire est généralement inconnu, mais il peut être évalué à partir des données d'échantillonnages. On obtient ainsi le variogramme expérimental proposé par Matheron (1962).

1

2 ( ) N h

N h

( )

[ Z s i h Z s i

( ) ( )

+ - ]

2

?=

i 1

à

ã ( )

h

Effet pépite :C0

Palier :

C

C0+C

12

semi-variogramme

14

10

4

8

6

2

0

0 5 10 15 20

distance : h

Portées : a

N(h) est le nombre de paires dans la classe de distance h. Z(si) est la profondeur de la roche au point de mesure si.

3.2/ Propriétés du variogramme

Le variogramme est une fonction de h, croissante et souvent caractérisé par quatre paramètres :

- l'effet pépite : C0 - le palier : C+C0 - la portée : a

Remarque : plus la fonction croit, moins les observations se ressemblent.

L'effet de pépite : Le comportement à l'origine du variogramme reflète le degré de régularité spatiale de la variable régionalisée. Si le variogramme présente un saut abrupt à l'origine (effet de pépite), cela indique une absence partielle de corrélation entre les valeurs prises en deux sites très proches. C'est-à-dire qu'il y a une faible ressemblance entre les valeurs régionalisées très voisines.

Le palier : Valeur du variogramme pour la distance égale à la portée.

La portée : Distance où deux observations ne se ressemblent plus du tout. Leur covariance est nulle.

Remarques :

- Si le variogramme est borné alors la covariance existe et l'on peut présumer une stationnarité du second ordre (Journel et Huijbergts, 1993 p.37).

- Si la variable régionalisée est stationnaire du second ordre alors le palier est égal à la variance de cette même variable.

ã ( h ) = ó 2- C(h )

- Inversement, si un variogramme est non borné, il ne possède ni portée, ni palier. La variance de la fonction n'est pas définie et elle n'est donc pas stationnaire du second ordre.

- Arnaud et Emery (2000, p.126) affirment que le variogramme expérimental n'est pas fiable pour des distances supérieures à la moitié du diamètre du champ D. Elles sont peu nombreuses et augmentent la variance de la valeur ãà (.) estimée.

- Les variogrammes directionnels permettent de détecter une éventuelle anisotropie. (cf. § 3.4)

3.3/ Modélisation du variogramme

Le variogramme expérimental n'est pas défini partout, notamment aux distances h pour lesquelles il n'existe pas de paire de points de mesures. Ainsi lui est-il ajusté une fonction mathématique appelée modèle de variogramme. Marcotte recommande d'utiliser des modèles éprouvés ou des modèles construit à partir de modèles éprouvés.

Type de modèles courants

- Linéaire :

ã ( )

h

? ??
??

C

C + h pour a h

= = 0

0

a

C C pour h a

+ >

0

? 3 h 3

h ?

?? C C

+ ? -

? ?

0 a

? ?

3

h = 2 2 a

pour a h

= = 0

pour h a

>

- Sphérique : ã ( )

?? C C

+

0

- Gaussien : ã ( h ) = C0 + C ? 1- exp

?

? -3ah22 ?? ?

?

- Exponentiel : ã ( h ) = C0 + C? 1- exp

?

? - 3h ? ?

?? ?? ?

a ?

3.4/ Isotropie et anisotropie

Le variogramme ne dépend que de h, c'est-à-dire le vecteur de déplacement entre les points s et s+h. Ce vecteur contient de l'information sur la distance entre ces deux points, par l'intermédiaire de sa norme, ainsi que sur l'orientation de h. Si le variogramme ne dépend en fait que de la norme de h, il est dit isotrope. S'il dépend aussi de la direction (è) du vecteur de translation, il est dit anisotrope.

Rappelons que la norme euclidienne d'un vecteur h=(si,sj) est |h|= 2

s i+ s j .

2

Bien qu'il existe une très grande variété d'anisotropie, la plupart des ouvrages de géostatistique montrent uniquement comment modéliser les anisotropies géométriques.

Les caractéristiques de l'anisotropie géométrique sont :

- Les variogrammes des différentes directions ont le même palier et même effet pépite mais des portées différentes.

- Les portées maximales et minimales s'observent selon deux directions orthogonales.

Pour revenir à une situation isotrope, le principe consiste à effectuer une transformation linéaire des coordonnées spatiales c'est-à-dire une rotation en suivant les directions de plus petite et plus grande continuité (application chap. IV § 1.3).

3.5/ Cas multivarié : calcul des variogrammes croisés

Nous avons vu qu'un des avantages des méthodes géostatistique (chap. I § 1.2) était de pouvoir inclure dans le modèle d'interpolation des variables auxiliaires qui apportent de l'information sur la variable cible. Pour décrire la structure de dépendance entre la variable cible et les covariables il convient de calculer le variogramme croisé.

Soit Zp la variable principale et Zq la variable secondaire, alors

à

ã

( h) 1

2N( h)

N(h )

?= [

i 1

Z p (s i ) - Z p ( s +h) ][ Z q (s i ) - Zq ( s +h)] i

L'analyse du variogramme croisé se fait de la même façon que celle du variogramme simple. C'est-à-dire que l'on relève ses propriétés (effet de pépite, palier, porté, amplitude) et on y ajuste une fonction.

4/ Krigeage

Cette section expose l'une des techniques de géostatistique d'estimation locale, connue sous le nom de krigeage et cokrigeage ordinaire.

Nous cherchons à estimer la valeur d'une variable régionalisée z (profondeur au substratum) en un point s0 quelconque du champ à partir des mesures observées z(si), i=1,..,n (n : nombre de points observés). Le krigeage est un interpolateur exact (la valeur estimée sur un point de mesure est égale à la valeur du point de mesure) et optimal (il minimise la variance sur l'erreur d'estimation).

Il existe trois types de krigeage : le krigeage simple, le krigeage ordinaire et le krigeage universel. Le krigeage ordinaire est le plus fréquemment utilisé en pratique car les hypothèses de départ sont moins contraignantes que celle du krigeage simple. Seul le krigeage ordinaire sera développé ici car il répond aux besoins de notre problématique.

4.1/ Hypothèses et contraintes

Le krigeage ordinaire ne requiert pas la connaissance de l'espérance de la variable régionalisée. Autrement dit, on se place dans l'hypothèse d'une stationnarité intrinsèque. Il n'en reste pas moins que la moyenne doit rester constante à l'échelle du voisinage de krigeage.

Définition du voisinage de krigeage : Domaine du champ qui contient le site à estimer et les données utilisées dans l'estimation.

Comme pour les méthodes barycentriques (chap. I § 1.1.3), le voisinage de krigeage se résume à un cercle ou à une ellipse autour du point à estimer.

Le modèle de base de cette méthode s'énonce comme suit :

Z ( s ) = ì (s) + ä (s)

avec s D (le champ), ì(s)=E(Z(s)) quasi-constante inconnue et ä(s) fonction aléatoire stationnaire intrinsèque d'espérance nulle (E(ä(s))=0) et de structure de dépendance connue (ã(|si-sj|) connu). Dans son mémoire (2005, p.31), S. Baillargeon explique que le caractère quasi-constant de ì(s) signifie que l'espérance n'est pas contrainte à demeurer la même partout dans le champ D. Elle doit par contre rester constante à l'intérieur de chaque voisinage de krigeage.

En outre, l'estimateur du krigeage ordinaire doit vérifier les propriétés suivantes :

à

La linéarité : Z ( s0 ) est une combinaison linéaire des données Z(si) i=1,..,n.

n n

1

Z s a

à ( 0 ) = + ? ù ( ) avec ?

i Z s i ù =

i

i =1 i=1

Le non-biais : Zà ( s0 ) est sans biais : E[ Z à ( s 0 ) - Z(s 0) ] = 0

Démonstration

à

E(Z ( s 0) -Z (s 0 ))

E(a + ? ùi Z(s i) -Z(s0))

i

E ( a + ? ùZ(s i)) -E(Z ( s 0))

i

or E( Z (s i ) ) = E( Z (s0)) ì (stationarité)

= a + ? ù iE(Z ( si))-ì i

= a+

?
??

?

i

ù

 
 

1

?
??

×

ì

x 1- a=ì =

n ? ù ?i ? i = 1 ?

Or ì étant inconnue, le seul moyen de garantir le non-biais de l'erreur est de poser :

n

a= 0 et ?ù= 1

i 1

Optimalité : c'est-à-dire que Var ( Zà ( s0 ) - Z(s 0)) est minimale.

Var Z(s 0 ) ) = (2( s 0 ) - Z(s0 )) 1 = E( 2( s0 ) 2) - 2E[ 2( s 0 ) Z ( s 0 )] + E( Z (s0) 2)

ì 2

2

n n n n n

E( Z ( s 0 ) 2) =E0),Z(si) ? E w iwiE(Z (si)Z (s j)) =? ? ùiùj cov(Z(s i ), Z ( s j))+

i=1 i= 1 i==

1 1

j

car dans le cas d'une variable aléatoire stationnaire, E(Z(si))=E(Z(sj))=ì, d'où E(Z(si))E(Z(sj))=ì2

2

E( Z (s 0 ) 2) = Var

(Z( s

+ ì

E[

n n n

2( s 0 ) Z ( s 0 ) ] = i Z(s i ) Z ( s0 ) -?1 = iE( Z (s )Z ( s 0 ) ) = i cov( Z(s i), Z ( s 0)) + ì2

i = 1i=1 i = 1

donc

Var ( 2( s 0 ) - Z(s 0 )) = Var( Z(s0 ) ) - ù i cov(Z(s i ), Z ( s 0 )) + ? ? ùiù j cov(Z(s ), Z ( s ))

n n n

i= 1 i= 1 j= 1

n

Le but est de trouver le vecteur ù qui minimise cette variance sous la contrainte ?=ù =

i 1 i 1

Pour y parvenir, on peut utiliser la méthode de Lagrange. La fonction de Lagrange :

n n n n ?

L = Var Z s

( ) ? (

( ) 2

- ) ? = ? = (

+ ù ù Z s Z s ) ?

? -

( , ,..., )

ë ù ù cov ( ), ( )

ù Z s Z s cov ( ) , ( ) + ë ù 1

1 n 0 i i 0 i j i j ?? i ??

i = 1 i 1 1

j i = 1

ë est le multiplicateur de Lagrange

Minimiser cette fonction revient à trouver la solution du système :

1

j

1

ù i

ë

0

+

n

Z s Z s

( ), ( ) ) + ? ù ( )

i j cov ( ) , ( )

Z s Z s

0 i j

n

?

1

i

=

n ) = - cov(

? L

(ë , ù1,...,ù

?

ùi

?

Ce système peut se réécrire à l'aide du variogramme ã(h)=C(0)-C(h)

n

-

-

-

ù

ë

(si

ã

)

)

(si

s0

jã

1

? i = 1, ... , n

1

ù i

?

=

i

?

j

sj

n

?

1

La variance minimum est atteinte au point :

n

ó 2 (ok 0 ) = ?ùiã ( si - s0)- ë

i= 1

Cette fonction est appelée variance de krigeage. C'est la valeur minimale de la variance de l'erreur de prévision.

4.2/ Estimateur de krigeage

Le krigeage est un interpolateur linéaire sans biais. Il prend en compte la géométrie des données, les caractéristiques de la régionalisation et de la variance. Son but est de lisser les données.

Ayant calculé les poids ùi par la résolution du système précédent, nous pouvons écrire l'estimateur de la manière suivante :

n

à

1

?=

i

Z1 ( s0 ) = ù i Z(s i)

4.3/ Cas multivariable : Cokrigeage

Il est possible d'améliorer les estimations obtenues par krigeage en ajoutant à la variable à estimer, l'information fournie par d'autres variables (variables secondaires). La démarche à suivre est la suivante.

Pour estimer la variable Z1 au point s0, on utilise une combinaison linéaire pondérée des mesures concernant toutes les autres variables (Z2, ..., Zp).

p n i

Z( s0 ) = ? ? ù j i i j i

Z s

( , )

,

i= 1 j=1

Les poids ùj,i sont solution du système :

j i

,

ù

?

?
?
?

?

?

?

? ?

?

i = =

1 j

?

j

j

p

ni

n1

1

1

ù

ni

1

j

ù ã - - = - =

j i i q i q j q

s s

( ) ë ã

q q i q

( s s q p

) 1 . . .

, , , , , 0

,

1

=

0 i=2...

1

p

Les ëq sont des multiplicateurs de Lagrange.

Remarques :

- La variance d'estimation (ou de krigeage) obtenue par cokrigeage est toujours inférieure à celle obtenue par krigeage.

- En pratique, on observe que le gain est moindre lorsque les variables sont peu corrélées entre elles (Arnaud et Emery, 2000, p.195).

- L'estimation ponctuelle par (co)krigeage en un site d'observation est égale à la

valeur mesurée. D'autre part, la variance d'estimation associée est nulle.

4.4/ Conclusion

La méthode de krigeage est précédée par l'estimation d'une fonction variographique. C'est cette fonction qui va tenir compte à la fois de la géométrie des données, des caractéristiques de la régionalisation et de la précision de l'estimation. Il est donc important de souligner que la qualité de l'estimation et l'appréciation de sa précision reposent uniquement sur le modèle variographique utilisé. Il doit par conséquent, être le plus cohérent possible avec ce qui a été observé.

Après avoir décrit les fondements mathématiques des méthodes d'interpolation spatiale, nous nous efforçons, dans les chapitres suivants, à les appliquer sur des cas concrets.

Chapitre III : Recueil et analyse préalable de l'information

Les données observées constituent la matière première des méthodes d'interpolation. En géostatistique elles ont la particularité d'être géo-référencées. L'objet de ce chapitre et de présenter la zone du golfe du Morbihan retenue pour appliquer les méthodes d'interpolation géostatistique, puis de présenter les données utilisées pour aboutir à une cartographie du socle cristallin.

1/ Localisation de la zone d'étude

Le Golfe du Morbihan :

Une petite mer intérieure d'une superficie de 11 500 ha.

Zone d'étude

Locmariaquer

figure 3.1 : source IFEN

Arradon

Baden

Arzon

pointe

Île

Île aux Moines

Île d'Arz

Vannes

La zone d'étude se localise entre l'île aux Moines et Baden dans le golfe du morbihan. Le passage étroit entre la pointe de l'île aux Moines et le continent provoque des courants importants (figure 6.2). Ils sont à l'origine de formations sédimentaires hétérogènes. La charge de sédiments et la force du courant génèrent de l'érosion et modèlent le fond marin. Les courants assurent la mise en mouvement des particules sédimentaires, ce qui entraînent l'érosion et l'entretient des chenaux. La proximité de la zone d'étude à l'atlantique fait que les conditions hydrodynamiques y sont importantes par rapport aux secteurs à l'est de l'île aux Moines. Elles expliquent les profondeurs bathymétriques de l'ordre de 10 à 15 mètres et des fonds marins rocheux ou sableux.

2/Source des données

Le golfe du Morbihan a fait l'objet de campagnes bathymétriques et sismiques. L'évaluation de la profondeur de la roche dans le milieu marin, s'appuie sur ces relevés. Une partie du travail consiste à relever l'information apportée par les données sismiques (support papier), et de l'intégrer dans un Système d'Information Géographique. Les données bathymétriques sont quant à elles ajoutées à la base d'information. Le tout constitue un échantillon de travail.

2.1/ Informations provenant des campagnes sismiques

2.1.1/ Recueil des données sismiques

La sismique est une technique de mesure qui consiste à enregistrer en surface des échos issus de la propagation dans le sous-sol d'une onde sismique (figure 3.2). Ainsi les hétérogénéités du sous-sol sont relevées. Le passage par exemple d'une couche rocheuse à une couche sédimentaire va se traduire par la présence d'un réflecteur sur les enregistrements (figure 3.3).

Figure 3.2 (Ifremer)

Le temps d'arrivée de l'écho permet d'enregistrer la profondeur des obstacles rencontrés par l'onde. En résumé, les études sismiques fournissent une image (profil) de la structure du soussol. On peut y reconnaître la superposition de certaines couches de roche et/ou de sédiment (figure 3.3).

La profondeur du fond marin et du substratum est relevée (au décimètre) tous les 70 mètres (figure 3.4). Le profil fourni les profondeurs en « seconde temps double ». C'est-à-dire le temps que l'onde envoyée par l'appareil met pour revenir à ce dernier. Cette unité peut être convertie en mètre. La vitesse de propagation de l'onde est de 1500 m/s dans l'eau et de 1700 m/s dans les sédiments.

0 marin

Fond marin Profil sismique Toit du substratum

Réflecteur

1000 mètres

Gaz

Couche sédimentaire

Figure 3.3

Conversion du profil sismique en données numériques

0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400

 
 
 
 
 
 
 
 

0

-2

-4

-6

Profondeur

-8

-10

-12

-14

-16

-18

Z Eau Z Sed m

P tir Z_Roche_m

Figure 3.4

Remarque : les données récoltées peuvent manquer de précision. Les problèmes suivants sont rencontrés :

- Lors de la saisie sur papier avec un décimètre, une erreur de un à deux millimètres est courante (1mm saisi correspond à 18cm de profondeur réelle).

- La conversion de seconde en mètre amène à faire un choix sur les arrondis.

- Le niveau zéro autrement dit le niveau de la mer n'est pas connu pour les profils en notre possession. Il faudra admettre qu'il est approximativement égal au niveau de référence utilisé par le SHOM (Service Hydrographique et Océanographique de la Marine).

2.1.2/ Plan d'échantillonnage

Une campagne sismique permet d'obtenir des informations sur la nature et la géométrie de la couverture sédimentaire. Pour rendre une collecte de données efficace, le rapport INERIS (2003, p.52) conseille de disposer les échantillons selon un maillage régulier. A nombre d'échantillons égal, la régularité de la maille facilite l'inférence de la structure spatiale et garantie une meilleure précision. Toujours d'après le même rapport, il est prouvé que la variance de l'erreur d'estimation d'un échantillonnage aléatoire stratifié est inférieure à celle d'un échantillonnage aléatoire uniforme. (On peut retrouver ces affirmations dans l'ouvrage de M. Arnaud et X. Emery, p113.)

En pratique, il n'est pas toujours possible de relever l'information suivant un maillage régulier comme le préconise la théorie. En effet, les nombreux bancs de sable du golfe ne permettent pas aux bateaux de naviguer partout.

Dans tous les cas, il est préconisé de resserrer la maille d'échantillonnage en quelques endroits, afin de faciliter la modélisation du variogramme aux petites distances. C'est pourquoi nous ajoutons aux données sismiques :

- des points de la base bathymétrique (chap. III § 2.2) mesurés sur des zones de roche (figure 3.5).

- des points d'experts, estimés visuellement par des personnes familiarisées avec le terrain (figure 3.5).

Profil_34 Profil_08

Profil_09

Profil_13

Profil_10

Profil_11 Profil_12

Port Blanc

Ile aux Moines

N

Figure 3.5

Le nombre de points a également son importance. Un nombre de points trop faible rend le variogramme « instable » et les résultats de l'estimation peu fiables. Selon Cressie (1993, p.237) 30 paires de points par classe de distance seraient nécessaires à la construction du variogramme. Dans le cas étudié nous disposons en moyenne de plus de 100 paires de points par classes de distances (cf. chap.IV, § 1).

2.2/ Bathymétrie : Information auxiliaire

Un modèle numérique de terrain (MNT) est une représentation de la topographie (altimétrie et/ou bathymétrie) d'une zone terrestre. En cartographie les altitudes sont habituellement représentées par des courbes de niveaux. Le MNT en notre possession (source SHOM) utilise un maillage régulier carré de 50 mètres. Il permet ainsi de reconstituer une vue en image de synthèse du terrain (figure 3.6, image LIDAR : LIght Detection And Ranging).

N

Figure 3.6

La morphobathymétrie reflète très souvent la morphologie au toit du socle cristallin (D. Menier, géologue). En effet la corrélation linéaire entre la profondeur des fonds marins et celle au substratum est de 0,84. Le MNT peut donc fournir une information complémentaire lors de la mise en oeuvre du modèle de cokrigeage.

3/ Etude exploratoire de l'échantillon de la variable d'intérêt

La mise en oeuvre des techniques d'estimation géostatistique exige une analyse préalable des données expérimentales. L'étude exploratoire a pour but d'apprécier la distribution des données dans l'espace, d'appréhender leur degré d'homogénéité, de rechercher et de visualiser les observations atypiques ou tout simplement de se familiariser avec la variable.

Il est ici rappelé que la variable d'intérêt étudiée est la profondeur à laquelle nous atteignons la roche en milieu marin (le toit du socle cristallin ou substratum).

3.1/ Histogrammes et statistiques descriptives

L'étude de l'histogramme permet :

- d'apprécier la variabilité des données

- de détecter d'éventuelles valeurs aberrantes.

La droite d'Henry : si les probabilités sont alignées le long de la droite d'Henry, nous pouvons supposer que la variable suit une distribution gaussienne.

Le box plot est une autre façon d'appréhender la distribution de la variable. Il a l'avantage de mettre en valeur les quartiles. Les quartiles Q1, Q2 et Q3 sont les éléments essentiels de ce graphique. Le quartile Q2 (ou médiane) partage la série de données en deux groupes d'effectifs égaux. Le quartile Q1 partage le groupe dont les valeurs sont inférieures à la médiane, en deux groupes d'effectifs égaux. Q3 fait de même pour le groupe dont les valeurs sont supérieures à la médiane.

La distribution des profondeurs au toit du socle cristallin (rocheux) est représentée par les trois graphiques de gauche de la figure 3.8. Ils montrent que les valeurs sont comprises entre 2 mètres au-dessus et 25 mètres en dessous du niveau zéro (référence SHOM). L'étendue de 27 mètres peut nous paraître importante. Mais en y regardant de plus près, on s'aperçoit que la moyenne et la médiane sont toutes deux égale à -10 mètres. Il en résulte que 1/4 des valeurs sont comprises entre -5 et -10 mètres et qu'un autre quart entre -10 et -15 mètres. Sachant qu'il n'y a qu'un très petit nombre de valeurs supérieures à zéro ou inférieures à -20 mètres, on peut parler d'une distribution équitablement répartie sur son étendue (25% des valeurs sur 5 mètres d'étendue).

La droite d'Henry et un test de normalité (Kolmogorov-Smirnov) montrent que la distribution des profondeurs au toit du substratum ne suit pas une loi Gaussienne. Par contre le coefficient d'asymétrie (cf. tableau du bas) et l'histogramme permettent de penser qu'elle s'en approche.

Si la propriété de normalité a l'avantage de définir complètement la distribution par sa
moyenne et son écart type, elle n'est pas une condition obligatoire en géostatistique linéaire.
Celle-ci ne fait aucune hypothèse particulière sur la distribution des valeurs. Toutefois d'après

C. Cressie (Statistics for Spatial Data, 1993 p.110), le krigeage a tendance à fournir de meilleures prévisions lorsque les données suivent une loi normale.

Q3

Q2

Q1

Valeurs extrêmes

Profondeur au toit du socle cristallin

Valeurs du MNT

Figure 3.8

A titre d'exemple, l'histogramme des valeurs du MNT n'est pas symétrique. D'un côté, 75% des profondeurs se regroupent entre +2 mètres et -8 mètres (10 m d'amplitude) et de l'autre coté, 25% des valeurs s'étendent entre -8 mètres et -22 mètres (14 m d'amplitude). Certaines valeurs extrêmes apparaissent autour des -20 mètres de profondeur. Alors pour estimer le MNT, Cressie recommande soit une transformation des données par une fonction mathématique pour rendre la distribution gaussienne, soit discrétiser en zones géographiques afin que les profondeurs dans chaque zone soient proches les une des autres. Chaque zone géographique est alors traitée individuellement.

Principales statistiques relatives aux deux variables

 

Variable d'intérêt

Variable Secondaire

Minimum

-25,3

-21,8

Maximum

2,1

2,3

Moyenne

-9,9

-5,1

Médiane

-9,9

-4

Ecart-type

6,1

5,2

Variance

36,8

27,7

Coefficient d'asymétrie

-0,08

-0,9

Le coefficient d'asymétrie conforte le fait que la variable d'intérêt a une distribution presque symétrique. Enfin, le coefficient de corrélation linéaire entre les deux variables est égal à 0,84 ce qui indique une forte dépendance entre les variables.

3.2/ Comportements directionnels : Etude de stationnarité

Pour étudier le comportement dans l'espace des variables observées, un outil exploratoire synthétique consiste à visualiser les valeurs des variables le long des directions de coordonnées.

(Est-Ouest) (Sud-Nord) (Est-Ouest)

(Sud-Nord)

Valeurs atypiques

Moyenne

Moyenne

Valeurs atypiques

Comportement directionnel de la variable d'intérêt Comportement directionnel de la variable secondaire

Figure 3.9

Le tracé de l'évolution des profondeurs en fonction de la longitude (axe Est-Ouest) et de la latitude (axe Sud-Nord) est un moyen de détecter la présence d'une dérive spatiale qui, si elle existe, devrait se traduire graphiquement par une croissance ou une décroissance du nuage de points.

Le nuage de points de la variable d'intérêt (figure 3.9 de gauche), est relativement homogène autour de la moyenne dans la direction SN, en revanche les valeurs ont une légère tendance à augmenter lorsque l'on se dirige de l'est vers l'ouest. Une hypothèse de stationnarité serait adéquate dans la direction sud-nord (tendance linéaire de pente nulle), mais pas forcément dans la direction est-ouest, pour laquelle la moyenne n'est pas constante. On pourrait avoir recours à l'hypothèse de stationnarité intrinsèque pour décrire son comportement le long de cette direction.

La variable MNT semble quant à elle être stationnaire au regard de son comportement directionnel (nuage de point relativement homogène et dispersion à peu près constante le long des directions principales).

Les valeurs atypiques indiquées sur la figure 3.9 sont pour certaines de fortes profondeurs dues au canal causé par le passage étroit entre l'île aux Moines et le continent au nord de la zone d'étude. Nous décidons de conserver ces données pour la suite de l'étude. Mais d'autres sont des incohérences entre la source des données sismiques et celle du MNT. Elles se localisent autour du profil 34 (figure 3.5) situé dans une zone rocheuse. Les points proches à valeurs discordantes sont supprimés.

3.3/ Nuage de corrélation différée ou « h-scatter plots »

Pour un vecteur de séparation h donné, le nuage de corrélation différée est le nuage des points formés par les couples de valeurs (z(si), z(si+h)) ; z(si) représente la profondeur de la roche au point si.

Pour que cet outil soit pertinent, il faut que les observations soient équitablement réparties sur
l'ensemble du champ. Plus les valeurs prises aux sites si et si+h sont semblables, plus le nuage

est proche de la première bissectrice ; au contraire, plus ces valeurs sont différentes, plus le nuage est diffus.

Le nuage de corrélation différé est donc un outil qui représente la structuration des valeurs pour une certaine séparation (h).

Figure 3.10

Dans notre exemple la distance moyenne au voisin le plus proche est d'environ 50 mètres. La figure 3.10 nous montre les nuages de corrélation différée pour un vecteur de séparation de longueur 50 mètres (plus ou moins 5 mètres) orienté dans la direction est-ouest et sud-nord. Les valeurs prises aux sites séparés par 50 mètres dans l'axe est-ouest se ressemblent plus que celles prisent dans l'axe sud-nord. La corrélation est de 0,9 contre 0,8 pour l'axe SN.

Certains points se détachent particulièrement du nuage ; un examen détaillé à l'aide de la figure 3.6 (carte LIDAR : LIght Detection And Ranging), révèle que ces valeurs proviennent de zones de profondeur très localisées comme dans le chenal.

Nous pouvons déduire des « h-scatter plots », que l'écart moyen entre la valeur prise en un site si et un autre en si+50 mètres se rapproche de zéro sur l'axe horizontal comme sur l'axe vertical. L'analyse variographique nous confortera dans cette hypothèse.

3.4/ Description bivariée

Il est important d'examiner la relation entre la variable auxiliaire et la variable d'intérêt. Pour ce faire, les techniques disponibles (coefficient de corrélation, covariance, graphiques) requièrent des couples de données aux points d'observations s1 à sn. Etant donnée que la variable régionalisé auxiliaire n'a pas été observée en ces points, une interpolation spatiale doit être préalablement effectuée afin de prévoir ces valeurs régionalisées.

Le MNT (variable auxiliaire) est connu sur un quadrillage d'un espacement de 50 mètres. Il
en résulte que la distance maximum qui sépare une observation de la variable principale à la

plus proche observation de la variable secondaire est de moins de 50 mètres. Cette distance est très petite à l'échelle du champ. C'est pourquoi nous avons décidé d'utiliser la méthode d'interpolation des plus proches voisins. Les voisins les plus proche seront les plus représentatifs de la donnée à estimer.

Ceci fait la figure 3.10 montre la dépendance linéaire des deux variables. Les points alignés sur la bissectrice sont les points correspondant aux zones de roche (non couvert d'une couche sédimentaire). Nous leur avions effectivement attribué la profondeur donnée par le MNT.

Le coefficient de corrélation entre la variable d'intérêt et la variable auxiliaire est de 0.84. Mais si on ne prend pas en compte les points des zones de roches ce coefficient décent à 0,75.

Tous les points

Sans les zones de roche

Y=0,75X-7,45

Figure 3.11

La droite de régression linéaire est alors définie comme suit :

Y=0,75X-7,45

Y : Profondeur au toit du socle cristallin X : Profondeur à la surface du fond marin

4/ Transformation des coordonnées

Les coordonnées des points sont en longitude, latitude de projection WGS84. C'est un système géodésique dont l'unité est exprimée en degrés.

Projection WGS84 : une projection est une correspondance entre les points de la terre et ceux de la représentation plane. La projection WGS84 est un système universel, mais il en existe un grand nombre suivant l'endroit où l'on se place sur le globe.

Pour revenir à un système de coordonnées planes (une unité en ordonné égale une unité en abscisse), dans le but de calculer une distance euclidienne nous appliquons une transformation sur les coordonnées.

Longitude = longitude*cos(latitude*ð/180°) Latitude = latitude

1 degré (longitude / latitude) 111,2 km

5/ Conclusion

L'étude exploratoire nous a permis de nous familiariser avec les données. Elle montre comment la distribution de la profondeur au toit du socle cristallin se rapproche d'une loi gaussienne. Il existe bien une relation forte entre cette profondeur et celle du fond marin. Enfin, les nuages des valeurs le long des directions de coordonnées et les nuages de corrélations différées permettent de vérifier la ressemblance des profondeurs dans un rayon de 50 mètres autour d'une observation. Il faut à présent étudier plus précisément la structure spatiale de la variable d'intérêt. C'est l'analyse variographique qui va y répondre.

Chapitre IV : Analyse variographique

L'analyse variographique est l'étape préalable au krigeage. Le manque d'observations de la variable à prédire, l'abondance d'information de la variable auxiliaire et l'information de position (longitude/latitude) pour chacune des observations, nous ont emmené à choisir l'interpolation par « krigeage ».

L'analyse variographique est menée afin d'estimer la fonction de la continuité spatiale de la variable d'intérêt. Dans ce chapitre nous présentons les variogrammes expérimentaux selon diverses directions, l'étude du comportement à courte distance et enfin l'ajustement d'un modèle.

1/ Variogrammes expérimentaux

1.1/ Variogramme omnidirectionnel

Le variogramme caractérise la continuité spatiale de la variable régionalisée. Sur la figure 4.1, on trouve le variogramme expérimental omnidirectionnel, calculé pour des distances multiples d'un pas de 50 mètres. L'intervalle de confiance à 95% accordé à chaque point est indiqué par une barre verticale. Cet intervalle de confiance est fonction de la variance et du nombre de paires de points intervenant dans le calcul des points expérimentaux.

Variogramme Omnidirectionnel Zoom sur 1/2 de la distance maximale

Figure 4.1

En supposant que la distribution Z(si)-Z(si+h) pour i=1 à n, suit une loi gaussienne de moyenne nulle et de variance 2ã(h), on a 2 ( )

n 2 à ( )

ã h qui suit une loi du chi 2 à n degrés de

ã h

libertés. L'intervalle de confiance à á=95% de la variance est alors donné par :

?
??

) ?

??

n ã h n h
2 à ( ) 2 à (

ã

2

÷1

2

;

÷ á

á / 2 / 2

n : nombre de paire de points intervenant dans le calcul des points expérimentaux

ã à ( h ) : valeur du point expérimental à la distance h (cf. formule estimation du variogramme) ÷2á : fractile d'ordre á de la loi du ÷2 à n degrés de liberté

Avant même de regarder plus précisément les intervalles de confiances, Arnaud et Emery (2000 p .126) recommandent de ne tenir compte dans le calcul du variogramme expérimental, que les distances allant jusqu'à la moitié de la distance maximale rencontrée entre deux points du champ (cf. figure 4.1 de droite). Au-delà, le nombre de couples de points intervenant dans le calcul du variogramme décroît et lui fait perdre en robustesse (cf. chap. II § 3.2).

Le variogramme omnidirectionnel atteint un palier à une distance de 1100 mètres. On peut en déduire que la variable régionalisée (profondeur au toit du substratum) est une réalisation d'une fonction aléatoire stationnaire d'ordre 2 (M. Arnaud et X. Emery, 2000 p.122 / Journel et Huijbergts, 1993 p.37).

1.2/ Variogrammes directionnels

La figure 4.3 montre les variogrammes directionnels, le long des quatre directions principales du plan, d'orientation -35°, 55°, 100° 145° par rapport à la direction est-ouest. Ces directions ont été choisies en fonction de l'orientation des profils 13 et 12 (cf. figure 3.5) et de la géographie observée sur l'image LIDAR (figure 4.2).

embouchure

pointe

N

baie

dunes

55°

-35°

Figure 4.2

La bathymétrie de la zone d'étude montre une continuité spatiale dans la direction 55°. On remarque que si l'on se déplace sur un axe du sud-ouest au nord-est, la profondeur du fond marin reste sensiblement la même, alors que si l'on se déplace du nord-ouest au sud-est on doit faire face à de forte variation de profondeurs. Cette morphologie est le résultat de la baie formé au nord-ouest et de l'écoulement de l'eau provenant en grande force le l'embouchure au nord-est.

 

ó2=38,5

Figure 4.3

Les variogrammes de la figure 4.3 sont sensiblement différents. La différence d'accroissement à l'origine est le symptôme d'une anisotropie. C'est un paramètre qu'il faut prendre en compte.

1.3/ Anisotropie

Une anisotropie caractérise un phénomène qui se déploie préférentiellement dans certaines directions de l'espace.

Les notions d'anisotropie, de continuité maximale et minimale peuvent être schématisées de la manière suivante :

55°

0.56km

-35°

0.175km

Anisotropie : Bien que la distance entre le point central et celui en direction 55° soit plus grande que celle entre le point central et le point en direction -35°, les valeurs prises en ces points sont très proche (la corrélation est la même).

Direction de continuité maximale : direction à plus forte porté.

On distingue deux types d'anisotropie.

L'anisotropie géométrique : On observe dans diverses directions des paliers et des composantes pépitiques identiques mais des portées différentes. Les portées maximales (ag) et minimales (ap) s'observent selon deux directions orthogonales (cf. chap. II § 3.4).

L'anisotropie zonale : On observe des paliers différents selon les directions. Il n'existe pas de modèle d'ajustement pratique pour traiter ce type d'anisotropie.

En observant la figure 4.3, on remarque que les paliers ne sont pas identiques. Mais si l'on considère que la variable régionalisée est stationnaire d'ordre 2, le palier est approximativement égal à la variance. Les directions de continuités maximale et minimale sont alors respectivement de 55° et -35° par rapport à l'axe ouest-est avec une portée de 1100 mètres et 250 mètres.

·

Soit

hg

 
 
 
 

2

Pour prendre en compte l'anisotropie géométrique, on peut intervenir sur la distance. On peut ainsi évaluer ã(h,è) en corrigeant la distance h.

?a ?

g

( cos )2

h è è + ?? h è è

sin ??

? a p ?

Le modèle isotrope avec une portée maximale ag=1100 mètres est alors ã(hg).

Distance d'origines

Distances corrigées

Figure 4.4

L'accroissement à l'origine devient sensiblement identique pour les deux directions principales. La nouvelle définition de la distance a pour effet d'atténuer l'anisotropie.

· Une autre façon de tenir compte de l'anisotropie est de faire un changement de repère. Si è est l'angle de rotation, dans notre cas è=35°, la formule est la suivante :

?
??

)

)

sin(è

cos(è

- sin( ) cos( )

è è

? ? ?

? ?

y1

y1

x 1

x'

1

' '


·

yi

yi

x i

?
??

xi

? ? ?

? ?

' '

yn

yn

xn

x n

? ? ? ? ?

?

?

?

? ?

De cette façon nous nous replaçons dans un système de coordonnés redressé de 35° dans le sens inverse des aiguilles d'une montre. Pour prendre en compte les portées dans les deux directions on résout le système

? ? ?

ag


·

0

? ? ?

0

? ? ?

? ?

ap

''

x ' '

1

' '

xi

''

xn

ap : portée sur l'axe 0X
ag : portée sur l'axe 0Y

? ? ?

? ?

? ? ?

? ?

y1

x'

1

' '

xi

yi

? ? ?

? ?

' '

yn

xn

Nouvel axe et unité

Axe et unité d'origine

35°

y1

''

yi

' '

yn

C'est cette seconde méthode que l'on retient pour l'estimation par krigeage. 1.4/ Comportement à l'origine du variogramme

Le comportement du variogramme à l'origine, reflète le degré de régularité spatiale de la variable régionalisée (cf. chap. II § 3.2).

- Un comportement de ãà ( h ) à l'origine parabolique indique une grande régularité de la variable régionalisée (continue et différentiable).

- Un comportement à l'origine linéaire montre que la variable régionalisée est moins régulière (elle est continue mais pas différentiable)

- Une discontinuité à l'origine ou effet de pépite, signale une plus grande irrégularité de la variable régionalisée. Il y a absence (partielle ou totale) de corrélation entre les valeurs prises en deux sites très proches. (Journel et Huijbregts, 1993 p.38).

D'après de la figure 4.1 et 4.3, on constate que les variogrammes ont un comportement à
l'origine linéaire ( ãà ( h ) 10*h). La profondeur au toit du socle cristallin est donc une variable

aléatoire continue.

1.5/ Variogrammes croisés

Cov=28,2

Figure 4.5

Comme dans le cas monovarié, l'inférence statistique nécessite des hypothèses de stationnarité de la corégionalisation (ensemble des variables régionalisées).

Pour analyser les liens spatiaux entre la profondeur du substratum et la profondeur à la surface du fond marin, la figure 4.5 (de droite) montre les variogrammes croisés selon les directions principales d'anisotropie. A sa lecture, nous faisons l'hypothèse d'une stationnarité d'ordre deux car ils atteignent tous deux un palier environ égal à la covariance.

D'autre part, nous observons que les variogrammes des deux variables régionalisées et le variogramme croisé se ressemblent fortement. Ca nous emmène à choisir le même modèle de base pour leurs ajustements.

2/ Ajustement à un modèle

Le variogrammme expérimental calculé et ses propriétés étudiées, il faut ajuster une courbe théorique. Elle doit être définie pour toutes les distances et toutes les directions de l'espace. Cependant toute fonction mathématique ne peut être utilisée comme modèle. Un modèle variographique doit être une fonction de type négatif conditionnel (Cressie, 1993 p.86) c'est-àdire que :

n n

0

? ? ù ù 2ã ( )

i j s i s j

- =

i = =

1 1

j

n

quel que soit {si : i=1,...,n} et {ùi : i=1,...,n / ?= ù =

i

i 1

0}

C'est pourquoi le modèle de variogramme est choisi parmi un ensemble de fonction dont on sait qu'elles sont de type négatif conditionnel (cf. partie II, chap.3.3).

Remarque : quel que soit le mode d'ajustement retenu, la modélisation du variogramme aux courtes distances est particulièrement importante.

2.1/ Cas monovariable

Des anisotropies dans les directions -35° et 55° ont été détectées dans le paragraphe 1.3. Il convient d'ajuster le variogramme dans ces directions. D'autre le palier dans les directions principales est égal à la variance de la variable régionalisée, soit 38,6. N'ayant pas observé d'effet pépite, le comportement à l'origine de la variable aléatoire régionalisée est linéaire.

Ces observations amènent à choisir entre un modèle sphérique et un modèle exponentiel. Le modèle sphérique est préférable, d'une part parce qu'il s'ajuste mieux sur les points de petite distance du variogramme expérimental et d'autre part parce qu'après plusieurs essais il donne de meilleurs résultats.

M. Arnaud et X. Emery montrent que la variance d'estimation (variance de krigeage) est plus élevée dans le cas du modèle exponentiel ; l'explication vient du fait que ce dernier croît plus rapidement que le modèle sphérique, ce qui traduit un phénomène qui se déstructure plus vite, d'où une moins grande précision dans l'estimation.

Direction -35°

Direction 55°

Figure 4.6

Le modèle choisi pour les deux directions s'écrit :

? 3

3 h h ?

h ?? 3 8,6 × ? -

? ?

( ) = 3

a

? 2 2 a ?

??

ã

3 8,6

0

a h

= =

pour

>a

pour h

a identifie la portée ;

a= 0.399 km dans la direction -35° a= 0.699 km dans la direction 55°

Remarque : L'estimation du paramètre de la portée se fait en résolvant le problème :

L à min n

= ? ? ?= ù

? ? i 1

i

2 ?

( ã h i ã h i

à ( ) ( )

- ) ?

? ?

n : longueur du vecteur h

ãà ( hi ) : valeur estimée du variogramme pour la distance hi

ã(hi) : valeur de la fonction variographique pour la distance hi

ùi : poids accordé à la distance hi ( les poids sont inversement proportionnels à la distance).

D'autres fonctions variographiques ou paramètres d'ajustement auraient pu être choisis. C'est pour cela qu'il est nécessaire de contrôler la qualité du modèle d'ajustement. On effectue à cette fin une validation croisée.

Pour tester les résultats de la validation croisée, nous comparons ceux obtenus pour le modèle précédent et ceux obtenus pour le modèle variographique qui ne tient pas en compte l'anisotropie (cf. figure 4.7).

Figure 4.7

ã ( ) 50 1 exp( h

h ? -

= × - )

?? 0.412

?
??

2.2/ Validation croisée

D'après le rapport INERIS (2003), la validation croisée doit être réalisée avant d'entreprendre le krigeage. Elle fournit des critères statistiques de sélection dans le choix d'un modèle de variogramme.

La validation croisée consiste à éliminer temporairement un point de l'ensemble des données puis à estimer sa valeur par krigeage à l'aide des données restantes et du modèle de variogramme qui a été ajusté. Cette opération est répétée pour tous les points.

Ainsi en tout point d'observation si, est calculé par krigeage, avec le modèle variographique

à

retenu, une valeur estimée Z ( si ) et un écart-type de krigeage óok(si). Le rapport INERIS

recommande alors de calculer :

à

- la moyenne et la variance de l'erreur d'estimation (Z(si)- Z ( si ) ),

n 2

- l'erreur quadratique moyenne (EQM= ?= [

1 Z s i Z s i

( ) à ( )

- ] )

n 1

i

à

- la moyenne de l'erreur relative (100*[Z(si)- Z ( si ) ]/ Z(si)),

à

- la moyenne et la variance de l'erreur standardisée ([Z(si)- Z ( si ) ]/ óok(si)),

à

- le coefficient de corrélation entre Z(si) et Z ( si ) .

La qualité du modèle est d'autant meilleure que :

- la moyenne des erreurs d'estimation et des erreurs réduites (standardisées) est plus proche de 0, ce critère assure l'absence de biais,

- la variance des erreurs d'estimation est plus faible, ce critère traduit la robustesse de l'estimateur et renseigne sur la précision de l'estimation,

- la variance des erreurs standardisées est plus proche de 1, ce critère indique que

l'écart-type de krigeage reflète correctement la précision de l'estimation,

- la moyenne des erreurs relatives est plus proche de 0, ce critère traduit la bonne

précision de l'estimateur,

à

- la corrélation entre Z(si) et Z ( si ) est plus proche de 1 et le nuage de corrélation

plus resserré.

L'application aux données :

N=441

Modèle avec anisotropie

Modèle isotrope

Erreur Quadratique Moyenne

3,34

3,18

Moyenne des erreurs d'estimation

-0,01

-0,001

Ecart-type des erreurs d'estimation

1,83

1,78

Moyenne des erreurs relatives

-22,16 %

-21,18%

Moyenne des erreurs standardisées

0,003

0,0007

Ecart-Type des erreurs standardisées

0,66

0,63

Coefficient de corrélation

0,95

0,96

% de données dont l'erreur

standardisée est inférieure à 2,5

99

96

Modèle anisotrope

Modèle isotrope

Vraies valeurs Vraies valeurs

Nuage de corrélation entre valeurs vraies et estimées

Figure 4.7

Les nuages sont concentrés le long de la première bissectrice, ce qui indique une bonne précision des estimations. Les deux modèles rendent une estimation globalement sans biais, les erreurs d'estimation ne s'écartent pas fortement de 0. D'après Arnaud et Emery (200, p.156), pour valider un modèle on espère au moins 95% de données dont l'erreur standardisée est inférieure à 2,5. C'est le cas pour les deux modèles. Les écarts-types sont proches de 1, les erreurs relatives n'excèdent pas 23%. En revanche quelques fortes profondeurs sont sous estimées.

Il est également intéressant de localiser les erreurs d'estimation. La figure 4.8 nous les montre.

Embouchure Pointe de l'île

 
 
 

Erreur d'estimation du modèle anisotrope

Figure 4.8

Erreur d'estimation du modèle isotrope

Les cartes montrent que l'on estime mal aux endroits à fort dénivelés (à l'embouchure au nord) et certains points au sud-est. Ces erreurs sont dues à des incohérences entre sources de données différentes (MNT et Sismique, cf. chap. III § 2.1.2).

Après application des deux modèles, le géologue a préféré les résultats obtenus par le modèle à anisotropie.

3/ Conclusion

Dans ce chapitre nous avons exposé les bases de l'analyse variographique et les avons illustrées par une étude de cas réel. La recherche d'un modèle convenable est assez délicat et nécessite une certaine expérience ou de nombreux essais. C'est une procédure qui ne peut être automatisée. Elle nécessite également les connaissances du géologue ou de l'expert sur le terrain pour valider la véracité du phénomène observé (régularité spatiale, variabilité à courtes distances et anisotropie).

Chapitre V : Estimation par krigeage

L'étape de l'estimation par krigeage est relativement rapide si l'étude variographique a été correctement menée. Il ne s'agit ici plus que de définir une grille d'estimation et un voisinage de krigeage (cf. chap. II, § 4.1). L'estimation par krigeage peut alors être entièrement automatisée.

1/ Choix de la grille et du voisinage de krigeage

Nous avons choisi la même grille que celle proposée par le SHOM pour représenter le MNT. Elle facilitera la comparaison entre la morphobathymétrie et la morphologie au toit du socle rocheux. C'est une grille régulière de points espacés d'une distance de 50 mètres. Au regard de l'échelle de la zone d'étude ( 750 ha), le degré de détail de cette grille est élevé. Elle permettra de calculer facilement les courbes de niveaux et de représenter la géographie au toit du socle cristallin en trois dimensions.

Le choix du voisinage de krigeage est un peu plus délicat. Le nombre de points inclus dans le voisinage doit être assez grand pour une estimation de précision. Il dépend également de la continuité spatiale de la variable régionalisée. Le modèle variographique doit être acceptable à l'échelle de ce voisinage. C'est-à-dire qu'il existe une dépendance spatiale. On pourra tester plusieurs tailles de voisinage par validation croisée et choisir celle qui donne les meilleurs résultats. Dans le cas présent nous avons retenu un voisinage de krigeage d'un rayon de 500m. C'est entre la portée de continuité maximale et la portée de continuité minimale du variogramme directionnel.

Enfin, le choix du système de krigeage qui a été fait est le krigeage ordinaire. Comme nous l'avons relaté dans le chapitre II, § 4, il ne nécessite pas la connaissance de l'espérance de la variable régionalisée. Au lieu de l'estimer, il est souvent préférable de la considérer comme inconnue car elle peut varier d'une zone à l'autre du champ. Toutefois, nous rappelons qu'il faut qu'elle reste constante dans le voisinage de krigeage.

2/ Résultats obtenus par krigeage ordinaire

Figure 5.1

La figure 5.1 montre le résultat de l'estimation par krigeage et l'écart-type de krigeage. Le krigeage utilise le modèle variographique suivant :

? 3

3 h h ?

3

?? 3 8,6 × ? -

? ?

( )

h = a a

? 2 2 ?

ã

?? 3 8,6

0

a h

= =

pour

>a

pour h

avec une portée (a) qui diffère suivant la direction (cf. chap.4 prg. 2.1) L'anisotropie est corrigée par un changement de repère (cf. chap.4 prg. 1.3).

Les profondeurs varient entre 3 et -25 mètres. Une mesure au-dessus de zéro n'est pas aberrante. Cela vient du fait que le niveau zéro de référence est le niveau de l'eau au coefficient le plus fort à marée basse.

L'écart-type de krigeage est un indicateur de la précision de l'estimation. Il est fiable car l'écart-type des erreurs standardisé est proche de 1 (cf. validation croisée Chap. IV § 2.2). Il quantifie la dispersion possible de la valeur vraie, mais inconnue, autour de la valeur estimée. Par contre, il dépend uniquement du modèle de variogramme et de la configuration des données dans le voisinage de krigeage.

A la vue de la figure 5.1, les variations spatiales de l'écart-type de krigeage indiquent la perte de précision lorsqu'on s'éloigne des points de mesure. Elles renseignent sur les zones où l'échantillonnage est suffisamment dense (faible écart-type, bonne précision au centre et au sud de la zone d'étude) et sur celles où l'échantillonnage est trop espacé (grand écart-type, mauvaise précision au nord de la zone d'étude).

3/ Résultats obtenus par cokrigeage ordinaire

Le cokrigeage renforce le krigeage standard en y ajoutant l'information apportée par une deuxième variable. C'est un immense avantage quand l'information de la variable principale vient à manquer. On peut aussi s'imaginer optimiser les coûts des campagnes d'échantillonnage en prélevant la profondeur au toit du socle cristallin uniquement aux endroits à fort volume sédimentaire.

nZ nZ

1 2

Les principes de base du cokrigeage sont les mêmes que ceux du krigeage. On veut former une estimation linéaire de la variable principale à partir d'observations de la variable principale et de la variable secondaire.

Z s

à ( ) = ? ù i Z s i + ? ù Z s

0 1 ( ) 2 ( )

j j

i =1 j=1

Mais, en plus de créer un variogramme qui représente les variations spatiales de la variable principale entre deux points d'observation, le cokrigeage introduit la notion de variogramme croisé (cf. chap. II § 3.5 ). Tout comme dans le cas du krigeage, le variogramme croisé est modélisé. Il permet alors de résoudre les équations qui fournissent les valeurs des coefficients de pondération en fonction des observations des deux variables utilisés. De la même manière, une évaluation de l'erreur d'estimation est disponible en chaque point d'interpolation. D'autre

part cette variance d'estimation est toujours inférieure à celle obtenue par krigeage (Arnaud et Emery, 200 p.195).

3.1/ Ajustement du variogramme croisé

Le variogramme croisé quantifie la corrélation spatiale entre la variable principale et la variable secondaire.

Variogramme directionnel croisé
(Profondeur au toit du socle rocheux / Profondeur à la surface du fond

Direction -35°

Direction 55°

Figure 5.2

? 3

3 h h ?

h ?? 28 × ? -

? ?

( ) = 3

a

? 2 2a?

??

ã

28

0

a h

= =

pour

>a

pour h

Le palier est égal à la covariance entre la profondeur au toit du socle cristallin et celle à surface du fond marin.

a identifie la portée ;

a=0.378 km dans la direction -35° a=0.731 km dans la direction 55°

3.2/ Validation Croisée

La validation croisée est utilisée pour comparer deux approches. La première approche est la même que précédemment, c'est-à-dire que nous avons construit un modèle variographique à partir de données mesurées et de données d'expertise. Ces dernières ont été jugées par un géologue connaissant le terrain (cf. chap. III § 2.1.2). Lors du krigeage standard nous avons gardé ces points pour estimer l'ensemble du champ. Or ce ne sont pas des valeurs exactes. La deuxième approche propose de bénéficier de l'information apportée par la deuxième variable sans prendre en compte les points d'experts lors de l'estimation.

Nous n'avons pas montré la deuxième approche pour l'estimation par krigeage car les résultats n'en valaient pas la peine.

Le tableau suivant montre les statistiques de la validation croisée.

N=441 / N=323

Estimation avec points experts

Estimation sans points experts

Erreur Quadratique Moyenne

2,08

1,20

Moyenne des erreurs d'estimation

-0,02

-0,01

Ecart-type des erreurs d'estimation

1,44

1,09

Moyenne des erreurs relatives

-3,52 %

-1,03%

Moyenne des erreurs standardisées

-0,006

-0,003

Ecart-Type des erreurs standardisées

0,83

0,68

Coefficient de corrélation

0,97

0,98

% de données dont l'erreur

standardisée est inférieure à 2,5

98

98

Les indicateurs statistiques des deux méthodes sont proches. Néanmoins l'EQM est bien meilleur quand on ne rajoute pas les points d'expertises. Nous supposons que c'est du aux points d'expertises difficiles à estimer car ils ne reflètent pas forcément la réalité.

Avec points d'expertises

points d'experts mal estimés

Sans points d'expertises

Vraies valeurs Vraies valeurs

Nuage de corrélation entre valeurs vraies et estimées (par cokrigeage)
Figure 5.3

La figure 5.3 compare les nuages de corrélations entre vraies valeurs et des valeurs estimées des deux approches.

Les nuages sont bien plus concentrés le long de la diagonale que ceux de l'estimation par krigeage, ce qui indique une meilleure précision des estimations.

Attardons-nous sur le nuage de gauche, un grand nombre de points d'une profondeur de 15 mètres ont été estimé entre 10 et 20 mètres. Après une recherche de localisation il s'avère que ce sont des points d'expertises ; un élément de plus pour les juger non fiables. Il manque une cohérence entre les points d'expertises et les points qui les entourent.

La figure 5.4 localise les erreurs d'estimation. Elles sont moins fortes que celle faites par krigeage. Au lieu de varier entre -8 et 8 mètres elles ne fluctuent plus qu'entre -8 et 4 mètres. Par contre, les erreurs les plus importantes se localisent toujours aux mêmes endroits.

Erreurs d'estimations

Puits

Sans points d'expertises

Avec points d'expertises

Figure 5.5

Figure 5.4

3.3/ Résultat du cokrigeage

A la vue de la figure 5.5, on s'aperçoit que les résultats obtenus par cokrigeage sont plus fins que ceux obtenus par krigeage. Le chenal présente une plus forte rugosité, la profondeur diminue en s'approchant de la côte et les monticules rocheux séparant le puits au centre de celui au sud sont plus lisibles.

N'ayant pas de points de mesures au nord ni au niveau de l'embouchure, le cokrigeage n'a pas pu estimer cette zone sans les points d'expertises. En revanche nous supposons que l'estimation sans les points d'expertises, du centre de la zone d'étude, se rapproche plus de la réalité car nous n'avons pas introduit de biais.

L'écart-type du cokrigeage est plus faible que celui du krigeage dans une grande partie de la zone d'étude.

En d'autres termes, l'information apportée par la variable auxiliaire, fortement corrélée avec la variable cible, permet de compenser en grande partie le manque d'information dû à un sous échantillonnage de la variable cible. C'est là l'un des intérêts majeurs du cokrigeage, lorsque les mesures de la variable cible viennent à manquer ou, qu'il est moins coûteux de récupérer une ou plusieurs variables auxiliaires que de mesurer plus largement la variable cible.

Les figures suivantes (figures 5.6) montrent différentes représentations des résultats obtenus.

Lissage - visualisation 2D Courbes de niveaux

Lissage - visualisation 3D

Cartes des profondeurs au toit du socle rocheux
Figure 5.6

4/ Comparaison graphique avec d'autres méthodes d'interpolation

A titre de comparaison, nous avons dessiné la carte des profondeurs au toit du socle rocheux en utilisant les résultats de quatre méthodes d'interpolation.

Triangulation Delaunay

Cokrigeage

mètres

mètres

Triangulation Thiessen Inverse des distances

mètres

mètres

Figure 5.7

Les trois méthodes figurants à côté de celle par cokrigeage sont des techniques d'interpolation automatisées, intégrées dans des logiciels de système d'information géographique (SIG). Leurs procédures de calculs ont été définies dans le chapitre I.

Cette comparaison illustre les résultats des méthodes déterministes. Ils sont différents, mais permettent néanmoins une représentation globale du phénomène à étudier.

Chapitre VI : Les épaisseurs de couches sédimentaires 1/ Epaisseur de sédiment

L'étude doit permettre d'aboutir à l'épaisseur des formations sédimentaires. C'est la différence entre la profondeur des fonds marins et celle au toit du socle rocheux. La figure 6.1 a été obtenue à partir des profondeurs au toit du substratum estimées par cokrigeage et des données bathymétriques délivrées par le SHOM.

Embouchure

[0-1[ mètre [1-3[ mètres [3-5[ mètres [5-10[ mètres [10-15[ mètres

Pointe de l'île aux Moines

Figure 6.1

La baie est recouverte d'une couche sédimentaire de 5 à 10 mètres d'épaisseur. Des dunes apparaissent le long ouest du chenal. Le socle rocheux du sud-est de la zone est dépourvu de formation sédimentaire.

2/ Courants marins

La répartition, la nature et l'épaisseur des sédiments, mais aussi la profondeur du substratum, dépendent des conditions hydrodynamiques.

Huit heures par jour, il se forme un tourbillon au centre ouest de la zone d'étude (figure 6.2). Les particules de sédiments en suspension dans l'eau se posent alors au fond et attaquent la roche. C'est pourquoi d'importantes masses de sédiments sont constatées.

Les courants en vive eau ramènent les sédiments entassés au nord de l'embouchure (figure 6.1 et 6.2), pour les déposer 500 mètres plus bas lorsque l'intensité du courant s'affaibli. A l'inverse, en morte eau, les courants remontent ces mêmes masses de sédiments mais qui sont pour une partie stoppés par la pointe de l'île aux Moines. Ainsi il se forme des monticules de sédiments juste au sud de cette pointe.

La partie est de la zone est dépourvue de sédiment car constamment parcourue par les courants.

Les courants étant très faibles dans la baie, les sédiments stagnent et ont peu d'effet érosif.

Courant en Vive eau à Courant en Vive eau à Courant en Vive eau à

PM -6h à Port Navalo PM -2h à Port Navalo PM +2h à Port Navalo

Intensité du courant en m/s

Courant important =>
pas de dépôt sédimentaire

tourbillon => couche
sédimentaire important

Courant en Vive eau à Courant en Morte eau à Courant en Morte eau à

PM +6h à Port Navalo PM -2h à Port Navalo PM +2h à Port Navalo

Figure 6.2

(Source: Modélisation hydrodynamique du GdM - Direction des études et recherches EDF)

La concentration ou la dispersion de l'énergie formée par les courants explique les contrastes des fonds marins.

Chapitre VII : Localisation des colonies de crépidules 1/ Problématique

En sédimentologie, un outil de prélèvement très utilisé est la benne (figure 7.1). Elle permet d'explorer la composition des fonds marins.

Benne

Crépidules

Figure 7.1

L'Ifremer définit la crépidule comme un mollusque gastéropode (crepidula fornicata) originaire d'Amérique du nord et introduit involontairement en Europe. Elle s'étend maintenant de la Suède à la Méditerranée. Son abondance fait qu'elle entre en compétition alimentaire avec d'autres coquillages. Elle a par ailleurs un impact sur les fonds qu'elle colonise (dépôts de coquilles et de déchets, envasement). C'est un mollusque qui a une capacité extraordinaire de prolifération (jusqu'à 10 000 individus au mètre carré). Il a déjà colonisé toute une partie de la côte bretonne

L'objectif de cette présentation est de montrer qu'à partir d'un semis de points on peut analyser une structure spatiale*. Chacun des points (prélèvement par bennes) nous indique la présence ou non de crépidules. La connaissance de la structure spatiale, nous permet d'utiliser une méthode de lissage pour créer une carte des zones occupées par les crépidules. Nous obtenons alors une idée du peuplement de cet envahisseur dans la zone étudiée.

Zone d'étude

Golfe du Morbihan

île aux Moines

île d'Arz

île Bailleron

île Tascon

2/ Zone d'étude

Pour les besoins de cette étude, les relevés par bennes sont localisés dans un secteur à un kilomètre au nord ouest de l'île Tascon. La surface représente un rectangle de 900 mètres d'est en ouest et de 950 mètres du nord au sud. 70 bennes sont relevées sur une surface de 85 ha. Pour chaque prélèvement on note une présence ou non de crépidules.

* Structure spatiale : la façon dont les éléments occupent l'espace

3/ Statistiques spatiales descriptives

Cette partie propose des méthodes d'analyse concernant uniquement la position des objets, indépendamment de la valeur d'un attribut de ces objets. On présente des indicateurs permettant de décrire la concentration ou la dispersion du semis étudié. Le semis est-il concentré ou réparti avec quel degré de certitude ?

3.1 Position et dispersion

Intéressons-nous aux bennes à présences de crépidules. Compte tenu de leur positionnement, le barycentre se trouve à 200 mètres au sud du point central de la zone d'étude. C'est une première indication pour dire que les bennes à présence de crépidules ne sont pas également réparties sur toute la zone d'étude.

Les trois indicateurs de tendance centrale sont convergents, le point médian et le point de distance minimale se situent à moins de 50 mètres du barycentre.

La dispersion standard des crépidules autour du barycentre est d'environ 350 mètres (distance euclidienne) à vol d'oiseau. L'ellipse de déviation standard (représente le coefficient d'asymétrie) est un tout petit peu plus étirée de l'est à ouest que du nord au sud en raison de la forme de la zone d'étude. Il est intéressant de constater que 60% des bennes à présences de crépidules sont comprises dans l'ellipse. Cela indique une population concentrée dans un espace restreint de la zone d'étude.

Prélèvements

sans présence de crépidules

avec présence de crépidules

900

mètres

950

Convexe des bennes à présence de crépidules

Ellipse de déviation

Point médian Barycentre

Distance minimale

Point centrale de la zone d'étude

Zone de prélèvement

mètres Figure 7.2

3.2 Sectorisation

La sectorisation consiste à rechercher des groupes de sites qui ont la même valeur (présence ou non de crépidules) et qui minimise la distance entre les sites. C'est une façon d'examiner si des groupes homogènes se forment.

En regardant la localisation des bennes à présence de crépidules et celle sans, des frontières apparaissent naturellement (figure 7.3.1).

La figure 7.3.2 montre une classification en 7 groupes par la méthode des K points moyens. C'est une méthode fondée sur la distance (euclidienne).

 

Sans crépidules

Figure 7.3.1 Figure 7.3.2

Le principe en est le suivant :

- choisir au hasard K centres provisoires (1)

- regrouper les sites les plus proches de ces centres (2)

- calculer le centre de gravité de chaque groupe formé (3)

- recommencer (2) et (3) jusqu'à ce que les centres ne bougent plus.

Les secteurs de la figure 3.2 ont un barycentre qui minimise la dispersion des bennes à présence de crépidules et celles sans crépidules.

3.3 Méthode des quadrats

La répartition des bennes à présence de crépidules peut-elle être assimilée à une répartition aléatoire à l'échelle de la zone d'étude ? Est-elle au contraire plutôt répartie ou plutôt concentrée ?

Qu'est qu'une répartition aléatoire :

Soient (Q1 ,Q2 ,..., Qn) les localisations des n quadrats, l'hypothèse d'une répartition spatiale complètement aléatoire est celle issue d'un processus ponctuel homogène de Poisson et reposant sur deux principes :

- un principe d'uniformité, selon lequel chaque localisation de la zone d'étude possède la même probabilité d'être habitée par des crépidules ;

- un principe d'indépendance, en vertu duquel l'occurrence d'un événement en un lieu n'influence en aucune manière l'occurrence d'événements en d'autres lieux.

Autrement dit, on suppose que la zone d'étude est parfaitement homogène et qu'il n'existe aucune interaction entre les individus localisés. Sous ces conditions, ce modèle purement aléatoire peut être formalisé au moyen d'une distribution de probabilités de Poisson.

L'analyse par quadrat dénombre les sites dans les cellules du carroyage (quadrats) et compare les effectifs observés aux effectifs théoriques résultant d'une loi binomiale ou de son approximation par la loi de Poisson (ë=np).

 

On pose un carroyage constitué de 25 quadrats de 48400 m2 (220m x 220m). On va tester deux choses :

- (1) les bennes à présence de crépidules sont la réalisation d'une distribution spatiale aléatoire,

- (2) les bennes sans présence de crépidules sont la réalisation d'une

distribution spatiale aléatoire.

(1) La densité moyenne est de 2,16 (54/25) bennes à présence de crépidules et l'écart type est de 1,7 bennes par quadrat.

(2) La densité moyenne est de 0,64 bennes à présence de crépidules et l'écart type est de 1,03 bennes par quadrat.

Indice

Valeur calculée (1)

Valeur calculée (2)

Interprétation,
la distribution est :

D (rapport de la variance sur la moyenne)

1,34

1,67

1 : aléatoire

>1 : concentrée

<1 : régulièrement espacée

ICS (indice de dimension des agrégats)

0,34

0,67

0 : aléatoire

>0 : concentrée

<0 : régulièrement espacée

GI (indice de Green)

0,01

0,02

0 : aléatoire

1 : très concentrée

IMC (indice de voisinage

moyen)

2,49

1,31

x : aléatoire

> x : concentrée

< x : régulièrement espacée

IP (indice d'hétérogénéité)

1,15

2,05

1 : aléatoire

>1 : concentrée

<1 : régulièrement espacée

Conclusion, on peut considérer que la répartition des bennes à présence de crépidules n'est pas conforme à un processus de Poisson, mais qu'elle manifeste une concentration. On remarque effectivement une densité est plus forte au sud qu'au nord.

Les bennes sans présence de crépidules, sont aussi réparties comme un semis de points concentrés.

La méthode des quadrats présente des défauts :

- Elle est plus adaptée à l'analyse spatiale d'une population que d'un échantillon. Elle considère que le semis et complet sur la zone d'étude. Exemple `localisation des villes dans une région'.

- Les résultats changent suivant le maillage choisi. Un maillage plus fin conclura à une répartition aléatoire des bennes.

- Elle ne prend pas en compte les observations voisines. Comme indiqué, elle sous-entend qu'en théorie la densité de crépidules est la même dans tout sous-ensemble de la région

(quadrat). C'est-à-dire que si la distribution des sites était répartie de façon régulière il y aurait une densité de 2.16 sites dans chaque carreau.

La méthode suivante tient compte des observations voisines et de la distance qui les sépare. 3.4 Analyse spatiale exploratoire basée sur les distances

Les méthodes suivantes font l'hypothèse que le semis de point étudié est homogène. C'est-àdire qu'on suppose que la densité est constante sur toute la zone d'étude.

3.4.1 Méthode du voisin le plus proche

Elle propose de comparer la distance moyenne d'un point à son plus proche voisin avec une distance théorique attendue sous l'hypothèse nulle de distribution aléatoire.

Soit N observations sur un territoire d'une superficie S. La distance moyenne théorique au

1 S

voisin le plus proche est d0 = =57,83 (S/N : densité du semis de points).

2 N

La distance moyenne à vol d'oiseau entre deux prélèvements, à présence de crépidules, les plus proches dans la zone d'étude est de 52 mètres (distance euclidienne). La distance moyenne attendu théorique entre deux présences de crépidules dans un semis de points généré par un processus ponctuel aléatoire de même densité serait de 57 mètres. La statistique R est égale à 0,9 (52/57). Elle est à comparer avec :

- le modèle concentré de référence qui a une statistique R égal à 0, - le modèle aléatoire qui a une statistique R égal à 1,

- le modèle équirépartit dont le R est égal à 2,15.

Avec un R=0,9 nous nous rapprochons fortement d'une répartition aléatoire des crépidules.

On peut connaître la région critique d'acceptation de l'hypothèse nulle. L'intervalle de confiance pour une distribution aléatoire au risque á=5% de se tromper est :

[

0 1,96 0 ; 0 1,9 6 0 ] [ 49,77 ; 65 ,8 8]
d -
· ó d d +
· ó d =
0, 26136

avec 4,1 1

ó d = =

0 N S

2 /

Il en résulte que la distribution est significativement aléatoire, car la distance observée moyenne au voisin le plus proche (52,19) est comprise dans l'intervalle.

Elle serait significativement dispersée si la distance observée moyenne au voisin le plus proche était supérieure à d0 + (1,96
· ó d0) = 65,88 ;

ou significativement concentré si la distance observée moyenne au voisin le plus proche était inférieure à d0 - (1,96
· ó d 0 ) = 49,77 pour á=5%.

Remarque : les résultats sont différents de ceux apporté par la méthode des quadrats.

L'extension de la méthode aux 20 premiers rangs de voisinage rend les résultats présentés dans le tableau ci-dessous. La statistique R calculé est croissante avec l'augmentation des ordres de voisinages. Ce qui montre que plus l'ordre de voisinage augmente et plus le semis est régulièrement espacé.

Rang de
voisinage

Distance au plus
proche voisin

Distance
théorique

Statistique R

1

52.19

57.83

0.90

2

88.45

86.74

1.01

3

112.44

108.43

1.03

4

136.01

126.50

1.07

5

155.83

142.31

1.09

6

171.94

156.55

1.09

7

190.72

169.59

1.12

8

212.38

181.71

1.16

9

226.85

193.06

1.17

10

239.60

203.79

1.17

11

254.94

213.98

1.19

12

265.91

223.71

1.18

13

276.83

233.03

1.18

14

287.35

241.99

1.18

15

297.66

250.63

1.18

16

309.94

258.99

1.19

17

320.64

267.08

1.20

18

333.50

274.94

1.21

19

344.34

282.57

1.21

20

354.22

290.01

1.22

D'autre part, si la distance au Kième voisin le plus proche est plus élevée que la distance théorique attendue alors le semis de points est régulièrement espacé à cet ordre de voisinage. Au contraire, une valeur observée faible indique un semis concentré.

La statistique du voisin le plus proche souffre de différents défauts. Elle utilise comme aire d'étude le polygone formé par les points limitrophes et non pas une aire plus large qui serait donnée par l'utilisateur. Selon Cressie (1993), la validité du test décline fortement avec l'élévation de l'ordre K. Il recommande de ne pas dépasser un niveau K<2,5%N. Or dans notre cas cette valeur est égale à 1,35. Les conclusions de l'extension aux 20 premiers rangs sont donc à relativiser.

D'un autre côté la méthode des plus proches voisins est simple à utiliser et ne nécessite pas de connaître toute la population.

3.4.2 Fonction de Ripley modifiée (L de Besag)

La fonction K de Ripley (1977, 1981) est une méthode plus récente pour analyser la structure spatiale d'un semis de points. L'hypothèse de base est que la densité locale à l'intérieur d'un cercle est égale à la densité de l'ensemble de la zone d'étude. Le principe est de calculer la probabilité d'observer un nombre donné de points dans un cercle de rayon d autour d'un point quelconque de la zone d'étude. La règle illustrée en figure 7.4 est répétée pour chacun des points, pour en déduire des résultats moyens.

Nombre de voisins

Fonction de Ripley

4

4

4

4

Figure 7.4. Source : François Goreaud - Cemagref

6

Distance d'analyse R

Sous l'hypothèse nulle de la fonction de Besag, le semis de points est aléatoire. La figure 7.5 représente la courbe de la fonction L de Besag et celles des bornes de l'intervalle de confiance de l'hypothèse nulle.

40

30

20

10

0

10

-20

-30

100

80

60

40

20

0

-20

-40

-60

-80

100

Bennes à présences de Crépidules

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

0

50

100

150

200

250

300

35

 
 
 
 
 
 
 
 
 
 
 
 
 

distance (mètres)

L Besag H0 min H0 max

Bennes sans présences de Crépidules

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

0

50

100

150

200

250

300

35

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

distance (mètres)

L Besag H0 min H0 max

Figure 7.5

Lorsque la fonction de Besag est comprise dans l'intervalle de confiance, on admet que la distribution observée est conforme à une distribution aléatoire de Poisson. Si la fonction de Besag est plus élevée que la borne supérieure de l'intervalle de confiance, alors la distribution est concentrée dans l'espace d'étude. Lorsque la statistique de Besag est plus faible que la borne inférieure de l'intervalle de confiance, alors la distribution est régulièrement dispersée dans l'espace d'étude.

Le calcul de la fonction L de Besag confirme et précise les conclusions tirées de l'analyse du voisin le plus proche. En effet, il y une absence d'organisation spatiale significative sur le semis de points avec présence de crépidules. Toutefois il existe une tendance à la concentration dans les rayons de 10 mètres et de 160 mètres de distance.

Les bennes sans présence de crépidules sont significativement concentrées dans un rayon allant de 130 mètres à 250 mètres.

L'avantage de cette méthode est qu'elle donne de l'information à plusieurs échelles de distance.

3.5 Conclusion de l'analyse spatiale descriptive

Les méthodes précédentes servent à tester une hypothèse globale sur la configuration spatiale de la zone d'étude. Elles permettent de savoir s'il existe un ordre spatial, mais ne sont pas capables de situer les agrégats.

Les méthodes reposent sur une hypothèse d'homogénéité de la variable sur la zone d'étude. Elle est contraignante et ne s'applique pas forcément à notre cas. Au contraire si l'on observe des crépidules sur un site alors il y a de fortes chances qu'il y en ait à côté.

Les méthodes n'ont pas été pensées pour étudier un échantillon mais pour une population connue sur l'ensemble de la zone d'étude. C'est pourquoi nous les utilisons seulement dans le but de localiser les zones susceptibles d'intérêt.

4 / Méthode d'interpolation par partitionnement de l'espace

Les méthodes d'interpolations suivantes s'appuient sur une décomposition de la zone d'étude (cf. chap. I). La méthode de partitionnement la plus fréquemment utilisé est celle de Delaunay. Elle découle d'un découpage en polygones de Thiessen.

4.1 Polygones de Thiessen

 
 

Présence de crépidules

 
 

Figure 7.6

 
 

On attribue à tout point appartenant au même polygone, la valeur du site ayant ce polygone d'influence (cf. chap. I § 1.1).

La validation croisée (cf. chap. IV § 2.2) pour cette méthode rend 81,08% de bonne réponse. 4.2 Interpolation par la méthode des plus proches voisins

L'algorithme se base sur une décomposition de l'espace en polygones de Delaunay (cf. chap. I § 1.1.1.2)

Ayant peu d'observations, et sachant que les crépidules vivent en colonie, si elles sont
présentes à un endroit il y a de forte chance que l'on en trouve juste à coté. D'où l'idée de

découper la zone d'études en une grille régulière à maille rectangulaire de côté mesurant 50 mètres. Elle est alors assez fine pour que chaque benne remontée corresponde à un carreau.

Tout point de la grille appartient à un triangle de Delaunay. La valeur du point que l'on cherche à estimer sera celle du sommet le plus proche.

Figure 7.7

La validation croisée (cf. chap. IV § 2.2) pour cette méthode rend 82,43% de bonne réponse. 5.3 Interpolation suivant le nombre d'individus comptés

Les méthodes suivantes sont appelées abusivement des méthodes d'interpolation. Elles sont plus précisément des méthodes de lissage. Elles permettent de réaliser une transition entre les régions à valeurs observées différentes. Elles sont normalement utilisées lorsque les sites d'observations sont disposés selon une grille régulière.

Les géologues ont aussi relevé pour certaines bennes remontées, la quantité de crépidule. Le tableau ci-dessous donne quelques statistiques sur ces données.

Nombre de bennes

70

Médiane des crépidules comptés

25

Nombre de bennes avec crepidules

54

Maximum de crépidules dans une benne

87

Nombre de bennes avec comptage de crépidules

39

Moyenne des crépidules dans une benne

29

Minimum de crépidules dans une benne

4

Ecart type des crépidules dans une benne

19

On remarque que la moyenne est de 29 crépidules par bennes et que 50% des bennes à présence de crépidules remontent plus de 25 crépidules. D'un autre coté, l'amplitude de 83 crépidules est élevée. Il en découle un écart type important.

La figure 8 présente les résultats obtenus suivant quatre méthodes de lissage.

Figure 7.8

- L'interpolation linéaire (cf. chap. I) se base sur la triangulation de Delaunay. Nous rappelons que l'estimateur pour un point S inclus dans un triangle S1, S2, S3 s'écrit :

+

+

S S S

123

à

Z S

( )

S SS

1 2

Z S

( )

3

SSS

1 3

Z S

( )

2

S SS

2 3

Z S

( )

1

avec |.| désignant la surface.

- L'interpolation cubique consiste à ajuster à l'intérieur de chaque triangle de Delaunay une surface dont l'équation est un polynôme du troisième rang.

3 2

Ce polynôme est de la forme : ? ?

Z S Z x y

à ( ) à ( , )

= =

á ij x y

i j

i j

= =

0 0

- La méthode du plus proche voisin estime le site S en lui affectant la valeur du site observé le plus proche.

- L'interpolation par splines ne se base pas comme les précédentes sur une triangulation de la

à

sous la contrainte Z ( S i ) = Z(S i ) ? i= 1... n

dS

S i + 1

zone d'études. Elle minimise ?( )2

Z S

à ' ' ( )

Si

Remarque : les méthodes cubiques et splines produisent des surfaces à aspect très lisse alors que les méthodes linéaires et plus proche voisin présentent des discontinuités.

Validation croisée des quatre méthodes présentées :

 

Linéaire

Plus Proche Voisin

Cubique

Spline

% de bonnes réponses*

15,78

29,82

14,03

12,28

Moyenne de l'erreur d'estimation

-0,58

-0,54

0,07

-1,07

Variance de l'erreur d'estimation

14,28

17,96

14,27

15,70

Erreur quadratique moyenne

200,33

317,49

199,55

243,51

Moyenne de l'erreur relative

-0,01

-0,01

0,001

-0,02

Coefficient de corrélation

0,728

0,661

0,732

0,723

*% de bonnes réponses à plus ou moins trois crépidules près.

Le tableau ci-dessus permet de comparer les quatre modèles à partir de critères statistiques
(cf. chap. 4 § 2.2). La moyenne de l'erreur d'estimation des quatre modèles est proche de 0.

Cela montre qu'ils sont sans biais ( E ( Zà ( S ) ) = Z(S ) ). Par contre ceux ne sont pas des

estimateurs robustes (variance de l'erreur d'estimation élevée). L'avantage d'un estimateur
robuste est qu'il est insensible aux valeurs aberrantes. La moyenne de l'erreur relative,

[ Z S - Z S

à ( ) ( ) ]

100 * proche de 0, indique que les interpolations sont d'une bonne précision.

Z S

( )

Si l'on compare les méthodes d'interpolation, la méthode cubique rend les meilleurs résultats globaux. Mais si l'on y regarde de plus près (figure 7.9) on s'aperçoit qu'elle n'estime pas correctement les sites sans présence de crépidules. Ils sont mieux estimés par la méthode du plus proche voisin (PPV).

L'idée qui s'en suit est d'estimer les sites sans présence de crépidules par la méthode du PPV. Les sites restant seront estimés par la méthode cubique. Le résultat se trouve en figure 7.10.

Figure 7.9 : Corrélation entre valeurs observées et

Figure 7.10

5.4 Conclusion

Nous venons de voir quatre méthodes d'interpolations et il en existe encore un grand nombre. Il est difficile de préconiser une méthode plutôt qu'une autre. C'est pourquoi il est conseillé d'utiliser systématiquement la validation croisée qui donne les moyens de comparer les diverses méthodes. Les techniques déterministes ont l'avantage de pouvoir être automatisé, mais à l'inverse du krigeage (méthode stochastique), elles ne prennent pas en compte la structure spatiale du phénomène étudié. Leur but est avant tout d'aboutir à une carte esthétique des valeurs estimées en produisant des surfaces à aspect très lisse.

Conclusion

L'objectif de ce travail a été de créer une carte de la bathymétrie au toit du socle rocheux dans la partie orientale du golfe du Morbihan. A partir d'un semis de 461 points observation, il était demandé d'estimer la valeur (profondeur de la roche sous la couche sédimentaire) des points d'une grille de 3611 points. Une recherche bibliographique a permis d'étudier les bases des techniques d'interpolations spatiales et notamment celle du krigeage ordinaire. Cette dernière a été présentée d'un point de vue théorique et appliquée. Les fondements mathématiques du krigeage et de son étape préalable, l'analyse variographique, ont été examinés et discutés. Le choix de cette méthode a été motivé par le manque de données disponibles de la variable à interpoler. Le cokrigeage (généralisation multivariable du krigeage) est une des rares techniques d'interpolation qui permette d'intégrer des variables auxiliaires dans la modélisation. Nous avons pu ainsi profiter de l'information apportée par le modèle numérique de terrain, fait par le SHOM, pour estimer plus précisément la profondeur de la roche sous la couche sédimentaire. Toute fois, les estimations produites auraient pu être encore améliorées par d'autres variables auxiliaires comme la bathymétrie au début du XXème siècle ou la force du courant. Mais à l'heure actuelle, ces données n'existent pas dans un format numérique exploitable.

Cette application concrète a révélé l'importance de l'analyse variographique. Elle fait la force et la faiblesse du krigeage. Elle permet en effet à l'instar des méthodes déterministes, de modéliser la structure spatiale de la variable régionalisée (anisotropie, dépendance et corrélation spatiale entre les observations) ; mais elle ne peut pas être automatisée. Un mauvais ajustement du variogramme ne pourra jamais donner de bonnes estimations et entraîne par ailleurs une mauvaise approximation des erreurs. C'est un point délicat car l'avantage du krigeage par rapport à d'autres méthodes, est qu'il permet justement de mesurer la précision de l'estimation fournie.

Les méthodes déterministes, comme celles d'interpolation par partitionnement de l'espace, sont automatisées et peuvent par conséquent être facilement intégrées aux logiciels de système d'information géographique (SIG). Certaines permettent d'interpoler des variables qualitatives (méthode du plus proche voisin, méthode de Thiesen), ce que ne propose pas le krigeage. C'est ainsi que l'on a pu tracer une carte du territoire occupé par des crépidules sur la base d'un échantillon de prélèvements localisés.

Suivant le nombre de sites d'observation, leur dispersion géographique, les modalités de la variable observée, il se peut qu'une méthode d'interpolation soit préférable à une autre. Il n'en reste pas moins que l'utilisateur ne pourra pas faire l'économie de tester plusieurs méthodes d'interpolation et utiliser la validation croisée pour valider ses résultats.

Ainsi au fil des chapitres, des méthodes déterministes et une méthode stochastique, notamment géostatistique ont été approfondi, illustré et comparé. C'est ainsi que les objectifs du stage, à savoir proposer des méthodes pour créer un modèle numérique de terrain à partir d'un échantillon de données, ont été atteints.

Il aurait aussi été intéressant, d'étudier le suivi spatio-temporel de la couverture sédimentaire, ou encore analyser la propagation des crépidules dans le temps. Des cartes à différentes époques permettraient de mieux comprendre le déplacement des sédiments ou crépidules à l'échelle du golfe et de localiser les zones critiques ainsi que leurs origines. Malheureusement les données en notre possession ne sont pas assez détaillées pour profiter de ces techniques.

Bibliographie

Livres :

Michel ARNAUD & Xavier EMERY (2000) - Estimation et interpolation spatiale - Hermes

Peter A. BURROUGH & Rachael A. McDONNELLl (1998) - Principles of geographical information systems - 2cd edition - Clarendon Press

Noel A.C.CRESSIE (1993) - Statistics for spatial data - Revised Edition - Wiley Hubert JAYET (1993) - Analyse spatiale quantitative - Economica

A.G. JOURNEL & Ch.J. HUIJBREGTS (1993) - Mining Geostatistics - Academic Press George MATHERON (1963) - Traité de géostatistique appliquée - Technip

Jean-Marc ZANINETTI (2005) - Statistique spatiale - Hermes

Jean-Thierry LAPRESTE (2005) - Introduction à MATLAB - Ellipses

MapInfo Professional - Guide de l'utilisateur 7.0

MapInfo - Vertical Mapper v.3

Sites Internet :

Sophie BAILLARGEON (2005) - Le krigeage, mémoire présenté à la l'université de Laval, Québec - http://www.theses.ulaval.ca/2005/22636/22636.pdf

Laurent BERTINO et Hans WACKERNAGEL (2004) - Prévoir l'état de l'océan : L'assimilation de données intègre observations et modèles numériques - http://www.larecherche.fr/special/web/wxyz371.pdf

Edith GABRIEL (2004) - Détection des zones de changement abrupt dans les données spatiales, thèse présenté à l'université de Montpellier II - http://www.maths.lancs.ac.uk/~gabriel/papers/TheseGabriel.pdf

Yves GRATTON (2002) - Le krigeage, la méthode optimale d'interpolation spatiale - http://www.iag.asso.fr/articles/krigeage_juillet2002.htm

Nicolas JEANNEE (2005) - La Géostatistique : concepts et applications pour l'estimation de phénomènes spatialisés -

http://pastel.paristech.org/bib/archive/00001233/01/These_Jeannee.pdf

Caroline LAFLEUR (1998) - MATLAB Kriging Toolbox - http://globec.whoi.edu/software/kriging/V3/intro_v3.html

Gildas LE CORE (1998) - Outil d'analyse par krigeage - http://www.faocopemed.org/vldocs/ 0000028/publi15.pdf

Denis MARCOTTE - Cours de géostatistique minière & Cokriging with MATLAB - http://geo.polymtl.ca/

Nargess MEMARSADEGHI (2004) - Cokriging Interpolation - http://www.cs.umd.edu/~nargess/Publications/cokriging.pdf

Jean SCHWAENEN (1995) - Conversion de données géodésiques - http://www.astrolab.be/observations/20040906%20Grazing%20Occultation%20Double %20Star/ED50-WGS84.pdf

Rapport INERIS, LCSQA (Laboratoire Central de surveillance de la Qualité de l'Air) - Guide d'utilisation des méthodes de la géostatistique linéaire (2003) http://www.lcsqa.org/rapport/rap/prog2003/ineris/Etude14_1_guide_nelle_version.pdf

- Evaluation des incertitudes associées aux méthodes d'estimation géostatistiques (2003) http://www.lcsqa.org/rapport/rap/prog2003/ineris/Etude15_rapport_incertitude_avril2004.pdf






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Le don sans la technique n'est qu'une maladie"