WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Développement d'un modèle d'évolution de gènes.

( Télécharger le fichier original )
par ESAIE KUITCHE KAMELA
Ecole Nationale Supérieure Polytechnique de Yaoundé - Ingénieur de Conception en informatique 2016
  

Disponible en mode multipage

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Mémoire présenté en vue de l'obtention du diplôme d'Ingénieur de Conception de Génie Informatique

Développement d'un modèle

d'évolution de l'architecture

des gènes

PAR: Esaie KUITCHE KAMELA

Sous la direction de AïDA OUANGRAOUA, Professeur

MEMBRES DU JURY:

Président: CREPIN TIMOLEON KOFANE, Professeur Rapporteur: THOMAS BOUETOU BOUETOU, Professeur Examinateur: GEORGES KOUAMOU, Docteur

Date de soutenance : 26 septembre 2016

ii

DÉDICACE

Je dédie ce travail :

-- À ma très chère et tendre maman, Mme KAMELA née MAFOKAM Maria et à mon papa KAMELA Martin, qui grâce à leur concours ont toujours su me soutenir au prix de sacrifices incommensurables.

iii

REMERCIEMENTS

La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à qui je voudrais témoigner toute ma reconnaissance. Il s'agit notamment :

-- de mes encadreurs, les professeurs Aïda OUANGRAOUA et Thomas BOUETOU BOUETOU, pour leurs disponibilité, indications, supports et surtout leurs judicieux conseils, qui ont contribué à alimenter de manière soutenue ma réflexion.

-- du professeur Crepin TIMOLEON KOFANE et docteur Georges Edouard
KOUAMOU,
pour avoir accepté de faire partie de notre jury d'évaluation.

-- des enseignants de l'ENSPY en particulier ceux du Génie Informatique pour m'avoir fourni les outils nécessaires à la réussite de mes études d'ingénierie.

-- également de mes collègues du laboratoire CoBIUS : Safa JAMMALI, Jean-David AGUILAR, Sarah BELHAMITI, Nilson COIMBRA, et Michael LUCE pour nos discussions enrichissantes et constructives qui ont permis à l'amélioration de la qualité de mon travail.

-- de tous mes frères et soeur dont Livane MAMOUBÉ KAMELA, Thierry NGATEU KAMELA, Armand FOTSING KAMELA, Valery Martial TANKOU KAMELA ainsi qu'à mes parents papa Martin KA-MELA et maman Maria MAFOKAM.

-- de toute la communauté estudiantine de l'ENSPY, en particulier ceux de la Promotion 2016 du Génie Informatique dont leur dynamisme et humour indubitables ont été pour moi une source continue de courage.

-- de mes amis Floriane MEPOUBONG, Jean BIEMEWOU, Pascal

DONGMO, Alain TSAYO, vous tous qui ne cessez de me motiver. -- de la communauté camerounaise du Canada et spécialement celle de Sher-

brooke pour leur accueil et hospitalité.

-- de tous(tes) ceux et (celles) qui de près ou de loin, d'une manière comme d'une autre, pensent toujours à moi et que j'ai oublié de citer.

iv

RÉSUMÉ

Les analyses génomiques récentes ont révélé la capacité des gènes eucaryotes de produire plusieurs ARN et protéines. Ce mécanisme joue un rôle majeur dans la diversification fonctionnelle des gènes [1]. Cependant, les modèles de reconstruction actuelles de la phylogénie de famille de gènes sont basés sur une seule protéine de référence par gène, négligeant ainsi toutes les autres protéines alternatives produites par les gènes [31]. Ensuite, la réconciliation de l'arbre de gènes dans l'arbre d'espèces est utilisée pour déduire l'histoire évolutive des familles de gènes [12].

Le problème de la reconstruction de l'évolution de l'expression du gène a été introduit dans [2], où un modèle et un algorithme pour la reconstruction de la phy-logénie des transcipts, ayant pour entrée l'arbre de gènes et les structures des gènes. Ici, nous explorons une approche différente en utilisant la réconciliation. Nous proposons une extension de la réconciliation afin de reconstruire à la fois l'arbre des gènes et l'histoire de l'évolution de toutes les protéines produites par les gènes d'une famille de gènes, compte tenu de l'arbre d'espèces. Nous proposons un modèle d'évo-lution des protéines impliquant deux nouveaux types d'événements évolutif appelé "création de protéines" et "perte de protéines", en plus des événements classiques de spéciation, duplication et de perte de gènes.

Ce mémoire présente également les limites des méthodes actuelles et propose une méthode heuristique pour la reconstruction des arbres de gènes et d'arbres de protéines. Cette méthode est résumée dans un processus à sept étapes et vise à minimiser le coût de la réconciliation. Aussi, nous avons implémenté et appliqué ce modèle pour les familles de gènes de la base de données Ensembl, montrant que notre modèle permet de réduire le coût de la réconciliation des arbres de gènes reconstruits avec des arbres d'espèces, par rapport aux arbres de gènes Ensembl correspondants.

v

ABSTRACT

Recent genome analyses have revealed the ability of eukaryotic genes to produce multiple transcripts and proteins. This mechanism plays a major role in the functional diversification of genes [1]. Still, current reconstructions of gene family phylogenies are based on a single reference protein per gene, thus neglecting all other alternative products of genes [31].

The problem of reconstructing gene product evolution was first introduced in [2], where a model and an algorithm for transcript phylogeny reconstruction, given the gene tree and the gene exon structures, were introduced. Here, we explore a different approach using reconciliation. Gene trees reconciliation with species trees is used to infer the evolutionary history of gene families [12]. We propose an extension of the framework of reconciliation in order to reconstruct both the gene tree and the evolutionary history of all the proteins produced by the genes of a gene family, given the species tree. We propose a model of protein evolution involving two types of evolutionary event called "protein creation" and "protein loss", in addition to the classical speciation, gene duplication and gene loss events.

In this report, we introduce new reconciliation problems derived from the protein evolutionary model. We present some preliminary algorithmic results and a heuristic method for the joint reconstruction of gene trees and proteins trees. We applied this algorithm to gene families of the Ensembl database, showing that our framework allows to lower the reconciliation cost of the reconstructed gene trees with species trees, as compared to the corresponding Ensembl gene trees.

vi

Table des figures

2.1 Structure de la cellule chez les Eucaryotes 5

2.2 Illustration d'une molécule d'ADN d'une cellule d'eucaryote 6

2.3 Illustration des deux brins de l'ADN et de la relation de complémen-

tarité des différentes bases 7

2.4 Chaque chromosome contient plusieurs gènes. 7

2.5 Épissage alternatif d'un gène chez les eucaryotes 8

2.6 Code génétique 9

2.7 Exemple de deux séquences de nucléotides à aligner 11

2.8 Résultat d'alignement possible des deux séquences 11

2.9 Exemple d'alignement multiple de neuf séquences protéiques. Les colonnes d'acides aminés conservés dans l'alignement sont surlignées en

vert et bleu. Crédit : wikipedia. 11
2.10 Arbre d'espèce enraciné, montrant les trois domaines de vivant : bactéries, archées et eucaryotes, reliant les trois branches d'organismes

au dernier ancêtre universel (le tronc noir en bas de l'arbre) 12

2.11 Arbre d'espèces 13

2.12 Arbre de gènes non étiqueté 14

2.13 Résultat de la réconciliation de l'arbre de gène 2.14 avec l'arbre d'es-

pèce 2.11 14
2.14 Arbre de gènes étiquetés extrait de la réconciliation de l'arbre de gène

dans l'arbre d'espèce 15

3.1 Application de UPGMA 18

3.2 Matrice et graphe additif 19

3.3 Enraciner un arbre à l'aide d'un outgroup. 19

3.4 Méthode de Ensembl-Compara pour la construction des arbres de gènes 22

3.5 Produit de l'épissage alternatif 24

vii

TABLE DES FIGURES

4.1 Arbre de protéines étiqueté avec les événements de spéciation, dupli-

cation, création et perte 26

4.2 Exemple de réconciliation d'arbres de protéines avec arbre de gènes 28

4.3 Arbre de gènes étiqueté 29

4.4 arbre d'espèces 29

4.5 Processus de construction d'arbre de gènes à sept étapes 31

4.6 Extrait d'arbre de protéines 34

4.7 Les trois principales catégories d'algorithmes utilisées pour le regrou-

pement des séquences de protéines 35
4.8 Illustration présentant la différence entre le regroupement avec che-

vauchement et le regroupement sans chevauchement 36
4.9 Exemple d'application de l'algorithme de regroupement avec chevauchement sur sept protéines de cinq gènes. Les cinq gènes sont p1, p2 et p4 ayant chacun une protéine, et p3 et p5 ayant chacun deux

protéines. 37
4.10 Application de l'algorithme glouton de fusion de 6 arbres. Les arbres sont greffés à l'arbre de référence par des créations matérialisées sur

la figure par des triangles au fond noir. 42

5.1 Arbre de gènes de la famille MAG obtenu avec notre méthode . . . 44

5.2 Arbre de gène de la famille MAG obtenu de Ensembl 45

5.3 Arbre de gène de la famille FAM86 obtenu de notre modèle 46

5.4 Arbre de gène de la famille FAM86 obtenu de Ensembl 47

viii

Table des Matières

DÉDICACE ii

REMERCIEMENTS iii

RÉSUMÉ iv

ABSTRACT v

LISTE DES FIGURES vii

GLOSSAIRE xi

1

INTRODUCTION

1

 

1.1

Problématique

2

 

1.2

Hypothèses

2

 

1.3

Objectif général

2

 

1.4

Objectifs spécifiques

2

 

1.5

Résumé des contributions

3

 

1.6

Plan du mémoire

3

2

GÉNOMIQUE

4

 

2.1

Bio-informatique et biologie computationnelle

4

 
 

2.1.1 Cellule

4

 
 

2.1.2 Chromosome

5

 
 

2.1.3 Acide désoxyribonucléique (ADN)

5

 
 

2.1.4 Gène

6

 
 

2.1.5 Acide ribonucléique (ARN)

6

 
 

2.1.6 Protéine

7

 

2.2

Bases de données

8

ix

TABLE DES MATIÈRES

 

2.3

2.4

2.2.1 Bases de données existantes

2.2.2 Accès aux bases de données

Évolution des séquences biologiques

2.3.1 Recherche de similarités entre séquences

2.3.2 Construction d'arbres phylogénétiques

Conclusion sur la génomique

8

9

10 10 10 14

3

ÉTAT DE L' ART

16

 

3.1

Méthodes de construction d'arbres phylogénétiques

16

 
 

3.1.1 Énumération des arbres

16

 
 

3.1.2 Construction d'arbres à partir des distances entre feuilles . . .

17

 
 

3.1.2.1 UPGMA

17

 
 

3.1.2.2 Neighbour Joining

17

 
 

3.1.3 Les méthodes de parcimonie

20

 
 

3.1.4 Méthodes de maximum de vraisemblance

20

 

3.2

Construction des arbres de gènes

21

 
 

3.2.1 Exemple de construction d'arbres de gènes - EnsemblCompara

21

 
 

3.2.2 Limites des arbres de gènes actuels

23

 

3.3

Conclusion sur l'état de l'art

23

4

MÉTHODOLOGIE ET IMPLÉMENTATION

25

 

4.1

Modèle d'évolution des protéines et problème de réconciliation . . . .

25

 
 

4.1.1 Idée de base

25

 
 

4.1.2 Définitions formelles

26

 

4.2

Méthodologie : Processus à sept étapes

30

 
 

4.2.1 Étape 1 : Définition du jeu de données

30

 
 

4.2.2 Étape 2 : Alignement multiple de toutes les séquences codantes

32

 
 

4.2.3 Étape 3 : Calcul de la matrice de similarité

32

 
 

4.2.4 Étape 4 : Regroupement avec chevauchement des séquences

 
 
 

codantes

32

 
 

4.2.4.1 Définition du regroupement

33

 
 

4.2.4.2 Problème de regroupement dans le cas présent . . . .

33

 
 

4.2.4.3 Regroupement avec chevauchement hiérarchique . . .

35

 
 

4.2.5 Construction d'un groupe de référence

36

 
 

4.2.6 Étape 6 : Création des arbres de protéines pour les groupes . .

40

 
 

4.2.7 Étape 7 : Construction de l'arbre de protéines et de l'arbre

 
 
 

des gènes

41

 

4.3

Implémentation

41

X

TABLE DES MATIÈRES

5

ÉTUDE DE CAS

43

 

5.1

Étude de cas de la famille The Myelin-Associated Glycoprotein (MAG) 43

 

5.2

Étude de cas de la famille FAM86 46

6

CONCLUSION GÉNÉRALE

48

xi

Glossaire

ADN Acide Désoxyribonucléique.

API Application Programming Interface. ARN Acide Ribonucléique.

BLAST Basic Local Alignment Search Tool.

CoBIUS Complexité Biologique & Informatique de l'Université de Sherbrooke. FTP File Transfer Protocol.

MACSE Multiple Alignment of Coding SEquences. MUSCLE Multiple Sequence Alignment by log-Expectation.

NJ Neighbour joining.

TreeBest Tree Building guided by Species Tree.

UPGMA Unweighted Pair Group Method with Arithmetic Mean.

1

CHAPITRE UN

INTRODUCTION

L'aboutissement du projet d'annotation du génome humain en 2003 a permis aux scientifiques de mieux comprendre les processus biologiques qui se déroulent dans les cellules des êtres vivants au travers de l'Acide Désoxyribonucléique (ADN). Cet ADN est l'entité qui contient toutes les informations régissant le développement, le fonctionnement et la reproduction des êtres vivants. Ces nouvelles connaissances ont eu le mérite de susciter un regain d'attention de la part du public et des chercheurs.

L'ADN est composé de gènes, supports de l'information, qui sont la base de la structure et du fonctionnement des génomes. Il est donc naturel que nous nous intéressions tout particulièrement à ce programme génétique qui détermine notre fonctionnement.

Une bonne caractérisation et compréhension du fonctionnement des gènes sera d'un apport considérable dans des domaines tels que l'industrie pharmaceutique ou encore des traitements contre les cancers. Les recherches dans ces domaines constituent une tâche collective faisant appel à des collaborations multidisciplinaires.

De nombreux travaux en bio-informatique ont été réalisés dans le but de proposer des modèles d'évolution des gènes, tenant de diverses caractéristiques séquentielles ou structurales des gènes. Ce mémoire se focalise principalement à l'analyse des limites de ces modèles et propose un nouveau modèle d'évolution basé sur l'expression des gènes, suivi d'un algorithme pour la reconstruction de l'histoire évolutive des gènes.

Ce mémoire qui décrit des approches computationnelles pour résoudre une problématique issue des sciences de la vie aura la particularité de marquer des temps d'arrêt pour introduire les notions biologiques sous-jacentes.

2

CHAPITRE 1. INTRODUCTION

1.1 Problématique

Chez les eucaryotes1, il est maintenant reconnu que chaque gène de l'ADN d'une espèce peut produire plusieurs protéines et que les gènes des organismes eucaryotes peuvent être classés en familles de gènes homologues 2. La problématique soulevée par ce mémoire est de définir un modèle d'évolution et un algorithme associé pour reconstruire l'histoire évolutive d'une famille de gènes (un ensemble de gènes homologues) en prenant en compte toutes les protéines issues de chacun de ces gènes. Cette approche diffère de celle des méthodes actuelles qui ne considèrent qu'une seule protéine par gène, conduisant ainsi souvent à des arbres (phylogénies) de gènes erronés.

1.2 Hypothèses

Nous admettons dans nos travaux:

~ L'hypothèse de la théorie de l'évolution [5], qui stipule que tous les êtres vivants sont issus d'un ancêtre commun;

~ Les arbres d'espèces utilisés dans les applications de nos algorithmes sont corrects.

1.3 Objectif général

L'objectif général est de proposer un modèle d'évolution, un algorithme associé, ainsi qu'une implémentation de l'algorithme pour la reconstruction de l'évolution d'une famille de gènes en tenant compte de toutes les protéines de chaque gène.

1.4 Objectifs spécifiques

~ Modéliser le mécanisme de production de plusieurs protéines par un même gène;

~ Modéliser l'évolution de l'ensemble des protéines au sein d'une famille de gènes;

1. les eucaryotes sont un domaine du vivant regroupant toutes les espèces, unicellulaires ou pluricellulaires, qui se caractérisent par la présence d'un noyau dans leurs cellules. Il s'oppose aux domaines des procaryotes.

2. les gènes homologues sont des gènes qui sont issus d'un gène ancêtre commun qui a divergé par la suite. Ces gènes peuvent appartenir à la même espèce ou non.

3

CHAPITRE 1. INTRODUCTION

-- Proposer une modélisation globale suivie d'un algorithme de reconstruction de l'évolution;

-- Étudier un cas et comparer les résultats obtenus avec ceux issus de méthodes existantes.

1.5 Résumé des contributions

Nous avons proposer un modèle d'évolution des protéines dans les arbres de gènes avec nouveaux événements (création et pertes de protéines), puis définit du problème d'optimisation (Entrée : sous-arbres de protéines (groupes); arbre d'espèces; Sortie: arbre global des protéines, et arbre des gènes), par la suite nous avons proposer une heuristique pour résoudre le problème et enfin nous avons réaliser une implémentation et effectuer une étude de cas.

1.6 Plan du mémoire

Le mémoire est structuré autour de six chapitres. Le premier chapitre introduit le problème de construction des arbres de gènes et présentera les objectifs à atteindre. Le chapitre 2 décrit les notions biologiques et bio-informatiques nécessaires à la compréhension du sujet. Le chapitre 3 est l'état de l'art, et présente les différents modèles, méthodes existantes pour la construction des arbres phylogénétiques. Le chapitre 4 quant à lui présente les modèles et méthodes que nous avons développés, ainsi que l'implémentation que nous avons réalisée. Le chapitre 5 est dédié à l'étude de cas et le chapitre 6 conclut le mémoire et pose des axes d'amélioration.

4

CHAPITRE DEUX

GÉNOMIQUE

Ce chapitre a pour but de fournir les notions biologiques et bio-informatiques de base nécessaires pour mieux appréhender le problème d'optimisation que nous considérons dans ce mémoire. On commercera par définir la bio-informatique et la biologie computationnelle. Ensuite on définira, par ordre d'inclusion, les notions de cellules, chromosomes, ADN, gènes et protéines. On finira en présentant quelques usages fréquents de ces types d'objets biologiques en biologie computationnelle.

2.1 Bio-informatique et biologie computationnelle

La biologie est la science du vivant s'intéressant en particulier à l'origine, la croissance, la reproduction, la structure et le comportement des êtres vivants.

La bio-informatique se définit comme l'application de l'informatique à la biologie. Notamment, il s'agit d'utiliser des notions et ressources informatiques pour faciliter la compréhension et la manipulation de données biologiques.

La biologie computationnelle quant à elle vise le développement de modèles et algorithmes s'inspirant des processus biologiques afin de répondre à des questions issues de la biologie.

2.1.1 Cellule

La cellule est l'unité structurale, fonctionnelle et reproductive constituant toute ou partie des êtres vivants, à l'exception des virus. On distingue deux types d'orga-nisme. D'une part, il y a les organismes unicellulaires qui sont constitués d'une seule cellule. C'est le cas des bactéries ou des levures. D'autre part, il y a les organismes multicellulaires composés de plusieurs cellules tels que l'humain. Tout être vivant

5

CHAPITRE 2. GÉNOMIQUE

est composé de cellules dont la structure fondamentale est commune [22, 26]. La figure 2.1 illustre une cellule d'eucaryote.

Crédit :fr.bio.wikia.com/wiki/Cellule_Eucaryote

FIGURE 2.1 - Structure de la cellule chez les Eucaryotes

2.1.2 Chromosome

Le chromosome est une structure cellulaire microscopique représentant le support physique du matériel génétique. Tous les êtres vivants disposent des chromosomes en nombre variable propre à chaque espèce. Par exemple, chaque cellule humaine possède 22 paires de chromosomes homologues numérotés de 1 à 22, et une paire de chromosomes sexuels, soit un total de 23 paires. La figure 2.2 présente de manière explicite la relation entre cellule, chromosome, ADN et gène, chez les eucaryotes. [22, 26]

2.1.3 Acide désoxyribonucléique (ADN)

L'ADN est une macromolécule biologique constituant les chromosomes des cellules. L'ADN contient toute l'information génétique, appelée génome, permettant le développement, le fonctionnement et la reproduction des êtres vivants.

Les molécules d'ADN sont formées de deux brins antiparallèles enroulés l'un autour de l'autre pour former une double hélice comme présentée sur la figure 2.2. Chacun de ces brins est un polymère constitué d'une succession d'acides nucléiques. Chaque nucléotide est caractérisé par une base azotée, adénine (A), cytosine (C), guanine (G) ou thymine (T). L'ADN est représenté sous la forme d'une séquence sur un alphabet de quatre lettres correspondant à l'un de ses brins. Exemple : ATTCCGATCGGAAATTGC.

6

CHAPITRE 2. GÉNOMIQUE

Crédit :fr.wikipedia.org/wiki/Acide_desoxyribonucleique

FIGURE 2.2 - Illustration d'une molécule d'ADN d'une cellule d'eucaryote

2.1.4 Gène

La définition de gène a évolué au cours des dernières années. La définition générale repose sur les trois aspects ci-dessous [14] :

1. Le gène est une portion de séquence d'ADN générant des produits fonctionnels (ARNs ou protéines).

2. Le gène est la principale composante utile de l'ADN.

3. Les gènes sont le support de l'évolution, transmis aux générations suivantes avec l'ensemble de mutations qu'ils subissent.

2.1.5 Acide ribonucléique (ARN)

L'acide ribonucléique (ARN) est une copie d'un gène composée d'un seul brin d'acides nucléiques. Il existe deux principaux types d'ARN. Les ARNs codants destinés à être lus par des ribosomes pour permettre la synthèse de protéines. Les ARNs non-codants sont directement impliqués dans des fonctions au sein de la cellule.

Chez les eucaryotes, l'épissage [3, 15] est un processus par lequel, les ARNs transcrits à partir des gènes subissent des étapes de coupure et ligature qui conduisent à l'élimination de certains segments pour aboutir à un ARN final dit mature (ARNm). Les segments d'ARN conservés s'appellent des exons et ceux qui sont éliminés s'ap-pellent des introns. Un gène eucaryote peut donc être redéfini comme une suite d'exons et d'introns alternés. L'épissage alternatif est un mécanisme qui permet à un gène de produire plusieurs ARNm en générant différentes combinaisons des exons [3, 15, 4].

7

CHAPITRE 2. GÉNOMIQUE

Crédit :https : // www.bioutils.ch/protocoles/9extractiondadn

FIGURE 2.3 - Illustration des deux brins de l'ADN et de la relation de complémentarité des différentes bases.

FIGURE 2.4 - Chaque chromosome contient plusieurs gènes.
Crédit : U.S. National Library of Medicine

2.1.6 Protéine

Un des enjeux majeurs de l'ère postgénomique 1 est la description et la caractérisation fonctionnelle de l'ensemble des protéines exprimées par les gènes d'un

1. Le projet d'annotation du génome humain débute en 1993 et voit la participation de milliers de chercheurs de par le monde, dix ans après il est arrivé au terme et l'ère postgénomique débute.

8

CHAPITRE 2. GÉNOMIQUE

Crédit :https : // fr.wikipedia.org/wiki/Epissage

FIGURE 2.5 - Épissage alternatif d'un gène chez les eucaryotes

organisme.

Une protéine est un polymère constitué d'une succession d'acides aminés. La traduction [16] est le processus biologique permettant de traduire une séquence d'ARNm en séquence d'acides aminés suivant le code génétique présenté à la figure 2.6. Ce code universel (identique pour tous les êtres vivants) spécifie 20 acides aminés, et permet d'associer à tout triplet de nucléotides, un acide aminé. Une protéine est représentée sous la forme d'une séquence sur un alphabet de 20 lettres correspondant aux acides aminés du code génétique. Par exemple, la séquence d'ARNm ci-après est traduite en la séquence d'acides aminés ci-dessous.

>ARNm

ATGTTCCTGCCGCTGTTCTTGGCCATGCTGTGGGGCGGGTCGCAGGCTCTGGACTCATTC >Protéines

MFLPLFLAMLWGGSQALDSF

2.2 Bases de données

2.2.1 Bases de données existantes

Des bases de données biologiques ont été développées pour faciliter le stockage et l'accès aux données biologiques de taille volumineuse. Ces bases de données sont de deux grands types, les bases de données primaires qui contiennent les données provenant des résultats expérimentaux et les bases de données secondaires qui contiennent

9

CHAPITRE 2. GÉNOMIQUE

Crédit :http : // raymond.rodriguez1.free.fr/Textes/1s13.htm

FIGURE 2.6 - Code génétique

les résultats de l'analyse des bases de données primaires. On distingue trois principales bases de données primaires à avoir :

1. DNA Data Bank of Japan (National Institute of Genetics) Site web : http://www.ddbj.nig.ac.jp/

2. EMBL (European Bioinformatics Institute) Site web : http://www.ebi.ac.uk/

3. GenBank (National Center for Biotechnology Information) Site web : http://www.ncbi.nlm.nih.gov/genbank/

Il existe une panoplie de bases de données secondaires qui diffèrent suivant l'usage auquel elles sont destinées. Pour nos travaux, nous avons utilisé Ensembl, qui est l'une des base de données génomique secondaire la mieux annotée pour les eucaryotes.

2.2.2 Accès aux bases de données

Afin de faciliter la récupération et la manipulation des données répertoriées dans les bases de données, différentes méthodes d'accès sont généralement proposées :

1. via des interfaces web (navigateurs)

10

CHAPITRE 2. GÉNOMIQUE

2. via des Datamart2

3. via des accès directs aux bases de données en lecture

4. via FTP

5. via des API spécialisées

La section suivante présente différents modèles, algorithmes et notions de biologie computationnelle, liées aux objets biologiques précédemment décrits.

2.3 Évolution des séquences biologiques

Après acquisition des séquences biologiques (gènes, ADN, ARN, protéines), ces données biologiques sont ensuite traitées pour en extraire des informations et des connaissances.

2.3.1 Recherche de similarités entre séquences

Une opération fréquente en bio-informatique est la recherche de similarité entre séquences dans le but de déterminer les régions conservées entre ces séquences. Plusieurs techniques de recherche de similarité existent parmi lesquelles on peut citer l'alignement des séquences qui est une façon d'agencer les séquences d'acides nucléiques ou d'acides aminés afin d'identifier des régions de similarité qui peuvent être une conséquence de relations fonctionnelles, structurales ou d'évolution entre les séquences. Il s'agit d'un problème d'optimisation consistant à trouver la meilleure combinaison des nucléotides ou des acides aminés de chacune des séquences qui va maximiser la similarité entre elles. Les figures 2.7 et 2.8 montrent un exemple d'ali-gnement de deux séquences nucléiques. La figure 2.9 montre un exemple d'aligne-ment multiple de neuf séquences protéiques.

2.3.2 Construction d'arbres phylogénétiques

Phylogénie. Charles Darwin a posé les bases de la théorie de l'évolution [5]. La phylogénie se définit comme l'étude de l'histoire de l'évolution d'un groupe de gènes ou d'espèces. L'analyse phylogénétique est fréquemment réalisée pour découvrir comment des groupes d'organismes ont évolué au fil du temps depuis un ancêtre commun. De nombreux modèles ont été proposés pour reconstruire l'histoire évolutive des êtres vivants [25]. On peut citer entre autres :

2. Un datamart est un sous-ensemble d'un data warehouse destiné à fournir des données aux utilisateurs, et souvent spécialisé vers un groupe ou un type d'affaires.

11

CHAPITRE 2. GÉNOMIQUE

FIGURE 2.7 - Exemple de deux séquences de nucléotides à aligner

FIGURE 2.8 - Résultat d'alignement possible des deux séquences

FIGURE 2.9 - Exemple d'alignement multiple de neuf séquences protéiques. Les colonnes d'acides aminés conservés dans l'alignement sont surlignées en vert et bleu. Crédit : wikipedia.

-- Les modèles basés sur les réseaux phylogénétiques [24, 18, 19] dans lesquels on suppose que l'évolution peut-être, représentée par un graphe;

-- Les modèles basés sur les arbres phylogénétiques qui s'appuient sur le concept de base de la descendance avec modification [11, 17, 28]. Cette représentation est la plus répandue et est celle considérée dans ce mémoire. Un arbre phylogénétique est un arbre enraciné, étiqueté tel que :

-- ses feuilles représentent les espèces ou gènes étudiés;

-- ses noeuds internes représentent les ancêtres virtuels ayant divergé;

-- ses arêtes représentent les liens de descendance entre les espèces (ou gènes).

Un arbre phylogénétique représente les relations évolutives d'un ensemble d'espèces ou de gènes. Il permet, de représenter comment à partir d'un ancêtre

12

CHAPITRE 2. GÉNOMIQUE

commun qui est la racine de l'arbre, on a obtenu toutes les espèces (ou gènes) qui sont aux feuilles de l'arbre.

Les arbres d'espèces. L'arbre d'espèces est un arbre phylogénétique qui présente les relations évolutives d'un ensemble d'espèces. L'évolution des espèces depuis une espèce ancestrale commune se fait par un événement appelé la spéciation 3. La figure 2.10 présente l'arbre d'espèces, communément accepté, des trois grandes familles du vivant.

Crédit :https : // fr.wikipedia.org/wiki/Arbrephylogenetique

FIGURE 2.10 - Arbre d'espèce enraciné, montrant les trois domaines de vivant : bactéries, archées et eucaryotes, reliant les trois branches d'organismes au dernier ancêtre universel (le tronc noir en bas de l'arbre)

Les arbres de gènes. L'arbre de gènes est un arbre phylogénétique qui décrit comment un gène particulier appartenant à une espèce ancestrale commune a évolué au fil du temps. L'évolution d'un gène se fait notamment à travers trois événements: la duplication de gènes 4, la spéciation de gènes qui résulte de la spéciation d'espèces et la perte de gènes.

3. La spéciation est le processus évolutif par lequel deux nouvelles espèces vivantes apparaissent à partir d'une espèce ancestrale.

4. La duplication est une mutation génétique aboutissant au dédoublement d'un gène dans le génome d'une espèce.

13

CHAPITRE 2. GÉNOMIQUE

Réconciliation d'arbre de gènes avec arbre d'espèces. La réconciliation d'un arbre de gènes avec un arbre d'espèces est une imbrication de l'arbre des gènes dans l'arbre d'espèces qui permet de représenter l'histoire évolutive d'une famille de gènes à l'intérieur de l'arbre d'espèces. La réconciliation permet d'étiqueter les noeuds de l'arbre de gènes comme duplication ou spéciation. Les gènes d'une famille de gènes sont tous homologues (descendants d'un même gène ancestral). Deux gènes d'une famille sont soit paralogues5 ou orthologues. Par définition, deux gènes orthologues appartiennent toujours à deux espèces différentes.

Le problème de réconciliation est un problème d'optimisation qui consiste, à trouver une réconciliation de l'arbre des gènes dans l'arbre d'espèces qui minimisent les différences entre les deux arbres, étant donnés un arbre de gènes et un arbre d'espèces. Ces différences sont évaluées comme le nombre de duplications et de pertes de gènes induits par la réconciliation dans l'arbre des gènes, les spéciations étant communes aux deux arbres.

Une réconciliation optimale de l'arbre de gènes décrit à la figure 2.12 avec l'arbre d'espèces décrit à la figure 2.11 est présentée à la figure 2.13. Après cette réconciliation on obtient l'arbre de gènes étiqueté présenté à la figure 2.14.

FIGURE 2.11 - Arbre d'espèces

5. Deux gènes sont paralogues (resp. orthologues) lorsque leur plus proche ancêtre commun dans l'arbre des gènes a subi une duplication (resp. spéciation).

14

CHAPITRE 2. GÉNOMIQUE

FIGURE 2.12 - Arbre de gènes non étiqueté

FIGURE 2.13 - Résultat de la réconciliation de l'arbre de gène 2.14 avec l'arbre d'espèce 2.11

2.4 Conclusion sur la génomique

Ce chapitre a défini la bio-informatique et la biologie computationnelle, puis a poursuivi en introduisant les notions de biologie et biologie computationnelle né-

15

CHAPITRE 2. GÉNOMIQUE

FIGURE 2.14 - Arbre de gènes étiquetés extrait de la réconciliation de l'arbre de gène dans l'arbre d'espèce

cessaires pour la compréhension du sujet. La dernière partie du chapitre a présenté deux grands types de traitement informatique sur les objets biologiques qui sont la recherche de similarité entre séquences et l'évolution des séquences biologiques.

Les concepts de base étant présentés, le chapitre suivant va s'atteler à présenter un état de l'art des méthodes computationnelles actuelles pour la construction des arbres phylogénétiques, en présentant les limites de ces approches pour lesquelles nous allons proposer de nouvelles solutions.

16

CHAPITRE TROIS

ÉTAT DE L' ART

Les différents processus biologiques sur lesquels s'appuie la phylogénie ont été introduits au chapitre précédent. Ce présent chapitre a pour objectif de faire un état des lieux de l'art des solutions qui sont actuellement utilisées pour reconstruire la phylogénie des gènes.

Nous commencerons par présenter les approches générales de construction d'arbres phylogénétiques puis, plus spécifiquement, celles de construction des arbres de gènes. Nous relèverons les limites des méthodes actuelles qui seront corrigées par la suite.

Il faut cependant noter que dans ce chapitre, tous les arbres phylogénétiques considérés seront binaires, c'est-à-dire que tous les noeuds internes d'un arbre possèdent deux enfants. Cette propriété ne constitue pas une limitation, car, tout arbre non binaire pourra être approximé par un arbre binaire.

3.1 Méthodes de construction d'arbres phylogénétiques

Il existe plusieurs techniques de construction d'arbres phylogénétiques. Ces méthodes basées sur des problèmes d'optimisation reposent sur plusieurs critères à savoir : (i) la distance entre les séquences, (ii) la parcimonie et (iii) vraisemblance. Nous commencerons par présenter la méthode naïve consistant à énumérer toutes les topologies d'arbre possible, puis nous décrirons les trois méthodes basées sur les critères ci-dessus.

3.1.1 Énumération des arbres

Cette méthode consiste à générer toutes les topologies d'arbre possibles étant donné un ensemble de gènes qui sont les feuilles de l'arbre, pour ensuite choisir parmi ces topologies, un arbre minimisant un critère donné. Par récurrence, on peut

17

CHAPITRE 3. ÉTAT DE L' ART

démontrer que pour n gènes, il existe C(n) = (2n-3)!

22n-2(n-2)! topologies d'arbre binaire

possibles.

Cette méthode a le mérite de générer tous les arbres possibles pour un ensemble de gènes donné. Néanmoins, son utilisation demeure limitée à cause de sa complexité qui croit à un rythme exponentiel en fonction du nombre de feuilles (C(30)estsuprieur1038). Conséquemment, la recherche exhaustive ne peut se faire sur des données de grandes tailles.

3.1.2 Construction d'arbres à partir des distances entre feuilles

Cette approche prend en entrée une matrice de distance donnant les distances entre les gènes deux à deux, puis construit progressivement l'arbre phylogénétique des feuilles de l'arbre vers la racine. Nous décrivons ci-après deux méthodes basées sur cette approche [11] : la méthode Unweighted Pair Group Method with Arithmetic Mean (UPGMA) et la méthode Neighbour Joining (NJ).

3.1.2.1 UPGMA

UPGMA est un algorithme permettant, à partir d'une matrice de distance de construire un arbre enraciné en un sommet qui est le plus distant des feuilles. Cette méthode est simple et intuitive.

Les principales étapes de UPGMA sont:

1. Initialiser l'ensemble des noeuds (groupes 1) de l'arbre à l'ensemble des gènes

2. De façon itérative, jusqu'à ce qu'il ne reste plus qu'un groupe :

~ Créer un nouveau groupe regroupant deux groupes les plus proches et retirer ces deux groupes de la liste des groupes.

~ Ajouter dans l'arbre un nouveau noeud correspondant au nouveau groupe, comme parent des deux noeuds correspondant aux groupes retirés.

L'arbre est construit des feuilles vers la racine, en ajoutant un noeud à chaque itération. À chaque étape, on définit la distance entre deux groupes Ci et Cj comme >

suit : dij = 1 pECi,qECj dpq. Si Ck = Ci ? Cj la distance entre Ck et un autre

|Ci||Cj|

groupe Cl est donnée par la formule récursive suivante : dklj = dil|Ci|+djl|Cj|

|Ci|+|Cj| .

La figure 3.1 montre un exemple d'application de UPGMA 3.1.2.2 Neighbour Joining

Neighbour Joining est un autre algorithme dédié à la construction des d'arbres phylogénétiques tenant compte des différences de vitesse d'évolution sur les branches

1. Un groupe est un ensemble de données partageant des caractéristiques communes.

CHAPITRE 3. ÉTAT DE L' ART

18

FIGURE 3.1 - Application de UPGMA

de l'arbre. La prise en compte des vitesses d'évolution utilise la notion d'arbre additif.

Un arbre phylogénétique non-enraciné sur n gènes est additif pour une matrice de distance D symétrique entre les n gènes si les arcs de l'arbre sont étiquetés avec des distances de sorte que pour chaque paire de feuilles (i, j) dans l'arbre, la somme des distances des arêtes du chemin de i à j est égale à D(i, j).

La méthode NJ se base sur l'hypothèse qu'il existe un arbre additif pour la matrice de distance donnée comme entrée, et produit un tel arbre non enraciné.

Les principales étapes de NJ sont :

1. Initialiser l'ensemble des noeuds (groupes) de l'arbre à l'ensemble des gènes

2. De façon itérative, jusqu'à ce qu'il ne reste plus qu'un groupe : ~ Créer un nouveau groupe Ck regroupant deux groupes Ci et Cj minimisant

19

CHAPITRE 3. ÉTAT DE L' ART

FIGURE 3.2 - Matrice et graphe additif

1 P

la formule d(i,j) - (ri +rj) avec ri = k?L dik, et retirer ces deux

|L| - 2

groupes de la liste des groupes.

~ Ajouter dans l'arbre un nouveau noeud correspondant au nouveau groupe Ck, comme parent des deux noeuds correspondant aux groupes retirés, de sorte que les nouvelles arêtes de l'arbre sont étiquetés dik = 1 2(dij +ri -rj) et djk = dij - dik.

~ Pour chaque autre groupe Cm, recalculer la distance entre Cm et Ck suivant la formule: dkm = 1 2(dim + djm - dij)

La méthode NJ construit un arbre non-enraciné. Pour enraciner cet arbre, il suffit d'ajouter un gène très éloigné des autres gènes considérés (outgroup). La position du branchement de ce gène sur l'arbre indique la position de la racine de l'arbre.

FIGURE 3.3 - Enraciner un arbre à l'aide d'un outgroup.

Une autre stratégie d'enracinement d'arbre est de considérer comme racine le milieu d'un plus long chemin dans l'arbre (hypothèse de l'horloge moléculaire).

20

CHAPITRE 3. ÉTAT DE L' ART

3.1.3 Les méthodes de parcimonie

L'approche par parcimonie consiste à rechercher un arbre qui minimise le nombre de modifications évolutives (mutations, délétions, ou insertions) pour passer d'une séquence à l'autre sur les branches de l'arbre. Les deux principaux algorithmes permettant de calculer le nombre de modifications évolutives induites par un arbre donné sont celui de Fitch [13] et Sankoff [6].

Le principe de l'algorithme classique de Fitch est le suivant :

1. Initialiser le nombre de modifications C à 0.

2. Pour chaque noeud k de l'arbre, en allant des feuilles vers la racine (parcours

postfixe des noeuds)

~ Si k est une feuille, poser Rk = {étiquette de k}

~ Si k n'est pas une feuille,

~ Calculer Inters = Ri n R , où i, j sont des enfants de k ;

~ Si Inters == Ø, poser Rk = Ri U R et incrémenter C de 1

~ Sinon, poser Rk = Inters

L'algorithme de parcimonie pondérée de Sankoff est plus général que celui de Fitch. Il ne calcule pas juste le nombre de modifications, mais considère un poids S(a; b) pour la substitution d'une lettre a en b. Il étiquette les noeuds internes de l'arbre de sorte à minimiser le poids total de l'arbre. L'étiquetage des noeuds est déduit par récurrence, en calculant l'étiquette d'un noeud à partir des étiquettes de ses noeuds enfants.

Les principales étapes des méthodes de parcimonie sont :

1. Calculer un alignement multiple des séquences (gènes)

2. Pour chaque colonne de l'alignement, trouver un arbre minimisant le nombre de modifications évolutives pour cette colonne sur les branches de l'arbre. La recherche de l'arbre se fait par énumération des arbres, ou en utilisant des heuristiques d'exploration de l'espace de recherche qui évite d'énumérer tous les arbres.

3. À partir de l'ensemble des arbres obtenus, trouver un super-arbre qui minimise la somme totale des nombres de modifications évolutives pour toutes les colonnes de l'alignement.

3.1.4 Méthodes de maximum de vraisemblance

Le maximum de vraisemblance est une méthode probabiliste permettant de trouver la séquence de noeuds internes la plus probable. Les hypothèses de cette méthode sont : Le processus de substitution d'une séquence en une autre suit un modèle

21

CHAPITRE 3. ÉTAT DE L' ART

probabiliste dont on connaît l'expression mathématique. Les sites évoluent indépendamment les uns des autres; Les sites évoluent selon la même loi. Les taux de substitution ne changent pas au cours du temps le long d'une branche. Ils peuvent varier entre branches.

3.2 Construction des arbres de gènes

Les arbres de gènes présentés dans la littérature sont tous des approximations de la réalité car la modélisation qui conduit à leur construction ne prend pas en compte toute la structure des gènes. En particulier, les méthodes de construction d'arbres de gènes actuelles ne prennent en compte qu'une seule des protéines (généralement la plus longue) de chaque gène. Une partie des informations contenues dans les gènes est ainsi négligée.

3.2.1 Exemple de construction d'arbres de gènes - Ensembl-Compara

Les arbres de gènes de la base de données Ensembl sont construits suivant une méthode décrite dans [31]. La figure 3.4 décrit cette méthode composée de sept étapes pour la construction des arbres de gènes.

Nous détaillons ci-après le principe des sept étapes de la méthode de Ensembl-Compara pour la construction des arbres de gènes.

1. Définition des données de protéines : Pour chaque gène codant dans une espèce, considérer la plus longue protéine produite par le gène.

2. Basic Local Alignment Search Tool Protein (BLASTP)2 : Chaque protéine est interrogée à l'aide de WU BLASTP contre la base de données de protéines de chaque espèce, y compris celle de l'espèce à laquelle la protéine appartient.

3. Construction du graphe : La relation entre deux protéines est conservée si elle satisfait soit à un meilleur partenaire réciproque par BLASTP ou à un score de BLASTP supérieur à 0.33. On construit alors un graphe dans lesquels, les noeuds correspondent aux protéines et les arêtes aux relations conservées.

4. Regroupement : On extrait à partir du graphe, les composantes connexes. Chaque composante connexe représente une famille de gènes. Si une famille

2. BLASTP est un programme d'alignement de protéines permettant, étant donnée une séquence protéique, d'autres séquences similaires à elle dans une base de données de séquences protéiques.

22

CHAPITRE 3. ÉTAT DE L' ART

FIGURE 3.4 - Méthode de Ensembl-Compara pour la construction des arbres de gènes

23

CHAPITRE 3. ÉTAT DE L' ART

de gènes a plus de 750 membres, les étapes 3 et 4 sont répétées en augmentant le seuil de conservation de relation entre deux protéines.

5. Alignements multiples : Les protéines d'une même famille de gènes sont alignées à l'aide du programme "Multiple Sequence Comparison by Log-Expectation" (MUSCLE) [8, 9] pour obtenir un alignement multiple.

6. Arbre de gène et réconciliation : L'alignement multiple des protéines d'une famille de gènes et l'arbre des espèces sont donnés en entrée au programme de construction d'arbres "Tree Building guided by Species Tree" (TreeBeST) 4, pour construire l'arbre des gènes de la famille. L'arbre de gènes est alors réconcilié avec l'arbre d'espèces afin d'étiqueter comme duplication ou spéciation.

7. Inférence des orthologues et paralogues : Les arbres de gènes obtenus sont finalement aplatis en des tables d'orthologues et de paralogues décrivant les relations d'homologie entre paires de gènes.

De manière générale, tous les arbres de gènes disponibles dans les bases de données et dans la littérature sont construits sur ce modèle.

3.2.2 Limites des arbres de gènes actuels

Dans cette section, nous illustrons les limites des arbres de gènes construits par la méthode d'Ensembl Compara. Suivant cette méthode, seule la protéine 3 du gène décrit dans la figure 3.5 devrait être considérée pour la construction de l'arbre des gènes de la famille à laquelle le gène appartient. En effet, cette protéine est la plus longue. Elle possède quatre exons sur les six que compte le gène. Cependant, bien qu'étant la plus longue, elle ne couvre pas les exons E2 et E3 qui ne seront jamais considérés par la suite, alors qu'ils sont présents dans les protéines 1 et 2 qui sont produites par le même gène.

3.3 Conclusion sur l'état de l'art

En résumé, nous avons passé en revue les méthodes les plus utilisées pour la construction d'arbres phylogénétiques. En particulier, pour les arbres de gènes, nous

3. MUSCLE est un programme d'alignement multiple de séquences. MUSCLE peut aligner des centaines de séquences en quelques secondes. http://www.drive5.com/muscle/

4. TreeBeST est un programme polyvalent qui construit, manipule et affiche des arbres phylogénétiques. Il est particulièrement destiné à la construction d'arbres de gènes avec un arbre d'espèce connu.

CHAPITRE 3. ÉTAT DE L' ART

24

FIGURE 3.5 - Produit de l'épissage alternatif

avons expliqué les limites des méthodes de construction actuelles qui font abstraction d'informations importantes portant sur la structure des gènes. Dans le chapitre suivant, nous allons proposer une approche qui permet d'adresser ce problème.

25

CHAPITRE QUATRE

MÉTHODOLOGIE ET

IMPLÉMENTATION

Ce chapitre présente la méthodologie que nous proposons pour la construction des arbres de gènes en tenant compte de toutes les protéines issues des gènes. D'abord, nous introduisons formellement un nouveau modèle d'évolution de protéines à l'intérieur d'un arbre de gènes. Ensuite, nous étendons la notion de réconciliation afin de définir un problème d'optimisation qui consiste à reconstruire un arbre de protéines et un arbre de gène optimal, étant donné l'arbre des espèces. Nous terminons, en proposant une heuristique pour la résolution de ce problème, et une implémentation de cette heuristique.

4.1 Modèle d'évolution des protéines et problème de réconciliation

Dans un premier temps, nous commençons par introduire l'idée de base du nouveau modèle d'évolution de protéines que nous proposons. Puis, dans un second temps, nous décrirons formellement le modèle et les problèmes d'optimisation associés.

4.1.1 Idée de base

Le modèle d'évolution de protéines que nous proposons s'appuie sur l'hypothèse selon laquelle toutes les protéines sont issues d'un ancêtre commun et ont évolué au fil du temps au travers de quatre types d'événements qui sont : duplication 1,

1. Duplication: une protéine a donné naissance à deux protéines par le biais d'une duplication de gènes

26

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

spéciation 2, création 3, et perte 4 de protéines. La figure 4.1 montre un exemple d'arbre d'évolution d'un ensemble de protéines. On observe qu'il y a deux créations et trois pertes de protéines dans cet arbre.

FIGURE 4.1 - Arbre de protéines étiqueté avec les événements de spéciation, duplication, création et perte

4.1.2 Définitions formelles

Dans cette section, 8 représente, l'ensemble des espèces, g représente l'ensemble des gènes d'une famille de gènes et P représente l'ensemble de protéines produites par les gènes d'une famille. On définit sur ces ensembles des fonctions de correspondance : s : g - 8 qui à tout gène fait correspondre l'espèce à laquelle il appartient et g : P - g qui à toute protéine fait correspondre le gène qui l'a produit. Les trois ensembles 8, g et P sont tels que 8 = {s(x) : x E g} et g = {g(x) : x E P}, c'est à dire que les fonctions s et g sont surjectives.

Arbres phylogénétiques : Tous les arbres phylogénétiques considérés sont enracinés et binaires. Un arbre T pour un ensemble L est un arbre binaire enraciné dont l'ensemble des feuilles est L. L'ensemble des feuilles d'un arbre T est notée G(T)

2. Spéciation : une protéine a donné naissance à deux protéines par le biais d'une spéciation d'espèce.

3. Création : une protéine est apparue à un certain moment dans un gène

4. Perte : un gène a perdu la fonctionnalité de produire une protéine à un certain moment

27

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

et l'ensemble des sommets de T est noté V(T). Étant donné un noeud x E V(T), le sous-arbre complet5 de T enracinée en x est notée T[x]. Le plus proche ancêtre commun (en anglais, least common ancestor (lca)) d'un sous-ensemble L' de £(T) dans T, notée lcaT(L'), est l'ancêtre commun à toutes les feuilles L' qui est le plus éloigné de la racine de T. Étant donné un noeud interne x de T, les deux enfants de x sont arbitrairement désignés par xl et xr (pour left et right, en anglais).

Arbres de protéines, gènes, et espèces : Nous notons S un arbre des espèces pour l'ensemble S, G est un arbre des gènes pour l'ensemble G, et P un arbre des protéines pour l'ensemble P.

La fonction de correspondance s est étendue pour devenir une fonction de V(G) E G vers V(S) comme suit : si x est un noeud interne de G, alors s(x) = lcaS({s(x') : x' E £(G[x])}), c'est à dire que l'image d'un noeud x E V(G) dans V(S) est le plus proche ancêtre commun, dans l'arbre S, de toutes les images des feuilles du sous-arbre G[x].

De même, nous étendons la fonction de correspondance g pour qu'elle devienne une fonction de V(P) vers V(G) : si x est un noeud interne de P, alors g(x) = lcaG({g(x') : x' E £(P[x])}).

Réconciliation par LCA : Chaque noeud interne de l'arbre G représente un gène ancestral au moment d'un événement de spéciation (Spec) ou de duplication (Dup) de gènes. La réconciliation par LCA de G avec S est une fonction d'étiquetage lG : V(G) - £(G) ? {Spec, Dup} tels que l'étiquette d'un noeud interne x de G est lG(x) = Spec si s(x) =6 s(xl) et s(x) =6 s(xr), et sinon lG(x) = Dup.

Nous étendons la notion de réconciliation aux arbres de protéines comme suit : chaque noeud interne de l'arbre P représente une protéine ancestrale au moment d'un événement de spéciation (Spec), de duplication (Dup) ou de création (Creat) de protéines. La réconciliation par LCA de P avec G est une fonction d'étiquetage lP : V(P) - £(P) ? {Spec, Dup, Creat} tels que l'étiquette d'un noeud interne x de P est lP (x) = Spec si g(x) =6 g(xl) et g(x) =6 g(xr) et lG(g(x)) = Spec, sinon lP (x) = Dup si g(x) =6 g(xl) et g(x) =6 g(xr) et lG(g(x)) = Dup, et sinon lG(x) = Creat .

La figure 4.2 illustre la réconciliation de l'arbre des protéines de la figure 4.1 (à considérer comme non-étiqueté) avec l'arbre de gènes de la figure 4.3, ce dernier ayant été réconcilié avec l'arbre d'espèces illustré à la figure 4.4. Sur la figure 4.1, on peut noter que, d'une part les créations de protéines correspondent uniquement aux noeuds placés sur les branches de l'arbre de gènes et d'autre part il n'y a que

5. Un sous-arbre enraciné en un noeud x d'un arbre T est complet si il contient toutes les feuilles descendantes de x dans T.

28

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

les arbres enracinés en un noeud de création qui peuvent contenir deux protéines du même gène.

FIGURE 4.2 - Exemple de réconciliation d'arbres de protéines avec arbre de gènes

Coût de réconciliation : Le coût de réconciliation par LCA de l'arbre G avec l'arbre S est le nombre de noeuds de duplication et d'événements de perte de gènes dans G résultant de la réconciliation par LCA de G avec S.

Par extension, le coût de réconciliation par LCA de l'arbre P avec l'arbre G est le nombre de noeuds de création et d'événements de perte de protéines dans P résultant de la réconciliation par LCA de P avec G.

Le coût de double réconciliation de G avec P et S est la somme du coût de réconciliation par LCA de G avec S et du coût de réconciliation par LCA de P avec G.

Les définitions précédentes nous permettent maintenant d'introduire le problème d'optimisation dont l'objectif est de reconstruire un arbre de gènes optimal G, étant donné l'arbre des protéines P et l'arbre d'espèces S.

Problème: MINDRGT (POUR "MINIMUM DOUBLE RECONCILIATION GENETREE" EN ANGLAIS) :

Entrées : Un arbre d'espèce S pour un ensemble d'espèces S ; un arbre de protéines P pour un ensemble de protéines P

Sortie : Un arbre de gènes G pour G = {g(x) : x E L(P)} tel que le coût de double

29

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

FIGURE 4.3 - Arbre de gènes étiqueté

FIGURE 4.4 - arbre d'espèces

30

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

réconciliation de P vers G et S est minimum.

Le problème d'optimisation MinDRGT suppose que l'arbre des protéines P est connu. Dans le cas où l'arbre des protéines n'est pas entièrement connu, mais un ensemble de sous-arbres partiels P1. . . P, couvrant tout l'ensemble P est connu, le problème devient :

Problème: MINDRPGT (POUR "MINIMUM DOUBLE RECONCILIATION PROTEIN AND GENE TREES" EN ANGLAIS) :

Entrées : Un arbre d'espèce S pour un ensemble d'espèces S ; un ensemble de sous-arbres de protéines P1 . . . P, couvrant l'ensemble des protéines P

Sortie : Un arbre de protéines P tel que chaque Pi, 1 = i = k, est un sous-arbre de P, et un arbre de gènes G pour G = {g(x) : x E L(P)} tel que le coût de double réconciliation de P vers G et S est minimum.

La méthodologie de construction d'arbre de gènes présentée dans la section suivante consiste à construire un ensemble de sous-arbres P1 . . . P, couvrant l'ensemble des protéines P, puis à utiliser une solution heuristique6 du problème MinDRPGT pour reconstruire l'arbre de protéines P et l'arbre de gènes G.

4.2 Méthodologie : Processus à sept étapes

L'approche méthodologique utilisée pour la construction des arbres de gènes en tenant compte de toutes les protéines de chaque gène est basée sur une solution heuristique gloutonne pour résoudre le problème MinDRPGT. L'approche méthodologique est résumée dans un processus à sept étapes illustrées à la figure 4.5.

4.2.1 Étape 1 : Définition du jeu de données

La première étape consiste à définir l'ensemble des protéines de la famille de gènes dont on veut reconstruire l'arbre. Par définition, une famille de gène est composée d'un gène donné, tous ses orthologues, ses paralogues intra-spécifiques (au sein de la même espèce) et ses paralogues inter-spécifiques (dans des espèces différentes). Puis, dans la famille de gène, nous retenons uniquement les gènes produisant au moins une protéine. Pour chaque protéine produite par un gène de la famille, nous

6. L'analyse de la complexité des problèmes MinDRPT et MinDRPGT, et la conception de solution algorithmique exacte, le cas échéant, seront approfondie dans le cadre d'une thèse de doctorat.

3

4

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

Définition du jeu de donnée (génes et séquences codantes)

NJ'

2 r Alignement multiple de toutes les séquences codantes A l'aide de MACSE

Calcul d'une matrice de similarité â l'aide de FsePA

Regroupement avec chevauchement des

--)

séquences codantes

C'oustructiou du groupe de référence

Création des sous-arbres A l'aide de TreeBest

Construction de l'arbre de gènes et de protéines

31

FIGURE 4.5 -- Processus de construction d'arbre de gènes à sept étapes

32

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

retenons sa séquence codante, c'est-à-dire la séquence d'ARNm qui a été traduite pour obtenir la protéine.

4.2.2 Étape 2 : Alignement multiple de toutes les séquences codantes

Afin de pouvoir avoir une mesure de similarité entre les séquences codantes, nous procédons à un alignement multiple des séquences. Pour ce faire, nous utilisons le programme MACSE (Multiple Alignment of Coding SEquences Accounting for Frameshifts and Stop Codons) [29], qui est actuellement l'unique programme d'alignement multiple de séquences codantes prenant en compte les décalages de cadre de lecture dans la traduction7 en protéine. Contrairement à l'approche des méthodes actuelles de construction d'arbre de gènes, nous avons choisi d'aligner les séquences codantes plutôt que les protéines elles-mêmes, afin de tenir compte des phénomènes de décalage de cadre de lecture qui induisent des alignements erronés des séquences protéiques.

4.2.3 Étape 3 : Calcul de la matrice de similarité

Une fois les alignements effectués, nous calculons le score de similarité de chaque paire de séquences. On obtient comme résultat une matrice de similarité. Pour le calcul du score de similarité, nous utilisons un schéma de score tenant compte simultanément de l'échelle des nucléotides et celle des protéines définies dans [20]. Le but est de tenir compte à la fois des décalages de cadre de lecture, et des longueurs des différences, entre les protéines, issues de ces décalages. Les scores de similarités sont normalisés en les divisant par les longueurs des alignements.

4.2.4 Étape 4 : Regroupement avec chevauchement des séquences codantes

NB : il existe une bijection entre l'ensemble des protéines et l'ensemble des séquences codantes. Par la suite on utilisera le terme protéine par souci de simplification.

7. Les séquences codantes sont traduites en protéines en considérant un cadre de lecture des triplets de nucléotides consécutifs (codons) dans la séquence pour les traduire en acides aminés. Le décalage du cadre de lecture résulte d'un changement du positionnement du cadre de lecture d'un nombre de nucléotides non multiple de 3 conduisant à un changement de traduction des codons, et à des séquences protéiques différentes.

33

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

4.2.4.1 Définition du regroupement

Le regroupement appelé en anglais clustering [21] est une méthode de classification non supervisée, l'objectif étant de découvrir les regroupements naturels d'un ensemble de motifs, de points ou d'objets quelconques, ou dans notre cas des protéines. En pratique, la plupart des scientifiques décrivent un groupe en tenant compte de son homogénéité interne et de son hétérogénéité externe. En d'autres termes, les motifs au sein du même groupe devraient être similaires, tandis que les motifs dans différents groupes ne le devraient pas. Le regroupement est utilisé pour grouper les séquences de protéines en sous-familles en fonction de leurs similarités, ce qui fournira par ailleurs des indices importants sur les caractéristiques générales des familles de protéines. Cette approche de regroupement est également utile pour inférer la fonction biologique des protéines en déterminant leur appartenance à des familles de protéines bien connues et annotées.

4.2.4.2 Problème de regroupement dans le cas présent

Le modèle de regroupement que nous proposons s'appuie sur le modèle d'évolu-tion de protéines présenté dans la section précédente. Nous construisons un ensemble de groupes de protéines, tel que pour tout groupe C, le plus proche ancêtre commun de deux protéines du groupe ne doit jamais correspondre à une création dans l'arbre des protéines étiqueté.

La figure 4.6 illustre un exemple d'arbre de protéines étiqueté dans lequel le noeud 6 est une création de protéines qui conduit à deux protéines (1 et 2) appartenant au même gène A. À l'inverse, la création au niveau du noeud 9 va produire des protéines qui appartiennent dans un premier temps au même gène ancestral, mais par la suite de l'évolution, à des gènes différents à cause de la spéciation et de la duplication qui ont mené à trois gènes différents. Les protéines 1, 2, 4 appartiennent donc au même gène A, la protéine 3 au gène B, et les protéines 5, 11 au gène C.

L'ensemble des groupes de taille maximum en termes d'inclusion que l'on voudrait obtenir est {(1, 3, 11), (2, 3, 11), (4, 5)} dans lequel chaque groupe contient au plus une protéine par gène.

Cependant, dans notre cas, l'arbre des protéines et son étiquetage ne sont pas connus et nous cherchons à les reconstruire, en même temps que l'arbre des gènes. Par conséquent, nous simplifions le problème de regroupement des protéines au problème qui consiste à former un ensemble de groupes dans lesquels chaque groupe contient une seule protéine par gène, tout en permettant qu'une protéine puisse se retrouver dans plusieurs groupes. Ceci nous amène donc à définir une méthode de regroupement avec chevauchement 8 pour créer des groupes

8. le regroupement avec chevauchement est une technique de regroupement qui permet qu'un

34

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

FIGURE 4.6 - Extrait d'arbre de protéines

qui respectent nos contraintes.

Les principales méthodes de regroupement de protéines présentes dans la littérature sont décrites à la figure 4.7. Elles sont basées sur les méthodes par partition-nement [23], les méthodes hiérarchiques [7] et les méthodes utilisant des graphes [30]. Toutes ces méthodes approchent le problème posé en 4.2.4.2, mais présentent des limites majeures qui nous ont conduits à développer notre propre méthode de regroupement.

D'abord, les méthodes de regroupement hiérarchique, bien qu'étant les plus utilisées en bio-informatique du fait de leur complexité quadratique, conduisent automatiquement à des regroupements sans chevauchement. Ensuite, les approches par partitionnement quant à elles sont très efficaces, car chaque élément à classer est mis dans la meilleure classe préexistante. Mais leur principale limite est qu'elles exigent

élément puisse appartenir à plus d'un groupe, par opposition au regroupement sans chevauchement qui ne le permet pas

35

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

FIGURE 4.7 - Les trois principales catégories d'algorithmes utilisées pour le regroupement des séquences de protéines

de connaître au préalable le nombre de groupes, alors que dans notre cas ce nombre doit être découvert. Enfin, les approches basées sur la théorie de graphe conduisent également à des regroupements sans chevauchement. Bien qu'il existe des cas rares où l'on peut obtenir des regroupements avec chevauchement.

4.2.4.3 Regroupement avec chevauchement hiérarchique

Idée de base. L'idée de base de notre méthode de regroupement avec chevauchement est de proposer une version modifiée du regroupement hiérarchique (qui est à la base du regroupement sans chevauchement) pour créer des regroupements avec chevauchement. Tel que chaque groupe contient au plus une protéine par gène tout en permettant qu'une protéine puisse appartenir à plus d'un groupe. La figure 4.8 illustre graphiquement la différence majeure entre le regroupement sans chevauchement et le regroupement avec chevauchement que nous choisissons comme approche.

Présentation globale du modèle Soit n le nombre de protéines et á un seuil de similarité. Initialement, chaque protéine forme un groupe. La méthode va, de manière récursive, choisir à chaque étape les deux groupes les plus proches, les fusionner afin d'en former un nouveau. On choisit deux groupes à fusionner si et seulement si le score de similarité entre eux est inférieur au seuil á. Le score de similarité pour deux groupes A et B est calculé ainsi comme suit (D étant la matrice de similarité calculé à l'étape 3) :

A' ? A - B

36

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

FIGURE 4.8 - Illustration présentant la différence entre le regroupement avec chevauchement et le regroupement sans chevauchement

B' B - A

Si Card(A') == 0 or Card(B') == 0 Alors

D(A',B') oc

Sinon >I >I

1

D(A', B') yEB D(x, y)

Card(A').Card(B') xEA

La figure 4.9 présente un exemple d'application de l'algorithme de regroupement avec chevauchement sur sept protéines de cinq gènes.

Algorithme détaillé de regroupement avec chevauchement hiérarchique Définition des entrées

DistanceMatrix D : est une matrice de similarité qui contient les mesures de similarité entre chaque paire de séquences. C'est donc une matrice symétrique. Les valeurs de cette matrice sont normalisées entre 0 et 1, avec 1 représentant la plus grande similarité;

SimilarityLevel á : est une valeur de similarité comprise entre 0 et 1;

Header h : est un tableau associatif, qui associe à chaque gène la liste de ses protéines. Il est utile pour satisfaire la contrainte que chaque groupe doit contenir au plus une protéine de chaque gène.

L'algorithme 4.1 décrit formellement la méthode.

4.2.5 Construction d'un groupe de référence

Une fois les groupes obtenus, on choisit un groupe de référence de cardinalité maximale. Si la cardinalité de ce cluster est strictement inférieure au nombre de

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

37

FIGURE 4.9 - Exemple d'application de l'algorithme de regroupement avec chevauchement sur sept protéines de cinq gènes. Les cinq gènes sont p1, p2 et p4 ayant chacun une protéine, et p3 et p5 ayant chacun deux protéines.

38

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

Algorithm 4.1 Soft Clustering

1: procedure CLuTTERING(DistanceMatrix D, SimilarityLevel á, ListeDesClus-ters listeCluster h)

2: groupeBanis ? []

3: loop :

4: i, j, min ? ChoisirPlusPetitEltV alide(D, groupeBanis, listeCluster, á)

5: if (i == -1 or j == -1 or min == +8) then

6: ConsiliderGroupe.

7: else

8: listeCluster ? listeCluster ? [listeCluster(i), listeCluster(j)]

9: groupeBanis ? groupeBanis ? [i,j]

10: Ajouter une ligne et une colonne à la matrice D

11: n ? nombreLinge(D) + 1

12: miseAJourValeur(i, j, n).

13: goto loop.

14: end if

15: ChoisirPlusPetitEltValide(D, groupeBanis, listeCluster, á) :

16: for i = 1 to nombreDeLigne(D) do

17: for j = i + 1 to nombreDeColonne(D) do

18: if (listerCluster[i] ? listeCluster[j] ?/ groupeBanis) then

19: if ((? p1 ? listeCluster[i] and ? p2
? listeCluster[j]) tel que gene(p1) =6 gene(p2)) and V aleurDeSimilarite(listeCluster[i], listeCluster[2], á)) then

20: Return (i,j,D[i,j])

21: else

22: Continue

23: end if

24: else

25: Continue

26: end if

27: end for

28: end for

29: Return (-1, -1, +8)

39

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

30: ValeurDeSimilarite(clusterI, clusterJ, á) :

31: clusterI' ? clusterI - ClusterJ

32: clusterJ' ? clusterJ - ClusterI

33: flag ? TRUE

34: for i = 1 to longeur(clusterI') do

35: for j = i + 1 to longeur(clusterJ') do

36: if (D[i,j] >= á) then

37: flag = FALSE

38: end if

39: end for

40: end for

41: Return flag

42: miseAJourValeur(i,j, n) :

43: B ? sequence(n) //

44: for i = 1 to n do

45: A ? sequence(i)

46: A' ? A - B

47: B' ? B - A

48: if (Card(A) == 0 or Card(B) == 0) then

49: D(A', B') ? 8

50: else >I >I

51: D((A', B') ? 1 y?B D(x, y)
Card(A).Card(B) x?A

52: end if

53: end for

54: Return D

55: ConsiliderGroupe :

56: for i = 1 to longeur(listeCluster) do

57: if (?k ? [1, longeur(listeCluster)] avec k =6 i) and listeCluster[i] ? listeCluster[k] then

58: listeCluster ? listeCluster - listeCluster[i]

59: end if

60: end for

61: end procedure

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

gènes, on le complète en lui ajoutant une protéine de chaque gène non représenté dans ce groupe. La protéine d'un gène non représenté dans le groupe est choisie de sorte à minimiser le coût moyen de similarité entre cette protéine et les protéines présentes dans le groupe. L'algorithme 4.2 décrit le processus de construction du groupe de référence le cas échéant.

Algorithm 4.2 AugmenterGroupe

1: procedure AUGMENTERGROUPE(Cref, G)

2: Entrées : Cref groupe de référence, G = {G1, ..., Gl} Collection des ensembles de protéines des l gènes non représentés dans Cref

3: if (E = Ø) then

4: Terminer

5: else

P = argmax{D(Cref ,P )}

6: P ??i?{1,...,l} Gi . D étant la distance entre p et le groupe Cref

7: Gp = gène auquel p appartient

8: Cref = Cref U {P}

9:

G = G \ {GP }

1: AugmenterGroupe(Cref, G)

2: end if

3: end procedure

40

À la fin de cette procédure, on obtient une liste de groupes, dans laquelle un groupe, le groupe de référence, contient une protéine de chaque gène et chaque protéine du groupe de référence n'appartient à aucun autre groupe, et les groupes sont tous deux à deux disjoints. L'étape suivante consiste à créer un arbre de protéines par groupe et de fusionner tous les arbres en un seul super-arbre de protéines.

4.2.6 Étape 6 : Création des arbres de protéines pour les groupes

Rendu à cette étape, on dispose d'un ensemble de groupes, il s'agit de créer un arbre par groupe. Pour ce faire, on utilise le programme TreeBest[10]. L'entrée de ce programme doit être un ensemble de séquences alignées. Pour ce faire, on utilise encore MACSE pour aligner les séquences codantes du groupe avant de passer l'alignement multiple obtenu à TreeBest. La sortie du programme est un arbre au format Newick9

9. Newick est le nom d'un format de fichier utilisé en bio-informatique pour décrire un arbre phylogénétique.

41

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

4.2.7 Étape 7 : Construction de l'arbre de protéines et de l'arbre des gènes

Disposant d'une forêt de l arbres pour l groupes telle que l'un des arbres est considéré comme l'arbre de référence (celui contenant une protéine pour chacun des gènes), l'objectif de cette étape est de fusionner les arbres en un seul arbre.

Les principales phases de l'algorithme de cette étape sont :

1. Définir l'arbre de gènes G comme égal à l'arbre de référence (contenant une protéine pour chacun des gènes)

2. Initialiser le super-arbre de protéines P comme égal à l'arbre de référence

3. De façon itérative jusqu'à fusionner tous les arbres

~ Choisir l'arbre Tk avec k E [1, l] tel que .C(Tk) n .C(P) est maximal.

~ Construire l'arbre induit T = Tk|L(Tk)\L(P

~ Calculer le noeud de P, x = lcaP{P1 E .C(P) | ?P2 E (.C(Tk)\.C(P)),g(p1) =

g(p2)}

La figure 4.10 montre un exemple d'application de l'algorithme glouton de concaténation d'une forêt d'arbres. L'arbre de référence étant l'arbre ayant pour racine étiqueté par 1.

4.3 Implémentation

Afin d'implémenter le modèle précédent, le langage python à été choisi pour deux raisons. D'une part, c'est un excellent langage de script et d'autre part, c'est l'un des langages les plus utilisés en bio-informatique, pour lequel de nombreuses bibliothèques sont disponibles. Chacune des sept étapes a été implémentée séparément, mais de telle sorte que chaque étape rende des résultats sous format réutilisable pour les étapes suivantes.

Les données ont été récupérées de la base de données de EnsemblCompara, version 84 et de NCBI, nous avons utilisé PyCongent, une API Python pour la récupération de données de la base de données Ensembl. Nous avons utilisé la bibliothèque numpy pour la manipulation des structures de données optimisées pour les tableaux et matrices.

42

CHAPITRE 4. MÉTHODOLOGIE ET IMPLÉMENTATION

FIGURE 4.10 - Application de l'algorithme glouton de fusion de 6 arbres. Les arbres sont greffés à l'arbre de référence par des créations matérialisées sur la figure par des triangles au fond noir.

43

CHAPITRE CINQ

ÉTUDE DE CAS

Afin de tester le modèle, les méthodes et les implémentations décrits précédemment, nous avons fait des études de cas. Pour nos tests, nous avons retenu les espèces suivantes : la vache, l'humain, la souris, le fugu, le zebrafich et le poulet, représentatives de l'ensemble des espèces vertébrés.

5.1 Étude de cas de la famille The Myelin-Associated Glycoprotein (MAG)

Le premier cas d'étude est réalisé sur la famille de gène MAG [27, 3]. Elle a été largement étudiée dans la littérature [3]. En raison du fait que les gènes de cette famille subissent l'épissage alternatif, ce cas constitue un candidat parfait pour tester notre algorithme. Le tableau 5.1 récapitule les informations sur cette famille MAG.

 

Nom de la famille

Source de données

Nombre de gènes

Nombre de protéines

1

MAG

Ensembl

28

70

TABLE 5.1 - Données utilisées pour l'étude de cas de la famille MAG

La figure 5.1 présente l'arbre de référence (arbre de gènes) sur lequel viendront se greffer les arbres provenant des groupes restants. Notre arbre de gène partage 18 protéines sur les 28 au total avec celui de Ensembl et a un plus petit coût de réconciliation plus faible. Après réconciliation avec l'arbre d'espèce, l'arbre de gène obtenu comporte 5 pertes de gènes et 14 duplications. La figure 5.2 présente l'arbre de gènes construit par Ensembl-Compara, qui compte 12 pertes et 20 duplications. Ce cas permet de montrer que notre méthode permet la construction d'arbres de gènes de coût de réconciliation optimaux

CHAPITRE 5. ÉTUDE DE CAS

--.._ ~.,.,. _--..---

- i

1-

-------

-

L

I I I

I I k

I

Jr- --

I

11.

f

k-

EN5F 9668$321977 ENSFVG4UCW rZU r3 ENSP6E069323329 EN5PMEMA13961 FNSMJSFIE3E0I37i87 ENSPUd5I1d55I7 ENSPO6659A161Z6 ENSMJSPOINEBUDA720 ENSMJSPOME4130O32 ENSETAF60005.196'51 EN5F 96690345243 EN5P! !EW1Z3a1 ENSMUSNO0E0505592 ENSETPF900E6304195 ENSIIR8Ad354A, kriSPOEUUDA15ZEU ENSP46$50A7323.S EN5B7APOIMEi 6424 ENSEARMIE+3E4a.54Z3 ENSBTANO.5 0522603 EN51115P500 6113245 FN5RTPPAEt7F.0013174F1 ENSLAAF'9d9E412aà12 EN5P26699073245 EN5MJ5PR M1399$1 ENSR1AP!Eb64I238a EN56ARP600E01196615 EN5MLP999E6823556

44

FIGURE 5.1 -- Arbre de gènes de la famille MAG obtenu avec notre méthode

45

CHAPITRE 5. ÉTUDE DE CAS

4 -ENSDARP00000126612

· ENSTRUPO0000006444

- ENSBTAP00000011656


·

--
·E N S BTA P00000049B61

GEN SP00000401502

.' ENSP00000262262

~
·E N S BTAP00000055070

· ENSMUSP00000113245 -ENSMUSP00000058875 .#
·ENSMUSP00000004728

· EN SBTAP00000031748

/
·ENSMUSP00000032667
_.--ENSPOO000413861

· ENSP00000323328

· ENSP00000291707 \
·EN5P00000321077

· ENSBTAP00000022603

· ENSP00000354090

EN SP00000470259 1ENSP00000455510

o
·E
N S B TAP0000002 6431

· -ENSBTAPODO00055422

· ENSBTAP00000026429

JENSP00000345243 s ENSP00000412361

· ENSMUSP00000005592 ENSBTAPOO000004195

· ENSDARP00000136924 o
·ENSTR UP00000023555

4 SP00000376048

.
·E N SBTAP00000052 366

· ENSMUSP00000139564

FIGURE 5.2 -- Arbre de gène de la famille MAG obtenu de Ensembl

CHAPITRE 5. ÉTUDE DE CAS

5.2 Étude de cas de la famille FAM86

Le second cas d'étude concerne la famille FAM86. Les gènes de cette famille subissent également l'épissage alternatif. Il s'agit ainsi d'un bon candidat pour notre étude. Le tableau 5.2 récapitule les informations sur cette famille FAM86.

 

Nom de la famille

Source de données

Nombre de gènes

Nombre de protéines

3

FAM86

Ensembl

8

16

TABLE 5.2 - Données utilisées pour l'étude de cas de la famille FAM86

La figure 5.3 présente l'arbre de référence (arbre de gènes) sur lequel viendront se greffer les arbres provenant des groupes restant. L'arbre de gène obtenu comporte 0 pertes de gènes et 3 duplications contre 3 pertes et 4 duplications Notre arbre de gène partage 6 protéines sur 8 avec celui de Ensembl et a un plus petit coût de réconciliation.

46

FIGURE 5.3 - Arbre de gène de la famille FAM86 obtenu de notre modèle

47

CHAPITRE 5. ÉTUDE DE CAS

FIGURE 5.4 - Arbre de gène de la famille FAM86 obtenu de Ensembl

48

CHAPITRE SEPT

CONCLUSION GÉNÉRALE

Parvenu au terme de ce mémoire, dont le but était de proposer un modèle d'évo-lution de l'architecture des gènes en tenant compte de toutes les séquences codantes, nous avons dans un premier temps posé le problème et montré les limites des solutions actuelles. Puis nous avons proposé un modèle d'évolution de protéines et introduit des problèmes d'optimisations dont le but est de reconstruire des arbres de protéines et de gènes, étant donné les arbres d'espèces. Nous avons également proposé une méthode heuristique gloutonne résumée dans un processus à sept étapes pour résoudre le problème posé. Nous avons terminé avec des applications sur des familles de gènes de la base de données Ensembl.

Bien qu'ayant eu des résultats ayant des coûts de réconciliation mouilleurs que ceux d'Ensembl avec cette approche heuristique, il demeure qu'une solution algorithmique exact qui considère simultanément tous les arbres de chaque groupe de l'étape 4 du processus permettra de reconstruire une solution plus précise.

Le problème étant formellement posé, il sera question pour les prochains travaux sur la même problématique d'affiner.

49

Références

[1] Pea Carninci, T Kasukawa, S Katayama, J Gough, MC Frith, N Maeda, R Oyama, T Ravasi, B Lenhard, C Wells, et al. The transcriptional landscape of the mammalian genome. Science, 309(5740) :1559-1563, 2005.

[2] Yann Christinat and Bernard ME Moret. Inferring transcript phylogenies. BMC bioinformatics, 13(9) :1, 2012.

[3] Yann Christinat and Bernard ME Moret. Inferring transcript phylogenies. BMC bioinformatics, 13(9) :1, 2012.

[4] Yann Christinat and Bernard ME Moret. A transcript perspective on evolution. IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), 10(6) :1403-1411, 2013.

[5] Charles Darwin. R.(1859) : On the origin of species by means of natural selection. Murray. London, 1871.

[6] William HE Day, David S Johnson, and David Sankoff. The computational complexity of inferring rooted phylogenies by parsimony. Mathematical bios-ciences, 81(1) :33-42, 1986.

[7] I Dondoshansky and Y Wolf. Blastclust (ncbi software development toolkit). NCBI, Bethesda, Md, 2002.

[8] Robert C Edgar. Muscle : a multiple sequence alignment method with reduced time and space complexity. BMC bioinformatics, 5(1) :1, 2004.

[9] Robert C Edgar. Muscle : multiple sequence alignment with high accuracy and high throughput. Nucleic acids research, 32(5) :1792-1797, 2004.

[10] Heng Li et Al. Incorporating species phylogeny in the reconstruction of gene trees.

[11] R. Durbin et Al. Biological Sequence Analysis. Cambridge university press, 1998.

50

RÉFÉRENCES

[12] Oliver Eulenstein, Snehalata Huzurbazar, and David A Liberles. Reconciling phylogenetic trees. Evolution after gene duplication, pages 185-206, 2010.

[13] Walter M Fitch. Toward finding the tree of maximum parsimony. In Proceedings of the 8th International Conference on Numerical Taxonomy, pages 189-230. Freeman, 1975.

[14] Mark B Gerstein, Can Bruce, Joel S Rozowsky, Deyou Zheng, Jiang Du, Jan O Korbel, Olof Emanuelsson, Zhengdong D Zhang, Sherman Weissman, and Michael Snyder. What is a gene, post-encode? history and updated definition. Genome research, 17(6) :669-681, 2007.

[15] Brenton R Graveley. Alternative splicing : increasing diversity in the proteomic world. TRENDS in Genetics, 17(2) :100-107, 2001.

[16] P. H. The origin of the genetic code. 38 :367-379, 1968.

[17] John P. Huelsenbeck, Fredrik Ronquist, et al. Mrbayes : Bayesian inference of phylogenetic trees. Bioinformatics, 17(8) :754-755, 2001.

[18] Daniel H Huson and David Bryant. Application of phylogenetic networks in evolutionary studies. Molecular biology and evolution, 23(2) :254-267, 2006.

[19] Daniel H Huson, Regula Rupp, and Celine Scornavacca. Phylogenetic networks: concepts, algorithms and applications. Cambridge University Press, 2010.

[20] Safa Jammali, Esaie Kuitche, Ayoub Rachati, Bélanger François, and Aïda Ouangraoua. Aligning coding sequences with frameshift extension penalties. 2016.

[21] Abdellali Kelil. Contribution à l'analyse des séquences de protéines Similarité, Clustering et Alignement. Université de Sherbrooke, 2011.

[22] Christina Kyriakopoulou. From fundamental genomics to systems biology : understanding the book of life, volume 23132. European Communities, 2008.

[23] Weizhong Li and Adam Godzik. Cd-hit : a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics, 22(13) :1658-1659, 2006.

[24] David A Morrison. Networks in phylogenetic analysis : new tools for population biology. International journal for parasitology, 35(5) :567-582, 2005.

[25] Luay Nakhleh. Computational approaches to species phylogeny inference and gene tree reconciliation. Trends in ecology & evolution, 28(12) :719-728, 2013.

[26] SB Primrose and RM Twyman. Basic biology of plasmid and phage vectors. Principles of Gene Manipulation and Genomics, 2006.

[27] Richard H Quarles. Myelin-associated glycoprotein (mag) : past, present and beyond. Journal of neurochemistry, 100(6) :1431-1448, 2007.

51

RÉFÉRENCES

[28] Vincent Ranwez, Sébastien Harispe, Frédéric Delsuc, and Emmanuel JP Dou-zery. Macse : Multiple alignment of coding sequences accounting for frameshifts and stop codons. PLoS One, 6(9) :22594, 2011.

[29] Vincent Ranwez, Sébastien Harispe, Frédéric Delsuc, and Emmanuel JP Dou-zery. Macse : Multiple alignment of coding sequences accounting for frameshifts and stop codons. PLoS One, 6(9) :e22594, 2011.

[30] Stijn Van Dongen. A cluster algorithm for graphs. Report-Information systems, (10) :1-40, 2000.

[31] Albert J Vilella, Jessica Severin, Abel Ureta-Vidal, Li Heng, Richard Durbin, and Ewan Birney. Ensemblcompara genetrees : Complete, duplication-aware phylogenetic trees in vertebrates. Genome research, 19(2) :327-335, 2009.






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Enrichissons-nous de nos différences mutuelles "   Paul Valery