WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Amélioration l’estimation des sinistres responsabilité civile automobile par machine learning


par Mohamed HOUNSINOU
École supérieure des technologies de l'information appliquées aux métiers - Paris - MBA - Big Data & Business Intelligence 2021
  

sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

ESTIAM PARISESTIAM PARIS - AXA FRANCEESTIAM PARIS - AXA FRANCE

Amélioration de l'estimation des sinistres RC Auto par Machine Learning

MBA - Big Data & Business Intelligence

HOUNSINOU Mohamed

25/08/202130/09/202130/09/2021

Résumé

Dans un contexte où la capacité à pouvoir stocker et manipuler d'importantes quantités de données est de plus en plus grandissante, les provisions pour sinistres à payer (PSAP) qui sont pour le moment grandement estimées à l'aide de méthodes agrégées, peuvent désormais être « prédites » individuellement grâce aux méthodes de Machine Learning. Les enjeux de la bonne prédiction du coût d'un sinistre sont partie intégrante de la maîtrise des risques. Ces enjeux peuvent être aussi bien réglementaires, stratégiques que financiers, et incitent les assureurs non-vie à se questionner sur l'utilisation de nouvelles approches de provisionnement.

Dans ce mémoire, nous nous intéressons à la mise en place d'algorithmes de Machine Learning pour prédire ligne à ligne les sinistres, c'est-à-dire sinistre par sinistre et non de façon agrégéedans un triangle de liquidation. Notre objectif est de mieux tirer parti des informations spécifiques à chaque sinistre. Pour ce faire, nous utiliserons une base de données réelles comportant des sinistres survenus de 2015 à 2017 touchant les garanties Responsabilité Civile matérielle et Responsabilité Civile corporelle en assurance automobile, fournie par un assureur français. Ces données présentent l'avantage de comporter de nombreuses informations sur les sinistres que nous appelons variables descriptives. Il s'agit par exemple du nombre de victimes, de la cause du sinistre, de la charge à l'ouverture.

Dans un premier temps, nous commencerons par rappeler les généralités en assurance non-vie, puis nous nous intéresserons au fonctionnement des méthodes de provisionnement agrégées utilisées ainsi qu'à leurs limites. Par la suite, nous étudierons les données à notre disposition et leurs particularités. Ensuite nous présenterons les algorithmes de Machine Learning que nous comptons utiliser sur ces données avant de les mettre en application. Et enfin nous conclurons sur l'apport de ces nouveaux modèles.

Mots-clés : provisionnement ligne à ligne / individuel, Machine Learning, arbres de décisions, forêts aléatoires, apprentissage supervisé, régressions, PSAP.

Abstract

In a context where the ability to store and handle large amounts of data is increasing, the claim reserves which are for the moment greatly estimated using aggregated methods, can now be Individually «predicted» using machine learning methods. The challenges of correctly predicting the cost of a claim represent an important part of risk's control. These challenges can be regulatory, strategic, or financial, and prompt non-life insurers to question themselves on the use of new reserving approaches.

In this study, we are interested in the implementation of Machine Learning algorithms to predict claims using line-by-line methods instead of aggregate ones such asrun-off triangles. Our goal is to make better use of the information specific to each claim. To do so, we will use a database comprising claims that occurred from 2015 to 2017 affecting material damage and bodily injury cover in automobile insurance, provided by a French insurer. These data have the advantage of including a lot of information on claims that we will be calling descriptive variables. Such as the number of victims, the cause of the incident, the load on at theopening for example.

First, we will start by recalling the generalities of non-life insurance, then we will look at how the aggregate reserving methods are used to work as well as their limits. Subsequently, we will study the data at our disposal and its particularities. Then we will present the Machine Learning algorithms that we intend to use on this data before applying them. And finally, we will conclude.

Keywords: micro reserving, Machine Learning, decision trees, random forests, supervised learning, regressions, claims reserves.

Remerciements

Tout d'abord, je souhaiterais remercier Emilie DEPREY la Responsable Actuariat Comptes ainsi que mon tuteur Mouhamadou NDIAYE qui m'ont permis de travailler dans cette fabuleuse équipe. Je remercie aussi mes précieux collègues de l'équipe Actuariat Comptes qui ont montré une implication et un soutien sans faille en me faisant part de leurs idées et points de vue dans la rédaction de ce mémoire.

J'aimerais également remercier mon tuteur académique, Mhand BOUFALA, pour sa disponibilité ainsi que mes parents et mes camarades de classe pour leur soutien moral.

Enfin, merci à toi Faouziath pour ta présence et ta patience durant ma formation universitaire.

Table des matières

Abstract i

Résumé i

Table des matières iii

Remerciements v

Liste des tables vi

Liste des figures vi

Introduction 1

I. Généralités 3

1.1 Définition de l'assurance de responsabilité civile 3

1.2 Les différentes formes de responsabilité civile en assurance automobile 3

1.3 Enjeux du provisionnement 4

1.4 Objectif et périmètre 6

1.5 Cycle de vie des sinistres 6

1.6 Particularités du portefeuille Entreprise 7

II. Méthodes classiques de détermination de la provision 8

2.1 Triangle de développement 8

2.2 Méthode Chain-Ladder 9

2.3 Méthode de Bornhuetter-Ferguson 10

2.4 Méthode de Mack 11

2.5 Limites des méthodes classiques 12

III. Echantillon d'études et méthodologie de collecte des données 14

3.1 Présentation de la base de données 14

3.2 Collecte et sélection des données 23

IV. Amélioration de l'évaluation par Machine Learning 24

4.1 Généralités sur le Machine Learning 24

4.2 Algorithmes supervisés et non supervisés 25

4.3 Sur-apprentissage 26

4.4 Les arbres de régressions 26

4.5 Les forêts aléatoires 28

V. Implémentation des algorithmes 32

VI. Algorithmes de régressions et de classification 32

5.1 Mise en application en langage Python 32

5.2 Exploration des données 32

5.3 Traitement des valeurs manquantes : parse_model () 33

5.4 Algorithmes et évaluations 35

5.5 Autres traitements des valeurs manquantes 37

5.6 Synthèse 40

Conclusion 40

Annexes 41

Bibliographie 43

Liste des tables

Table 2.1 Triangle de développement .............................................................8

Table 2.1 Triangle de développement rempli grâce au modèle de Chain-Ladder T....9

Table 4.1 Quelques exemples de Machine Learning proposés par Mitchell ............25

Annexe1 Liste des variables ........................................................................42

Liste des figures

Figure 1.1 Décomposition de la PSAP .............................................................5

Figure 1.2 Décomposition de la charge ultime ...................................................6

Figure 1.3 Schéma de la vie d'un sinistre .........................................................7

Figure 3.1 Histogramme des dossiers en 2015par année d'ouverture....................15

Figure 3.2 Histogramme des dossiers en 2016par année d'ouverture....................15

Figure 3.3 Histogramme des dossiers en 2017par année d'ouverture....................15

Figure 3.4 Proportions des dossiers en 2015 par année de clôture.......................16

Figure 3.5 Proportions des dossiers en 2016 par année de clôture.......................16

Figure 3.6 Proportions des dossiers en 2017 par année de clôture.......................16

Figure 3.7 Nombre de dossiers par classe de 100K€.........................................17

Figure 3.8 Nombre de dossiers par cause du sinistre.........................................18

Figure 3.9 Top 10 des départements les plus touchés........................................18

Figure 3.10 Top 10 des villes les plus touchées................................................19

Figure 3.11 Répartition des dossiers par type de litige........................................19

Figure 3.12 Charge moyenne par type de litige.................................................20

Figure 3.13 Nombre de dossiers clos et ouverts.................................................20

Figure 3.14 Nombre de dossiers par type de dommage......................................21

Figure 3.15 Nombre de dossiers par taux de responsabilité.................................21

Figure 3.16 Nombre de dossiers par nombre de victimes....................................22

Figure 4.1 Partie de la PSAP à estimer ..........................................................24

Figure 4.2 Exemple de partitionnement d'un espace bidimensionnel ....................27

Figure 4.3 Illustration du tree bagging avec trois arbres.......................................30

Annexe 2 Importance des variables selon l'algorithme des arbres de décision........43

Annexe 3 Importance des variables selon l'algorithme des forêts aléatoires...........43

sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Enrichissons-nous de nos différences mutuelles "   Paul Valery