Nous sommes heureux d’accueillir cet article de Laurène Martin, qui vient d’obtenir le prix du meilleur mémoire d’actuariat de l’ENSAE pour son travail sur l’évaluation des avantages de la modélisation de la mortalité à l’aide du Machine Learning sur un marché concurrentiel d’assurance-vie. Laurène a bien voulu résumer pour variances.eu les grandes lignes de son étude.
L’avènement de l’intelligence artificielle en assurance ne se limite pas à l’automatisation de la souscription ou au développement de chatbot. L’intelligence artificielle peut aussi être utilisée pour le cœur même du métier de l’assureur : l’amélioration de sa connaissance du risque. La consolidation des systèmes d’information permet aux assureurs et réassureurs d’accroitre leur efficacité opérationnelle et d’analyser des bases de données plus riches. Dans ce contexte, mon mémoire d’actuariat porte sur l’étude et l’évaluation des avantages de la modélisation de la mortalité à l’aide du Machine Learning sur un marché concurrentiel d’assurance vie.
Dans le secteur de l’assurance de personnes, les contrats commercialisés couvrent les accidents corporels, l’invalidité, la maladie ou encore le décès. Une bonne compréhension des risques biométriques, l’ensemble des risques liés à la condition de vie humaine, est donc essentielle pour maximiser la prospérité d’une compagnie d’assurance au travers de son provisionnement et de son ratio de solvabilité. Une meilleure connaissance du risque sous-jacent permet également de rester compétitif en proposant le tarif adéquat à chaque assuré. Pendant des décennies, les actuaires vie ont donc développé des méthodes statistiques pour estimer les risques biométriques et plus précisément la durée de vie. Entre-temps, les méthodes de Machine Learning se sont popularisées principalement car ces modèles reposent sur des hypothèses moins strictes et davantage sur les données.
Comment modéliser une durée avec du Machine Learning ?
Comme les algorithmes de Machine Learning n’ont pas été initialement conçus pour la modélisation de la durée de vie, une étude approfondie sur les techniques de modélisation a été réalisée. Cette étude consistait à étudier les modifications à apporter aux algorithmes traditionnels afin qu’ils parviennent à traiter correctement les données de survie. A partir de l’étude théorique des adaptations possibles, différentes méthodes ont été implémentées au sein d’une bibliothèque interne Python. Cette dernière, inspirée de librairies open-source telles que Scikit-survival ou Lifelines, intègre des spécificités actuarielles afin de répondre directement aux attentes opérationnelles. Cette bibliothèque a, en effet, pour objectif de standardiser les modèles pour faciliter et automatiser l’étude de la mortalité des portefeuilles d’assurés.
La première étape du processus de commercialisation d’une police d’assurance vie est l’estimation du risque sous-jacent. La tarification de la majorité des produits d’assurance vie repose en effet sur la modélisation de la mortalité. Concrètement, les assureurs doivent estimer la durée de vie pour faire ressortir les facteurs de risque accélérant le décès. Prédire des durées nécessite une technique de modélisation spécifique appelée Analyse de survie. Lors de l’étude de la durée, les données sont sujettes à la censure : la plupart du temps, une durée n’est que partiellement observée. De ce fait, les modèles de Machine Learning ne peuvent être transposés tels quels à des données de survie. Deux stratégies sont envisagées pour pallier ce problème : l’approche discrète ou l’approche continue. La première est un travail sur le modèle quand la seconde porte sur la donnée :
- La modélisation continue consiste à intégrer les spécificités de méthodes statistiques capables de traiter la censure, comme Cox ou Kaplan-Meier, dans des algorithmes existants de Machine Learning. Cette méthode permet de déduire des modèles spécifiques pour l’étude de la survie tels que : Cox-ElasticNet, Cox-Gradient Boosting ou les Arbres et Forêts aléatoires de survie.
- Les modèles discrets sont caractérisés par une modification de la structure des données via une discrétisation. Le phénomène de censure est alors modélisé par le calcul d’une exposition au risque pour chaque intervalle de temps. L’enjeu est de s’assurer de la bonne prise en compte de l’exposition par différents modèles tels que : GLM, Forêt Aléatoire ou Gradient Boosting
Du modèle à la commercialisation de produits : les spécificités de l’assurance
L’utilisation de modèles de Machine Learning est cependant encore controversée dans le secteur de l’assurance vie. En effet, l’industrie est fortement réglementée, ce qui signifie que la commercialisation des produits doit respecter plusieurs contraintes. Les assureurs doivent pouvoir justifier précisément le prix d’une police d’assurance et donc la mortalité estimée par un modèle. Cependant, certains modèles, tels que les Forêts Aléatoires ou Gradient Boosting, sont des modèles « boîte noire », qui ne peuvent pas être interprétés directement. Pour cette raison, en plus des modèles, trois méthodes d’interprétation complémentaires sont présentées dans mon mémoire et ont été implémentées au sein de la bibliothèque Python : Importance des Variables, Dépendance partielle et SHAP (SHapley Additive exPlanations).
Disposant d’une librairie Python opérationnelle, la comparaison de différentes stratégies de tarification, ainsi que l’étude de leur impact sur un marché concurrentiel d’assurance vie ont été effectuées en plusieurs étapes :
- La première étape a été de constituer une base de données pour représenter la demande de polices d’assurance vie. Les observations de la base de données NHANES, un programme d’études conçu à l’origine pour évaluer la santé et le statut nutritionnel des adultes et des enfants aux États-Unis, ont été utilisées. Il s’agit de la base de données open-source qui contient le plus d’informations disponibles sur les facteurs de risque et la mortalité. Cette base de données est composée de 65.018 individus et de 106 variables, qui peuvent être classées en cinq catégories : démographie, alimentation, analyse médicale, visite médicale et questionnaire. La base NHANES est pondérée de manière à être représentative de la population américaine. Comme la méthodologie était le point d’attention, seuls les individus échantillonnés ont été utilisés sans considération pour leur poids dans la population globale. Une réflexion sur la pondération afin de reproduire une population assurée permettrait cependant d’avoir des résultats plus consistants.
- La seconde étape a été de prédire la mortalité pour chacun des assurés potentiels à l’aide des modèles étudiés. Pour ce faire, un prétraitement des données a tout d’abord été effectué. La qualité des données est en effet essentielle pour obtenir de bonnes performances avec les différents algorithmes, ainsi certaines variables ont été retirées de l’étude en raison du nombre de valeurs manquantes ou de la corrélation et donc la redondance d’information avec d’autres variables. Un prétraitement a également été réalisé sur les individus. Ce dernier permet de reproduire le processus d’une équipe de souscripteurs qui accepte et refuse les dossiers sur la base des informations médicales et donc d’extraire une base représentative d’une population assurée. Après ces considérations, les données ont enfin été divisées en deux groupes, avec d’un côté la base d’entrainement pour le calibrage des modèles et de l’autre la base de test pour l’évaluation de la performance. Sur la base de données NHANES, le modèle discret CatBoost, un modèle de Gradient Boosting capable de prendre en compte les variables catégorielles, était le meilleur compromis en termes de performance prédictive, de temps de calcul et de facilité de calibrage.
- La troisième étape a été d’estimer, sous diverses hypothèses économiques, la prime pure pour un produit d’assurance, de type assurance décès, qu’un assureur demanderait à chacun de ses assurés. Pour un contrat d’assurance vie donné, la variation de la prime pure entre deux assureurs dépend uniquement du choix de modélisation de la mortalité. La valeur de la prime pure de ce type de produits est en effet exprimée comme une fonction décroissante de la probabilité de survie à chaque période de temps.
- Enfin, le ratio de sinistralité, qui est le ratio du montant global des sinistres et du montant global des primes, est calculé afin de mettre en évidence le résultat de l’assureur en fonction de sa stratégie de tarification. Cette situation de monopole est principalement utilisée pour la comparaison avec le cas de concurrence. Les résultats sur le marché constitué par la base de test ne permettent pas une conclusion claire : même si le ratio de sinistralité de certains modèles est légèrement plus proche de 100 %, les effets ne sont pas significatifs à cause des erreurs d’estimation.
Le choix de modélisation : un réel facteur de concurrentialité
Suivant cette procédure, un marché d’assurance vie simplifié a été modélisé afin d’avoir une première estimation de l’impact de l’utilisation de tel ou tel modèle de tarification. Deux assureurs utilisant des stratégies de tarification différentes pour le même produit sont en concurrence. Cela permet de mieux comprendre l’importance de la modélisation de la mortalité et de procéder à une comparaison concrète des modèles à des fins actuarielles. Le marché se divise entre les assureurs en prenant uniquement en compte le facteur économique : chaque individu de la base de test décide de s’assurer chez l’acteur proposant le tarif le plus attractif. Cette première expérience a mis en évidence que, toutes choses égales par ailleurs, utiliser un modèle de Machine Learning semble permettre de gagner des parts de marché et donc de battre un concurrent avec des méthodes de régression. L’assureur utilisant le Machine Learning parvient à obtenir un ratio de sinistralité proche de 100 % tandis que l’assureur traditionnel réalise des pertes. La division du marché entre les deux assureurs est en effet bénéfique à celui qui dispose de la technologie la plus avancée car cet assureur semble pouvoir proposer des prix plus attractifs aux personnes moins risquées.
Une deuxième expérience a été menée pour évaluer la valeur de l’information pour deux assureurs utilisant la même méthode de modélisation. Les souscripteurs s’efforcent actuellement de mesurer l’avantage de l’inclusion de l’information obtenue et contrôlée par des analyses médicales. Cela empêche en effet les souscriptions déclaratives en ligne que les clients pourraient faire eux-mêmes. En outre, l’obtention de ces informations exige des frais supplémentaires et peut donc décourager certaines personnes. Dans cette optique, nous avons décidé de comparer le résultat de deux assureurs utilisant le Machine Learning sur un marché concurrentiel si l’un d’entre eux décide de limiter sa tarification aux informations déclaratives. Lorsque seules des variables déclaratives sont utilisées pour tarifier les contrats, un assureur a tendance à attirer uniquement les mauvais risques. En effet, un tarif identique est proposé à des assurés ayant les mêmes caractéristiques indépendamment de leur situation médicale. L’estimation du risque est surestimée pour les « bons risques » et au contraire sous-estimée pour les « mauvais ». Dans une situation de monopole, la rentabilité de l’assureur n’est pas impactée car ces deux effets se compensent. Cependant lorsqu’un concurrent, capable de différencier les « bons » des « mauvais » risques, est présent sur le marché, l’assureur entrant propose un tarif moins avantageux aux profils les plus risqués. Le portefeuille de l’acteur disposant du minimum d’information est donc constitué d’individus avec une sinistralité importante et qui a été sous-estimée, cela engendre donc des pertes. Cette simulation met ainsi en évidence que les informations supplémentaires, malgré les frais de souscription, sont précieuses car elles permettent d’éviter l’antisélection.
Conclusion
Les résultats obtenus dans le cadre de mon mémoire pourraient être étendus afin de mieux présenter l’environnement réel auquel sont confrontés les assureurs. Afin de confirmer le réel avantage du recours au Machine Learning pour la tarification, une modélisation pourrait être menée sur un marché ouvert à partir d’une population représentative d’une population assurée, dans lequel de nouveaux assurés pourraient demander des produits d’assurance. Une étude approfondie sur le comportement des clients améliorerait également la modélisation. L’étude portait uniquement sur les aspects économiques en négligeant les considérations sur les préférences implicites telles que le processus de souscription, les actions marketing ou encore les valeurs de l’assureur.
Références et détails
Mémoire d’actuariat : a1c834b2b50a8592bfc120173a0c1db2.pdf (institutdesactuaires.com)
Mots-clés : Machine Learning – Analyse de survie – Modélisation – Risque de mortalité – Assurance Vie – Tarification assurance décès
Cet article a été initialement publié le 28 octobre 2021.
Bravo à Laurène, à la fois pour l’intérêt de sa recherche, et pour les qualités pédagogiques de sa manière de l’exposer. Sans barbarismes techniques abscons. Un très grand Merci à elle pour ce respect empathique des non initiés que beaucoup
d’entre nous, lecteurs, sommes certainement, comme je le suis moi-même.
Je profite de ce commentaire pour nous souhaiter à tous une belle dernière journée 2021, and the Best of Best pour 2022, avec une pensée très reconnaissante et toute particulière pour Éric Tazé-Bernard et François Lequiller qui s’échinent ardemment depuis des années à faire vivre ce trait d’union qu’est Variances entre toutes nos générations d’´Ensae . Un Très Grand Bravo à eux deux !!
Et une pensée émue pour Pierre Mathoulin, qui dans son mode très personnel même si peut-être pas toujours formidablement adéquat, a donné de sa personne avec une sincérité que personne ne peut lui contester.
Banzai ( « Mille ans de vie ! ») pour Variances, et bon passage à 2022 pour toutes et tous !!
Evelyne Huet ( 1979)
Merci beaucoup de ce sympathique message, Evelyne. Et puisque tu as la gentillesse de reconnaître le travail de François Lequiller et le mien, je me permets de partager tes remerciements avec l’ensemble du comité éditorial, et tout particulièrement Christophe Lagarde, notre cheville ouvrière qui fait vivre ce média; Alain Minczeles, relecteur infatigable et vigilant; Catherine Grandcoing qui nous aide à diversifier nos thèmes et sources d’articles; Gérard Bouvier et ses contributions régulières sur les sujets statistiques; Isabelle Tounassoud qui effectue le lien avec ENSAE Alumni; sans oublier les plus jeunes recrues qui nous ont rejoints l’an dernier, Samya Aboutajdine et Guillaume Simon.
Un grand bravo à toute l’équipe pour votre travail, je trouve les articles d’excellente qualité dans l’ensemble. Étant contributeur Wikipédia depuis quelques mois, j’essaierai de promouvoir la revue en mettant des articles en référence quand ce sera pertinent.
Et bien sûr, à nouveau une pensée pour Pierre Mathoulin.
Salut à tout le monde