{"id":6518,"date":"2022-04-04T07:15:35","date_gmt":"2022-04-04T05:15:35","guid":{"rendered":"https:\/\/variances.eu\/?p=6518"},"modified":"2022-04-04T07:17:12","modified_gmt":"2022-04-04T05:17:12","slug":"modeles-de-tarification-traditionnels-et-machine-learning-vers-une-nouvelle-collaboration-en-assurance","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=6518","title":{"rendered":"Mod\u00e8les de tarification traditionnels et Machine Learning : vers une nouvelle collaboration en assurance ?"},"content":{"rendered":"<p><em>Cet article est une synth\u00e8se du m\u00e9moire d\u2019actuariat \u00ab\u00a0\u00c9tude et impl\u00e9mentation de techniques d\u2019analyse de sensibilit\u00e9 dans les mod\u00e8les de tarification Non-Vie. Application \u00e0 la tarification \u00e0 l\u2019adresse\u00a0\u00bb, qui a re\u00e7u le Prix des jeunes actuaires 2021 d\u00e9cern\u00e9 par SCOR, consacr\u00e9 par Silvia Bucci \u00e0 l\u2019apport du Machine Learning aux mod\u00e8les de tarification en assurance. Il montre que ces nouvelles techniques permettent un enrichissement des strat\u00e9gies tarifaires mises en \u0153uvre par les assureurs, m\u00eame si la sophistication des techniques ne r\u00e9duit pas l\u2019importance d\u2019une intervention humaine dans l\u2019arbitrage entre performance, transparence et \u00e9thique.<\/em><\/p>\n<hr \/>\n<p>L\u2019utilisation des mod\u00e8les plus sophistiqu\u00e9s, connus sous le nom de mod\u00e8les de <em>Machine Learning,<\/em> n\u2019est pas nouvelle en assurance.<\/p>\n<p>Dans le processus de tarification, ces techniques sont exploit\u00e9es afin d\u2019atteindre une connaissance tr\u00e8s fine du risque et de la client\u00e8le, dans la s\u00e9lection des crit\u00e8res tarifaires, leur segmentation en classes de risques homog\u00e8nes, dans la cr\u00e9ation de nouvelles variables, \u2026<\/p>\n<p>Du fait que ces techniques reposent sur des hypoth\u00e8ses moins strictes sur la distribution des donn\u00e9es par rapport aux m\u00e9thodes \u00ab\u00a0traditionnelles\u00a0\u00bb telles que les mod\u00e8les lin\u00e9aires g\u00e9n\u00e9ralis\u00e9s (GLM), le <em>Machine Learning<\/em> interpr\u00e8te mieux que les GLMs la complexit\u00e9 de la donn\u00e9e, complexit\u00e9 qui peut se manifester sous plusieurs formes\u00a0: le nombre de variables en entr\u00e9e, la qualit\u00e9 de ces variables et leur lien avec la fr\u00e9quence et le co\u00fbt moyen des sinistres.<\/p>\n<p>Toutefois, le r\u00f4le de ces techniques est encore marginal et la plupart des assureurs continuent \u00e0 utiliser les GLMs comme mod\u00e8le de tarification principale, en faisant allusion au <strong>manque d\u2019interpr\u00e9tabilit\u00e9<\/strong><a href=\"#_ftn1\" name=\"_ftnref1\">[1]<\/a>(ph\u00e9nom\u00e8ne connu comme <em>Black Box ou boite noire<\/em>), \u00e0 la <strong>complexit\u00e9<\/strong> de la mise en place et au risque de <strong>personnalisation extr\u00eame<\/strong> du risque<a href=\"#_ftn2\" name=\"_ftnref2\">[2]<\/a> que les mod\u00e8les sophistiqu\u00e9s pourraient engendrer dans le processus de tarification.<\/p>\n<h3>Les interactions statistiques\u00a0: une expression de la complexit\u00e9 de la donn\u00e9e<\/h3>\n<p>Dans le cadre de ce m\u00e9moire, l\u2019objectif est <strong>d\u2019identifier la complexit\u00e9 de mod\u00e8les <em>black box<\/em> <\/strong>\u00e0 l\u2019aide de techniques d\u2019interpr\u00e9tabilit\u00e9 des mod\u00e8les et d\u2019analyse de sensibilit\u00e9 <strong>et de l\u2019int\u00e9grer dans un processus de tarification traditionnel, <\/strong>afin de garder une structure simple et intuitive, tout en b\u00e9n\u00e9ficiant du pouvoir pr\u00e9dictif des mod\u00e8les <em>Black Box<\/em>.<\/p>\n<p>Nous avons restreint la recherche de la complexit\u00e9 des mod\u00e8les sophistiqu\u00e9s aux <strong>interactions statistiques entre deux variables<\/strong>, c\u2019est-\u00e0-dire l\u2019impact simultan\u00e9 de deux variables sur la sinistralit\u00e9. Ainsi, il suffira d\u2019ajouter des termes crois\u00e9s \u00e0 l\u2019\u00e9quation tarifaire du mod\u00e8le de d\u00e9part.<\/p>\n<p>Les mod\u00e8les de Machine Learning incluraient d\u00e9j\u00e0 les interactions les plus fortes parmi les variables, mais celles-ci ne sont pas transparentes \u00e0 cause de l\u2019effet bo\u00eete noire.<br \/>\nLes indices de Sobol et les indices de SHAP appartenant aux domaines de l\u2019analyse de sensibilit\u00e9 et du plus r\u00e9cent <em>Explainable Artificial Intelligence<\/em> (XAI) sont les outils choisis pour \u00ab\u00a0ouvrir\u00a0\u00bb les mod\u00e8les <em>Black Box.<\/em><\/p>\n<p>Cette m\u00e9thodologie a \u00e9t\u00e9 appliqu\u00e9e au produit Multirisque habitation (MRH) de l\u2019assurance du particulier <em>Smart Home Pricing <\/em>pour la garantie <em>D\u00e9g\u00e2ts des eaux<\/em>. Sa particularit\u00e9 est que la tarification utilise des donn\u00e9es m\u00e9t\u00e9orologiques, \u00e9conomiques, climatiques, d\u00e9mographiques \u00e0 mailles fines, jusqu\u2019\u00e0 l\u2019adresse et m\u00eame au b\u00e2timent. Parmi les variables innovantes, nous utiliserons par exemple la pr\u00e9sence de gel, le nombre de jours orageux ou le nombre d\u2019artisans dans la commune.<\/p>\n<h3>Etapes de l\u2019\u00e9tude<\/h3>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignright wp-image-6519\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB1.png\" alt=\"\" width=\"364\" height=\"600\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB1.png 542w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB1-182x300.png 182w\" sizes=\"(max-width: 364px) 100vw, 364px\" \/>La force de la m\u00e9thodologie d\u2019\u00e9tude que nous proposons est qu\u2019elle peut s\u2019appliquer \u00e0 n\u2019importe quel type de mod\u00e8le.<\/p>\n<ul>\n<li>Dans un premier temps, nous avons mod\u00e9lis\u00e9 la fr\u00e9quence et la s\u00e9v\u00e9rit\u00e9 des sinistres \u00e0 partir des donn\u00e9es de la tarification \u00e0 l\u2019adresse.\u00a0\u00a0 Le\u00a0\u00a0 mod\u00e8le\u00a0\u00a0 traditionnel GLM, appel\u00e9 Benchmark sera celui auquel on ajoutera les interactions.<\/li>\n<li>Ensuite nous avons construit trois mod\u00e8les de Machine Learning, un arbre de r\u00e9gression, une for\u00eat al\u00e9atoire et un <em>Extreme gradient boosting<\/em> (xgboost) : ils ne seront pas utilis\u00e9s en tant que mod\u00e8les de tarification, mais comme mod\u00e8les complexes. On supposera que leur complexit\u00e9 est manifest\u00e9e par l\u2019introduction d\u2019interactions dans leur structure pr\u00e9dictive.<\/li>\n<li>En deuxi\u00e8me lieu, \u00e0 l\u2019aide de l\u2019analyse de sensibilit\u00e9 (indices de\u00a0\u00a0 Sobol) et\u00a0\u00a0 de XAI (indices SHAP), nous avons d\u00e9tect\u00e9 les interactions des mod\u00e8les complexes construits \u00e0 l\u2019\u00e9tape pr\u00e9c\u00e9dente.<br \/>\nL\u2019arbre de r\u00e9gression est interpr\u00e9table par construction\u00a0: l\u2019algorithme utilis\u00e9 construit une suite de partitions du portefeuille de plus en plus fines\u00a0; \u00e0 chaque \u00e9tape une variable et un seuil sont choisis et la population est divis\u00e9e en deux classes. Les classes de la derni\u00e8re partition sont appel\u00e9es n\u0153uds-fils et elles repr\u00e9sentent les pr\u00e9dictions associ\u00e9es \u00e0 chaque profil de risque.<br \/>\nLes interactions introduites par l\u2019arbre de r\u00e9gression sont lisibles par construction de l\u2019arbre\u00a0: chaque diramation introduit une variable qui interagit avec les variables des diramations pr\u00e9c\u00e9dentes.<\/li>\n<li>Enfin, les interactions seront ajout\u00e9es au mod\u00e8le de Benchmark : les interactions SHAP seront ajout\u00e9es en tant que fonctions indicatrices, car elles segmentent naturellement le domaine de d\u00e9finition de deux variables ; celles de Sobol, \u00e9tendues \u00e0 tout le domaine de d\u00e9finition, seront ajout\u00e9es comme termes polynomiaux du second degr\u00e9.<\/li>\n<\/ul>\n<h3>GLM : un mod\u00e8le interpr\u00e9table, mais peu complexe<\/h3>\n<p>Plus de 80 % du march\u00e9 de l\u2019assurance utilise un mod\u00e8le lin\u00e9aire g\u00e9n\u00e9ralis\u00e9 pour pr\u00e9dire la prime pure \u00e0 partir d\u2019environ 20 variables explicatives.<\/p>\n<p>En tant que sophistication des mod\u00e8les lin\u00e9aires dont ils h\u00e9ritent une structure lin\u00e9aire, il est possible de d\u00e9composer la pr\u00e9diction d\u2019un GLM dans la somme des effets de chacune des variables du mod\u00e8le\u00a0:<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-6523 aligncenter\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB2.png\" alt=\"\" width=\"669\" height=\"76\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB2.png 669w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB2-300x34.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB2-600x68.png 600w\" sizes=\"(max-width: 669px) 100vw, 669px\" \/><\/p>\n<p>En particulier, il est possible d\u2019obtenir la prime pure tr\u00e8s simplement \u00e0 partir d\u2019une calculette tarifaire. C\u2019est pour cela qu\u2019aujourd\u2019hui les GMS, introduits par Nelder et Wedderburn (1972), sont la norme de l\u2019industrie de l\u2019assurance pour d\u00e9velopper des mod\u00e8les analytiques de tarification.<\/p>\n<p>La d\u00e9tection des interactions par des m\u00e9thodes innovantes a \u00e9t\u00e9 motiv\u00e9e par une limite du GLM : ce mod\u00e8le, malgr\u00e9 son haut degr\u00e9 d\u2019interpr\u00e9tabilit\u00e9, n\u2019inclut pas des termes de degr\u00e9 sup\u00e9rieur (des polyn\u00f4mes multivari\u00e9s), c\u2019est-\u00e0-dire qu\u2019il manque de la complexit\u00e9 engendr\u00e9e par l\u2019effet crois\u00e9 de deux (ou plusieurs) variables.<\/p>\n<p>Selon les hypoth\u00e8ses du mod\u00e8le, l\u2019effet de chaque variable ind\u00e9pendante est constant quelle que soit la valeur prise par les autres variables ind\u00e9pendantes.<\/p>\n<p>Toutefois, l\u2019effet des variables peut \u00e9voluer en fonction des valeurs prises par l\u2019une des autres variables ind\u00e9pendantes introduite dans le mod\u00e8le.<\/p>\n<p>On dit dans ce cas qu\u2019il y a une interaction entre ces deux variables.\u00a0 L\u2019effet de l\u2019\u00e2ge sur le co\u00fbt d\u2019un sinistre n\u2019est pas constant par exemple, mais il d\u00e9pend de la valeur du logement.<\/p>\n<h3>M\u00e9thode innovante de d\u00e9tection d\u2019interactions<\/h3>\n<p>La pratique la plus utilis\u00e9e pour se rapprocher de la performance des mod\u00e8les de <em>Machine Learning <\/em>est l\u2019ajout manuel de termes crois\u00e9s ou d\u2019interaction (i.e. l\u2019\u00e2ge et la zone de r\u00e9sidence) parmi les variables explicatives dans l\u2019\u00e9quation tarifaire\u00a0: on compl\u00e8te cet ajout \u00e0 l\u2019aide d\u2019un test de significativit\u00e9, qui permet d\u2019\u00e9valuer si l\u2019on doit garder l\u2019interaction dans le mod\u00e8le.<br \/>\nIl est difficile de mettre en place cette pratique lorsqu\u2019on souhaite utiliser des donn\u00e9es plus complexes du fait de leur granularit\u00e9 (par exemple \u00e0 la maille adresse) ou de leur caract\u00e8re innovant et sectoriel.<\/p>\n<p>Pour y rem\u00e9dier, nous avons mis en place une m\u00e9thodologie de d\u00e9tection d\u2019interactions des mod\u00e8les de Machine Learning, dans une vision plut\u00f4t inclusive et collaborative entre les mod\u00e8les sophistiqu\u00e9s et les GLMs.<\/p>\n<p>Ainsi, en supposant que l\u2019interaction statistique est une manifestation de la complexit\u00e9 des mod\u00e8les <em>black box<\/em>, l\u2019optimisation d\u2019un GLM simple \u00e0 l\u2019aide des interactions b\u00e9n\u00e9ficie des gains op\u00e9rationnels des mod\u00e8les d\u2019apprentissage automatique.<\/p>\n<p>Les outils de d\u00e9tection employ\u00e9s, \u00e0 savoir les indices de Sobol et indices de SHAP sont les cl\u00e9s de relecture des mod\u00e8les pr\u00e9dictifs, puisqu\u2019ils visualisent et quantifient les impacts des variables d\u2019entr\u00e9e sur la sortie selon un \u00ab\u00a0juste\u00a0\u00bb partage.<br \/>\nCes deux techniques sont compl\u00e9mentaires, car l\u2019une intervient globalement, en quantifiant les interactions sur tout un portefeuille de client, alors que l\u2019autre est locale, c\u2019est-\u00e0-dire quantifie l\u2019impact de l\u2019interaction client par client.<\/p>\n<p>Au lieu de tester la significativit\u00e9 de l\u2019ajout de chaque terme \u00e0 l\u2019\u00e9quation tarifaire, nous avons ainsi pr\u00e9conis\u00e9 une autre approche, introduisant des mod\u00e8les qui utilisent intrins\u00e8quement des interactions.<br \/>\nCette m\u00e9thode s\u2019appuie sur la d\u00e9composition d\u2019une quantit\u00e9 d\u2019int\u00e9r\u00eat : la <strong>variance <\/strong>du mod\u00e8le ou la <strong>valeur pr\u00e9dite.<\/strong><\/p>\n<ul>\n<li>La variance du mod\u00e8le est d\u00e9compos\u00e9e en somme d\u2019autant d\u2019\u00e9l\u00e9ments que de groupes possibles de variables (par exemple le groupe \u00ab\u00a0\u00e2ge et valeur de l\u2019habitation\u00a0\u00bb).<\/li>\n<\/ul>\n<p style=\"padding-left: 40px;\">Chaque terme de cette somme, normalis\u00e9 par la variance totale, est appel\u00e9 <em>indice de Sobol d\u2019ordre k<\/em> et il repr\u00e9sente la partie de la variance induite par un groupe de <em>k<\/em> variables.<\/p>\n<p style=\"padding-left: 40px;\">On distinguera les indices d\u2019ordre 1, induits par une seule variable (par exemple l\u2019indice d\u2019ordre 1 de l\u2019\u00e2ge ou l\u2019indice d\u2019ordre 1 de la valeur de l\u2019habitation) et les indices d\u2019ordre sup\u00e9rieur \u00e0 1 qui sont induits par plusieurs variables simultan\u00e9ment. Ces derniers indices nous informent en particulier de l\u2019impact des interactions sur la variance d\u2019un mod\u00e8le.<\/p>\n<p style=\"padding-left: 40px;\">La force de ces indices r\u00e9side dans le fait que leur somme est \u00e9gale \u00e0 1, ils sont donc tr\u00e8s simples \u00e0 interpr\u00e9ter\u00a0: plus un indice est proche de 1, plus le groupe de variables consid\u00e9r\u00e9 sera important vis-\u00e0-vis de la variance.<\/p>\n<p style=\"padding-left: 40px;\"><img loading=\"lazy\" decoding=\"async\" class=\"alignright size-full wp-image-6525\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB3-1.png\" alt=\"\" width=\"505\" height=\"371\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB3-1.png 505w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB3-1-300x220.png 300w\" sizes=\"(max-width: 505px) 100vw, 505px\" \/>Consid\u00e9rons un des mod\u00e8les calibr\u00e9s qui pr\u00e9dit la fr\u00e9quence des sinistres, une for\u00eat al\u00e9atoire (RF). Les indices d\u2019ordre 1, c\u2019est-\u00e0-dire les indices qui quantifient l\u2019impact de l\u2019ajout des variables dans le mod\u00e8le singuli\u00e8rement, expliquent 24 % de la variance totale, alors que les interactions contribuent \u00e0 76 %. La variable la plus importante au sens de la d\u00e9composition de Sobol est la valeur de l&rsquo;habitation qui \u00e0 elle seule explique environ\u00a0 30 % de la variance.<\/p>\n<p style=\"padding-left: 40px;\">Les interactions entre deux variables, <em>les indices de Sobol d\u2019ordre 2,<\/em> ont \u00e9t\u00e9 estim\u00e9es et celles \u00a0\u00a0importantes (sup\u00e9rieures \u00e0 1 % ou 2 % de la variance, selon le mod\u00e8le) ont \u00e9t\u00e9 int\u00e9gr\u00e9es dans le mod\u00e8le de <em>Benchmark<\/em>.<\/p>\n<p style=\"padding-left: 40px;\">Nous nous sommes restreints aux indices du deuxi\u00e8me ordre pour \u00e9viter le sur-apprentissage et pour limiter le co\u00fbt algorithmique.<\/p>\n<ul>\n<li>La d\u00e9composition de la valeur pr\u00e9dite d\u00e9rive de la th\u00e9orie des jeux et c\u2019est une notion locale, qui s\u2019interpr\u00e8te individu par individu.<\/li>\n<\/ul>\n<p style=\"padding-left: 40px;\">Chaque client, selon la pr\u00e9diction de sa sinistralit\u00e9, se positionne au-dessus ou en dessous de la moyenne du portefeuille. Le positionnement d\u00e9pend de la contribution de chacune de ses caract\u00e9ristiques, appel\u00e9e valeur SHAP (SHapley Additive exPlanations).<br \/>\nLa valeur pr\u00e9dite, not\u00e9e <em>f(x)<\/em> pour un client <em>x<\/em> , peut alors se d\u00e9composer de la fa\u00e7on suivante :<\/p>\n<p style=\"padding-left: 40px;\"><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-6527 alignleft\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB4.png\" alt=\"\" width=\"493\" height=\"136\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB4.png 493w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB4-300x83.png 300w\" sizes=\"(max-width: 493px) 100vw, 493px\" \/><\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p style=\"padding-left: 40px;\"><img loading=\"lazy\" decoding=\"async\" class=\"alignright wp-image-6528\" src=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB5.jpg\" alt=\"\" width=\"600\" height=\"357\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB5.jpg 919w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB5-300x179.jpg 300w, https:\/\/variances.eu\/wp-content\/uploads\/2022\/03\/SB5-600x357.jpg 600w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/>Dans ce cadre, les interactions sont la partie de la valeur SHAP due au croisement de deux variables.<\/p>\n<p style=\"padding-left: 40px;\">Consid\u00e9rons le mod\u00e8le de fr\u00e9quence des sinistres <em>xgboost<\/em> et un individu du portefeuille dont le niveau SHAP de la valeur de l&rsquo;habitation est de -13.8 %.<br \/>\nCela signifie que l\u2019impact de la valeur de l\u2019habitation place l\u2019individu en dessous de la pr\u00e9diction moyenne (car le signe est n\u00e9gatif).<\/p>\n<p style=\"padding-left: 40px;\">Il est possible d\u2019isoler dans la valeur SHAP la contribution des interactions\u00a0: les interactions de la valeur de la maison avec l\u2019\u00e2ge, l\u2019anciennet\u00e9 et la surface ont un signe positif et elles sont responsables de la hausse du nombre de sinistres.<\/p>\n<h3>Vers une vision inclusive et collaborative ?<\/h3>\n<p>Dans le cadre de cette \u00e9tude, une analyse de sensibilit\u00e9 a \u00e9t\u00e9 men\u00e9e sur des donn\u00e9es relatives \u00e0 l\u2019adresse pour am\u00e9liorer le mod\u00e8le de tarification de la garantie \u00ab\u00a0D\u00e9g\u00e2ts des eaux\u00a0\u00bb. Elle a permis d\u2019ajouter de la complexit\u00e9 tout en gardant une structure analytique, transparente et interpr\u00e9table qui s\u2019int\u00e8gre parfaitement au processus de tarification traditionnel des organismes d\u2019assurance.<\/p>\n<p>Afin de respecter ces crit\u00e8res, nous avons reconduit le probl\u00e8me d\u2019optimisation tarifaire au probl\u00e8me de d\u00e9tection et d\u2019int\u00e9gration des interactions parmi les variables, l\u2019interaction \u00e9tant une expression de la complexit\u00e9 du mod\u00e8le. Nous avons d\u2019abord d\u00e9tect\u00e9 les interactions des mod\u00e8les plus sophistiqu\u00e9s, dits de type bo\u00eete noire \u00e0 cause de leur structure pr\u00e9dictive non accessible, en nous appuyant sur des concepts de la th\u00e9orie de jeux et de l\u2019analyse de sensibilit\u00e9 selon Sobol.<\/p>\n<p>D\u2019un c\u00f4t\u00e9, les indices de Sobol de l\u2019ordre deux nous informent de la part de la variance totale due \u00e0 chacune des interactions, de l\u2019autre les indices d\u2019interaction SHAP d\u00e9terminent dans quelle direction l\u2019interaction a un impact sur la pr\u00e9diction (si elle est \u00e0 la hausse ou \u00e0 la baisse \u00e0 cause de l\u2019interaction) et selon quelle intensit\u00e9.<\/p>\n<p>Ensuite nous avons int\u00e9gr\u00e9 les interactions d\u00e9tect\u00e9es localement (SHAP) et globalement (Sobol) en ajoutant des termes polynomiaux dans le mod\u00e8le GLM de d\u00e9part.<\/p>\n<p>Ces termes am\u00e9liorent le mod\u00e8le GLM simple selon des m\u00e9triques d\u2019\u00e9valuation habituelles (MSE, RMSE, MAE, Q2, Gini, d\u00e9viance, AIC) avec un gain entre 0.03 % et 17 %.<\/p>\n<p>Plus g\u00e9n\u00e9ralement, cette m\u00e9thodologie de d\u00e9tection ne se limite pas \u00e0 l\u2019optimisation tarifaire : son caract\u00e8re agnostique permet de l\u2019appliquer \u00e0 n\u2019importe quel mod\u00e8le complexe ou non. De plus, ce parcours nous a fait exp\u00e9rimenter une nouvelle approche portant sur la collaboration du Machine Learning et des mod\u00e8les lin\u00e9aires g\u00e9n\u00e9ralis\u00e9s (GLM) : dans la litt\u00e9rature actuarielle, on a tendance \u00e0 comparer la performance des mod\u00e8les plus complexes au GLM classique, ou \u00e0 se servir de l\u2019un ou de l\u2019autre type de mod\u00e8le pour deux \u00e9tudes s\u00e9par\u00e9es.<\/p>\n<p>Par ailleurs, la perception du risque g\u00e9ographique obtenue par les mod\u00e8les plus complexes et par les donn\u00e9es \u00e0 maille fine (\u00e0 l\u2019adresse et au b\u00e2timent) est plus pr\u00e9cise.<\/p>\n<p>Du point de vue de la strat\u00e9gie d\u2019entreprise, capter les interactions dans un mod\u00e8le, comme manifestation de la complexit\u00e9 de la donn\u00e9e sous-jacente, aide le processus de revalorisation tarifaire et permettrait notamment de cr\u00e9er une formule tarifaire personnalis\u00e9e selon un profil sp\u00e9cifique (\u00e9tudiant, propri\u00e9taire dans un grand centre, \u2026).<\/p>\n<p>Que ce soit en Vie ou Non-Vie, dans les lignes commerciales ou dans les produits du particulier, l\u2019utilisation du Machine Learning a une forte valeur ajout\u00e9e sur le placement de l\u2019assureur dans le march\u00e9 concurrentiel.<\/p>\n<p>Toutefois, bien que ces techniques permettent de mieux \u00e9valuer la prime de risque selon les caract\u00e9ristiques du client et d\u2019aider \u00e0 construire de nouvelles strat\u00e9gies tarifaires, elles ne remplaceront pas l\u2019assureur dans son r\u00f4le d\u2019arbitre entre performance, transparence et \u00e9thique.<\/p>\n<p>&nbsp;<\/p>\n<p><em>Mots-cl\u00e9s : Analyse de sensibilit\u00e9 &#8211; XAI &#8211; Interactions en assurance Non-Vie &#8211; Indice de Sobol &#8211; SHAP &#8211; MRH Multirisques Habitation &#8211; Tarification \u00e0 l\u2019adresse<\/em><\/p>\n<hr \/>\n<h3><strong>Bibliographie <\/strong><\/h3>\n<p>M\u00e9moire d\u2019actuariat\u00a0: <span style=\"text-decoration: underline;\"><span style=\"color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/foundation.scor.com\/sites\/default\/files\/2022-01\/Silvia_Bucci_Memoire_ia-light.pdf\">https:\/\/foundation.scor.com\/sites\/default\/files\/2022-01\/Silvia_Bucci_Memoire_ia-light.pdf<\/a><\/span><\/span><\/p>\n<p>&nbsp;<\/p>\n<hr \/>\n<p><a href=\"#_ftnref1\" name=\"_ftn1\">[1]<\/a> Les mod\u00e8les de Machine Learning, tels que <em>Random Forest<\/em>, <em>xgboost<\/em>, R\u00e9seaux de neurones ne sont pas interpr\u00e9tables et la loi conf\u00e8re aux individus le droit \u00e0 une explication de la logique qui sous-tend la d\u00e9cision (RGPD art.22, RGPD Raison 71), ce qui signifie que les mod\u00e8les de tarification doivent \u00eatre transparents et faciles \u00e0 communiquer \u00e0 tous. Les <em>multiplicateurs <\/em>(qui d\u00e9rivent des coefficients de r\u00e9gression lin\u00e9aire) identifient l\u2019effet que chacune des variables a ind\u00e9pendamment\u00a0\u00a0 des autres sur la sinistralit\u00e9.<br \/>\nOr, le manque d\u2019interpr\u00e9tabilit\u00e9 rend impossible l\u2019identification de tous les impacts dans un mod\u00e8le plus sophistiqu\u00e9.<\/p>\n<p><a href=\"#_ftnref2\" name=\"_ftn2\">[2]<\/a> L\u2019utilisation du <em>Machine Learning<\/em> dans la tarification peut conduire \u00e0 une \u00ab\u00a0personnalisation du risque\u00a0\u00bb extr\u00eame ou \u00e0 une discrimination, au d\u00e9triment de la mutualisation des risques, \u00a0\u00a0\u00a0\u00a0\u00a0par exemple sous la forme de primes extr\u00eamement \u00e9lev\u00e9es.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Cet article est une synth\u00e8se du m\u00e9moire d\u2019actuariat \u00ab\u00a0\u00c9tude et impl\u00e9mentation de techniques d\u2019analyse de sensibilit\u00e9 dans les mod\u00e8les de tarification Non-Vie. Application \u00e0 la tarification \u00e0 l\u2019adresse\u00a0\u00bb, qui a re\u00e7u le Prix des jeunes actuaires 2021 d\u00e9cern\u00e9 par SCOR, consacr\u00e9 par Silvia Bucci \u00e0 l\u2019apport du Machine Learning aux mod\u00e8les de tarification en assurance. [&hellip;]<\/p>\n","protected":false},"author":399,"featured_media":6531,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[141,164],"tags":[],"class_list":["post-6518","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-assurance","category-intelligence-artificielle","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/6518","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/399"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=6518"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/6518\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/6531"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=6518"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=6518"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=6518"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}