L’Initiative de Recherche « Cyber-Insurance: actuarial modeling » vise à définir les méthodologies adaptées à la quantification du risque cyber. La nature récente et évolutive du risque, la potentialité de phénomènes d’accumulation, rendent nécessaire une approche actuarielle fine. Le projet vise à fournir des méthodologies utilisables notamment pour :

    • la tarification de produits de cyber assurance
    • le provisionnement
    • la mesure de la qualité des données liées au cyber-risque

Le projet, financé par le Fonds AXA pour la Recherche réunit au sein de la Fondation du Risque (Institut Louis Bachelier) deux partenaires académiques, Ensae Paris et Sorbonne Université.

Introduction

Avec la croissance de l’économie digitale, le risque cyber est devenu l’une des menaces principales pesant sur les entreprises (cf notamment le rapport 2019 du ministère de l’Intérieur [RM19]). Face à ce nouveau risque, les compagnies d’assurances sont censées jouer un rôle crucial de protection financière, puisque la cyber-sécurité physique, même si elle permet de limiter le risque, ne permettra pas de le réduire à zéro. Cependant, l’évaluation de ce risque nouveau et sa tarification nécessitent des techniques statistiques et probabilistes avancées pour quantifier le risque, l’évolution de celui-ci et ses impacts financiers, afin de surmonter les défis inhérents aux cyber-assurances.

Hétérogénité et biais des bases de données

Comparé à d’autres risques actuariels, la difficulté pour évaluer le risque cyber réside principalement dans le fait que les données historiques, utilisées pour analyser statistiquement le risque, sont pour l’instant peu nombreuses, très hétérogènes en terme de qualité, et particulièrement délicates à collecter. En effet, tout laisse à penser qu’une part importante d’information est cachée, notamment parce que les victimes peuvent être réticentes à communiquer qu’elles ont subi une attaque cyber, inquiètes par l’impact que cette divulgation pourrait avoir sur leur réputation (atteinte à l’image, fuite des clients). Ce phénomène d’information cachée a des analogies fortes avec celui de hunger for bonuses bien connu dans le secteur de l’assurance automobile (où l’assuré peut avoir tendance à ne pas déclarer de petits sinistres pour éviter un malus sur son contrat d’assurance). Ici la crainte du malus est remplacée par celle de la réputation. Il est donc essentiel de bien prendre en compte ce phénomène de troncature dans l’analyse des données.

Nos études ont porté sur la base Privacy Rights Clearinghouse [1] (PRC), développée par une association de sensibilisation aux risques liés à la vie privée basée aux Etats-Unis, qui recense plus de 8000 événements (brèches de données) en y associant une fréquence (date de déclaration des brèches) et une sévérité (nombre de lignes hackées). Cette base publique est considérée comme une référence pour l’analyse des cyber-événements[2] mais comme beaucoup d’autres, elle comporte d’importants biais liés à sa constitution même, et elle ne donne pas d’information sur l’évolution de l’exposition au risque au cours du temps. D’autre part, les assureurs disposent d’une expérience trop faible en interne pour obtenir une vision fiable du risque (précision statistique faible) mais ont une bien meilleure vision sur leur exposition. L’enjeu méthodologique est alors de trouver le point d’équilibre entre l’analyse provenant du portefeuille (non biaisée mais peu fiable statistiquement) et l’analyse produite à partir d’une population de référence plus large (qui introduit un biais par rapport au portefeuille d’assurés, que l’on appelle communément risque de base).

Une vision partielle du risque

L’asymétrie d’information entre assureur et assuré tient au fait que l’assuré dispose en général d’informations sur son risque qui ne sont pas nécessairement remontées à l’assureur. Ce phénomène d’antisélection est particulièrement exacerbé dans le cas du cyber-risque. L’antisélection tient notamment au fait qu’un assuré est souvent plus exposé au risque concerné qu’un individu (ou qu’une entité dans le cas d’une entreprise) pris au hasard dans la population. La souscription d’un contrat d’assurance répond, chez l’assuré, à une prise de conscience du risque, souvent liée à une fragilité ressentie. L’aléa moral, quant à lui, tient à négliger sa propre protection face au risque pour la faire supporter par l’assureur via sa garantie. Les questionnaires ont certes pour but de débusquer les fragilités afin de mettre l’assureur au même niveau d’information et de ne pas déséquilibrer la relation économique entre les deux parties. Néanmoins il peut être relativement facile pour une entreprise de cacher à l’assureur certaines faiblesses de son réseau, en raison de sa complexité et de son opacité. Et inversement, certaines (petites) entreprises peuvent avoir également des difficultés à évaluer leur propre état de protection. Par ailleurs, le comportement des assurés vis-à-vis de la déclaration des sinistres cyber évolue, à la suite notamment des changements de réglementation (par exemple obligation de reporter les incidents au-dessus d’un certain seuil de sévérité) ainsi que de la banalisation des incidents.

Non-stationnarité du risque

La rapide évolution du risque cyber nécessite de mettre en oeuvre une modélisation dynamique du risque. Cette évolution est bien sûr tout d’abord technologique (croissance des réseaux, évolution technologique telle que l’essor des objets connectés…) mais elle est aussi due aux changements de comportements des hackers et des usagers qui modifient sans cesse leurs pratiques, tandis que leur perception même du risque évolue. Ces instabilités dans la nature comme dans la perception du risque rendent difficiles le calibrage des modèles ainsi que la projection du risque dans le futur et il est donc crucial de tenir compte de l’évolution dans la conception des modèles prédictifs.

Etude de la sévérité

Le coût de la garantie ne se résume pas à la simple détermination du prix, mais à l’évaluation des provisions à constituer afin d’être en mesure de faire face à des événements qui peuvent dévier fortement de ce scénario central. Cela passe tout d’abord par une analyse de la sévérité, par exemple en s’appuyant sur l’inférence d’arbres de régression et de classification (CART)[3]. L’objectif est d’analyser les impacts des caractéristiques sur la sévérité des cyber-événements. Nous nous concentrons particulièrement sur les événements «extrêmes», c’est-à-dire les événements pour lesquels la sévérité est supérieure à un seuil fixe. En effet, l’analyse de la base de données PRC soulève la difficulté d’estimer une moyenne conditionnelle en raison de la forte volatilité de la variable sévérité. Par conséquent, dans [FLT19], un arbre de régression médian permet de déterminer des groupes homogènes et d’estimer une sévérité moyenne au sein de ces clusters. Pour la queue de distribution et les événements extrêmes, l’étude via les arbres GPD met en évidence une sévérité hétérogène.

Etude de la fréquence et accumulation

Parmi les nombreuses caractéristiques des cyber-événements, celles liées à la mémoire des événements et aux comportements d’auto-excitation sont d’une importance majeure, car elles sous-tendent le regroupement et l’auto-corrélation des périodes de cyber-événements. Les processus de Hawkes multivariés sont particulièrement pertinents pour modéliser et prédire la fréquence des cyber-événements; ils sont mis en oeuvre dans [BrBH19] où nous développons une procédure d’inférence pénalisée pour capturer les interactions pertinentes entre les différentes classes d’événements.

Le caractère systémique du risque cyber repose également sur la possibilité d’une défaillance simultanée d’une proportion massive d’assurés. Un rapport de Cyence et Lloyd’s of London [L17] a ainsi estimé que, si un sinistre survenait chez un prestataire de cloud, le coût de l’attaque se situerait dans une fourchette de 15 à 121 milliards d’USD, avec une perte moyenne estimée à 53 milliards. Dans un tel scénario de cyber attaque massive, le principe de mutualisation, qui est à la base de l’assurance, n’est plus vérifié. Cette modélisation du risque d’accumulation est donc un véritable enjeu pour l’assurabilité du cyber-risque. Ainsi nous proposons dans [HJ19] d’adapter et de développer des modèles stochastiques épidémiologiques de contagion au contexte du cyber risque. Pour un type d’attaque donné, nous proposons un cadre général pour quantifier l’impact sur le portefeuille d’un tel événement, et calibrer la réponse de l’assureur (en terme de prévention et temps de réaction à l’attaque). La possibilité d’un « effondrement » du système de réponse est également considérée. Un tel effondrement pourrait se produire si trop d’assurés sont touchés simultanément. Dans ce cas, la compagnie d’assurances ne serait plus en mesure de porter assistance à ses assurés. Nous fournissons des bornes précises pour la probabilité de survenance d’un tel événement.

En conclusion, l’évaluation actuarielle du risque cyber nécessite une modélisation fine et robuste du risque, ainsi que la constitution de bases de données fiables sur lesquelles calibrer ces modèles. La construction de modèles adaptés est un enjeu scientifique et sociétal important.

Pour suivre l’activité du projet de recherche, nous vous invitons à consulter la page web

https://sites.google.com/view/cyber-actuarial

ou bien à contacter les porteurs du projet: Caroline Hillairet (caroline.hillairet@ensae.fr) Olivier Lopez (olivier.lopez@upmc.fr)

 

Mots-clés: Actuariat – risque cyber – arbre de classification et de régression – processus de Kawkes – modèle de contagion


[1] https://www.privacyrights.org/data-breaches

[2] cf. par exemple Eling et Loperfido [EL17]

[3] CART est un algorithme de construction d’arbre binaire, qui effectue un partionnement récursif des données, puis estime un modèle simple dans chaque élément de la partition (appelées feuilles de l’arbre). Différents critères de partitionnement peuvent être considérés, comme par exemple la médiane (arbre médian) ou bien la probabilité de Pareto généralisée (arbre GPD pour Generalized Pareto Distribution).


Bibliography

[BrBH19] Bessy-Roland Y., Boumezoued A., Hillairet C., Multivariate Hawkes process for Cyber Risk Insurance., 2019, soumis.

[EL17] Eling, M., Loperfido, N. Data breaches: Goodness of fit, pricing, and risk measurement. 2017, Insurance, Mathematics and Economics.

[FLT19] Farkas, S., Lopez, O., Thomas, M., Cyber claims analysis through Generalized Pareto Regression Trees with applications to insurance pricing, en révision

[HJ19] Hillairet, C., Lopez, O. Accumulation scenarios for cyber insurance based on epidemiological models, 2019, Preprint

[L17] Lloyds, Counting the cost – cyber-exposure decoded, 2017, Cyence.

[LP17] Lopez O., Picard F. Cyber-assurance : nouveaux modèles pour quantifier l’impact économique des risques numériques. 2019, Revue d’économie financière.

[RM19] Etat de la menace numérique en 2019, https://www.interieur.gouv.fr/Actualites/Communiques/L-etat-de-la-menace-liee-au-numerique-en-2019

Caroline Hillairet