{"id":3985,"date":"2019-03-18T08:10:52","date_gmt":"2019-03-18T06:10:52","guid":{"rendered":"http:\/\/variances.eu\/?p=3985"},"modified":"2019-03-18T09:17:46","modified_gmt":"2019-03-18T07:17:46","slug":"modeles-danalyse-predictive-plein-essor","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=3985","title":{"rendered":"Les mod\u00e8les d\u2019analyse pr\u00e9dictive en plein essor"},"content":{"rendered":"<p>L\u2019utilisation de mod\u00e8les d\u2019analyse pr\u00e9dictive, ou <em>predictive analytics<\/em> (PA), est en pleine progression. Elle est destin\u00e9e \u00e0 favoriser l\u2019augmentation des ventes et \u00e0 fournir des donn\u00e9es pour affiner les strat\u00e9gies marketing. Le recours \u00e0 ces mod\u00e8les devient ainsi une pratique courante pour mesurer par exemple le d\u00e9sir ou la capacit\u00e9 d\u2019achat des consommateurs, et ainsi pour calibrer les campagnes de vente et de communication.<\/p>\n<h3><strong>L\u2019organisation de la fonction PA<\/strong><\/h3>\n<p>Le mod\u00e8le organisationnel de la fonction PA consiste \u00e0 construire une \u00e9quipe PA compl\u00e8te. Une alternative \u00e0 ce mod\u00e8le est d\u2019utiliser des outils permettant d\u2019automatiser certaines t\u00e2ches chronophages. Quelques exemples de ce type de plateforme incluent DataRobot, Alteryx, RapidMIner et WTW Emblem pour la tarification non-vie dans le domaine de l\u2019assurance.\u00a0 Le but de ce type d\u2019outil est d\u2019all\u00e9ger le besoin de ressources pointues en PA en facilitant la construction des mod\u00e8les.<\/p>\n<p>En ce qui concerne le d\u00e9veloppement d\u2019un mod\u00e8le pr\u00e9dictif, le point de d\u00e9part consiste \u00e0 clairement identifier les besoins du business, port\u00e9s par la maitrise d\u2019ouvrage. \u00a0Cela va influencer le choix du mod\u00e8le utilis\u00e9, toutes choses \u00e9gales par ailleurs.<\/p>\n<p>Ci-dessous une liste des \u00e9tapes habituelles \u00e0 suivre pour toute t\u00e2che de PA\u00a0:<\/p>\n<ol>\n<li>Int\u00e9grer l\u2019initiative PA dans un contexte business<a href=\"#_ftn1\" name=\"_ftnref1\">[1]<\/a><\/li>\n<li>D\u00e9finir les besoins en donn\u00e9es<\/li>\n<li>Nettoyer les donn\u00e9es<\/li>\n<li>Choisir un mod\u00e8le et le d\u00e9velopper \u00e0 partir des donn\u00e9es disponibles<\/li>\n<li>Tester le mod\u00e8le<\/li>\n<li>Le lancer<\/li>\n<\/ol>\n<h3><strong>Les mod\u00e8les de PA\u00a0: quelle utilit\u00e9 ?<\/strong><\/h3>\n<p>Ce type d\u2019outil ne va pas aider \u00e0 r\u00e9soudre les probl\u00e8mes du business<a href=\"#_edn1\" name=\"_ednref1\">[2]<\/a>, ou \u00e0 trouver des donn\u00e9es.\u00a0 Il ne va pas non plus remplacer la connaissance du terrain, le besoin d\u2019un dictionnaire des donn\u00e9es, ni r\u00e9gler le probl\u00e8me \u00ab\u00a0\u00e0 donn\u00e9es inexactes, r\u00e9sultats erron\u00e9s\u00a0\u00bb.\u00a0 Sur tous ces points, c\u2019est bien \u00e0 l\u2019utilisateur de faire son travail.<\/p>\n<p style=\"text-align: center;\"><strong>Processus de PA\u00a0: R\u00e9sum\u00e9 des diff\u00e9rentes \u00e9tapes<\/strong><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-3986 aligncenter\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2019\/03\/Image1-2.png\" alt=\"\" width=\"920\" height=\"525\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2019\/03\/Image1-2.png 920w, https:\/\/variances.eu\/wp-content\/uploads\/2019\/03\/Image1-2-300x171.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2019\/03\/Image1-2-600x342.png 600w\" sizes=\"(max-width: 920px) 100vw, 920px\" \/><\/p>\n<p>Ce que fait l\u2019outil, c\u2019est\u00a0:<\/p>\n<ul>\n<li>automatiser le premier nettoyage de donn\u00e9es (valeurs manquantes, cr\u00e9ation de tranches d\u2019\u00e2ge ou autres, nuage de mots cl\u00e9s pour coder du texte en variable, d\u00e9tection des valeurs aberrantes, etc.),<\/li>\n<li>construire tous les mod\u00e8les possibles et imaginables sur un \u00e9chantillon de donn\u00e9es (ACP, ARMA, mod\u00e8le lin\u00e9aire g\u00e9n\u00e9ralis\u00e9, for\u00eat d\u2019arbres d\u00e9cisionnelle, <em>gradient boosted trees<\/em> <em>classifier with early stopping<a href=\"#_ftn2\" name=\"_ftnref2\"><strong>[3]<\/strong><\/a>, etc<\/em> ,<\/li>\n<li>tester et valider sur un second \u00e9chantillon de donn\u00e9es, et classer les mod\u00e8les en fonction de leurs capacit\u00e9s de pr\u00e9diction.<\/li>\n<\/ul>\n<p>L\u2019outil ajoute la panoplie appropri\u00e9e de fonctionnalit\u00e9s suppl\u00e9mentaires\u00a0 \u00a0: code visible, documentation technique sous MS Word, repr\u00e9sentation graphique de la capacit\u00e9 pr\u00e9dictive de chaque variable sous chaque mod\u00e8le (avec analyse de d\u00e9pendance) et bien d\u2019autres non-list\u00e9s ici.<\/p>\n<p>A partir de l\u00e0, c\u2019est au tour du business de reprendre la main. Le mod\u00e8le doit en effet \u00eatre compris pour \u00eatre compl\u00e8tement assimil\u00e9. Par l\u2019utilisation de la documentation g\u00e9n\u00e9r\u00e9e, de sc\u00e9narios individuels et autres graphiques, la face cach\u00e9e doit \u00eatre r\u00e9v\u00e9l\u00e9e. Ces \u00e9tapes peuvent \u00eatre r\u00e9utilis\u00e9es pour faire comprendre le mod\u00e8le aux autres parties prenantes et obtenir leur consentement.\u00a0 Certains points doivent \u00e9galement \u00eatre finalis\u00e9s, tels que la r\u00e9alisation de la documentation, avant le lancement effectif.<\/p>\n<h3><strong>Quelques exemples<\/strong><\/h3>\n<p>Prenons un exemple pour comprendre la premi\u00e8re \u00e9tape, qui rel\u00e8ve du business.<\/p>\n<p><strong>\u00a0<\/strong><strong><em>Besoin de la Maitrise d\u2019Ouvrage<\/em><\/strong><\/p>\n<p>Votre d\u00e9partement PA est contact\u00e9 par l\u2019\u00e9quipe de d\u00e9tection des fraudes qui explicite ses besoins\u00a0:<\/p>\n<p>\u00ab\u00a0Nous devons isoler les transactions qui comportent un risque plus \u00e9lev\u00e9 de fraude significative que les autres, afin de rendre les interventions du d\u00e9partement d\u2019investigation plus effective\u00a0\u00bb.<\/p>\n<p><strong><em>Support de la direction et des experts du march\u00e9<\/em><\/strong><\/p>\n<p>Vous devez discuter avec l\u2019\u00e9quipe de d\u00e9tection des fraudes et expliciter le p\u00e9rim\u00e8tre d\u2019\u00e9tude, l\u2019\u00e9ch\u00e9ancier, le seuil de mat\u00e9rialit\u00e9 des r\u00e9sultats, l\u2019acc\u00e8s \u00e0 la connaissance du march\u00e9.<\/p>\n<p><strong><em>Connaissance Business<\/em><\/strong><\/p>\n<p>Vous devez comprendre le processus actuel d\u2019identification de ces transactions, et pouvoir obtenir des retours sur des hypoth\u00e8ses de travail. C\u2019est important afin d\u2019\u00e9viter les \u201cfaux-positifs\u201d, par exemple mettre en \u00e9vidence une corr\u00e9lation \u00e9lev\u00e9e entre le nombre annuel de d\u00e9c\u00e8s par noyade suite \u00e0 une chute dans une piscine et le nombre de films de Nicolas Cage sortis dans l\u2019ann\u00e9e\u2026<\/p>\n<p><strong><em>Donn\u00e9es<\/em><\/strong><\/p>\n<p>Vous disposez de fichiers de donn\u00e9es en provenance de ce d\u00e9partement, mais vous devrez peut-\u00eatre disposer de davantage de donn\u00e9es issues de sources internes ou externes (par exemple d\u2019un courtier en donn\u00e9es\u2026). Assurez-vous de vous doter des comp\u00e9tences d\u2019un.e juriste qui v\u00e9rifiera la compatibilit\u00e9, avec le r\u00e8glement RGPD ou toute autre contrainte juridique, des transferts des donn\u00e9es d\u2019une entit\u00e9 juridique \u00e0 une autre<\/p>\n<p><strong><em>Valeur cible<\/em><\/strong><\/p>\n<p>Ce que cela signifie est le besoin imp\u00e9ratif de d\u00e9finir vos besoins. Mentionnons deux illustrations dans ce contexte\u00a0:<\/p>\n<ul>\n<li>Dans la premi\u00e8re, on remarque que l\u2019on ne recherche pas \u00e0 qualifier des transactions, mais des groupes de transactions qui rentreraient dans le champ d\u2019une enqu\u00eate unique.<\/li>\n<li>Dans la seconde, on construit un indicateur mettant en \u00e9vidence les transactions couvertes par l\u2019enqu\u00eate, et le r\u00e9sultat de l\u2019enqu\u00eate (montant recouvr\u00e9 net du co\u00fbt de l\u2019enqu\u00eate). Le fichier peut alors avoir un indicateur \u00e0 trois positions\u00a0: \u00ab\u00a0Non-enqu\u00eat\u00e9\u00a0\u00bb, \u00ab\u00a0Recouvrement positif\u00a0\u00bb, \u00ab\u00a0Recouvrement n\u00e9gatif\u00a0\u00bb.<\/li>\n<\/ul>\n<p><strong><em>Calcul avec tous les mod\u00e8les pr\u00e9dictifs possibles, classification des mod\u00e8les, \u00e9l\u00e9ments compl\u00e9mentaires<\/em><\/strong><\/p>\n<p>Le travail de mod\u00e9lisation peut maintenant commencer.<\/p>\n<p>Les donn\u00e9es doivent \u00eatre s\u00e9par\u00e9es en plusieurs sous-fichiers\u00a0: un pour le calibrage, un pour le test, un pour comparer les mod\u00e8les. En fait, comme une s\u00e9rie de tests sont effectu\u00e9s, il faut appliquer une segmentation plus fine et v\u00e9rifier que les donn\u00e9es utilis\u00e9es d\u2019un c\u00f4t\u00e9 ne le soient pas de l\u2019autre.<\/p>\n<p>Vient ensuite l\u2019\u00e9tape consistant \u00e0 rechercher les variables corr\u00e9l\u00e9es, \u00e0 faire une ACP et \u00e0 tester des mod\u00e8les lin\u00e9aires, voire des mod\u00e8les un peu complexes.<\/p>\n<p>On doit ensuite choisir le mod\u00e8le qui fonctionne le mieux, apr\u00e8s avoir explicit\u00e9 les crit\u00e8res de classement.<\/p>\n<p>Reste enfin \u00e0 documenter le mod\u00e8le choisi et \u00e9crire les \u00e9quations qui sous-tendent la th\u00e9orie sous-jacente \u00e0 ce mod\u00e8le.<\/p>\n<p>Toutes ces \u00e9tapes peuvent \u00eatre effectu\u00e9es par les plateformes de PA.<\/p>\n<p><strong><em>Retour vers le business<\/em><\/strong><\/p>\n<p>Mais le mod\u00e8le doit \u00eatre compris par la maitrise d\u2019ouvrage.\u00a0 Il faut s\u2019approprier ce que l\u2019outil a propos\u00e9. A-t-il mis en \u00e9vidence une corr\u00e9lation \u00e0 la Nicolas Cage?\u00a0 Ou bien est-ce une illustration de la parabole des aveugles et de l\u2019\u00e9l\u00e9phant (Anekantavada)<a href=\"#_edn2\" name=\"_ednref2\">[4]<\/a>, dans laquelle chacun devine le tout en touchant une partie (si l\u2019on touche \u00a0la jambe, l\u2019\u00e9l\u00e9phant ressemble \u00e0 un arbre; si l\u2019on touche l\u2019oreille, l\u2019\u00e9l\u00e9phant ressemble \u00e0 un \u00e9ventail; si l\u2019on touche la trompe, l\u2019\u00e9l\u00e9phant ressemble \u00e0 un serpent\u2026)?<\/p>\n<p>Est-ce que le mod\u00e8le sur-repr\u00e9sente les aspects riches en donn\u00e9es, mais oublie les aspects fondamentaux incorrectement couverts par le fichier? Est-ce que le ph\u00e9nom\u00e8ne est suffisamment stable pour que les r\u00e9sultats soient exploitables (par exemple, tous ceux qui ach\u00e8tent une veste jaune poss\u00e8dent une voiture et sont averses au risque)?<\/p>\n<p>L\u2019\u00e9quipe de d\u00e9tection des fraudes doit alors effectuer le lancement du mod\u00e8le sur les donn\u00e9es r\u00e9elles. Est-ce que les donn\u00e9es sont toujours disponibles?\u00a0 Le mod\u00e8le ne sera-t-il jamais utilis\u00e9 hors de son contexte? La documentation sera-t-elle mise \u00e0 jour?\u00a0 Les parties prenantes comprennent-elles suffisamment le mod\u00e8le pour continuer \u00e0 l\u2019utiliser? Ce travail substantiel est critique pour un bon d\u00e9ploiement de l\u2018outil.<\/p>\n<h3><strong>Conclusion<\/strong><\/h3>\n<p>Non, ce type de plateforme ne constitue pas la solution miracle \u00e0 tous vos probl\u00e8mes, mais il peut r\u00e9duire vos co\u00fbts et att\u00e9nuer les craintes que peut susciter la cr\u00e9ation d\u2019une \u00e9quipe de PA en termes de montant d\u2019investissement \u00e0 consentir.<\/p>\n<p><strong>Disclaimer<\/strong><\/p>\n<p>J\u2019exerce la profession d\u2019actuaire et travaille pour la <em>Society of Actuaries<\/em>. Je ne fais pas moi-m\u00eame de PA. Mon objectif ici est simplement de pr\u00e9senter quelques id\u00e9es bas\u00e9es sur les articles que j\u2019ai lus et les pr\u00e9sentations auxquelles j\u2019ai assist\u00e9.<\/p>\n<p><em>Mots cl\u00e9s : analyse pr\u00e9dictive, strat\u00e9gie marketing, donn\u00e9es, mod\u00e8le de pr\u00e9vision, ma\u00eetrise d\u2019ouvrage<\/em><\/p>\n<hr \/>\n<p><em><a href=\"#_ftnref1\" name=\"_ftn1\">[1]<\/a> Le mod\u00e8le PA est l\u00e0 pour r\u00e9pondre \u00e0 une question du business (par exemple, optimisation de la s\u00e9lection des prospects \u00e0 d\u00e9marcher, d\u00e9tection de fraude, minimisation du taux de d\u00e9part des clients r\u00e9guliers) dans un contexte business (allocation budg\u00e9taire au projet, \u00e9ch\u00e9ancier\u2026)<\/em><\/p>\n<p><em><a href=\"#_ftnref2\" name=\"_ftn2\">[2]<\/a> <a href=\"https:\/\/scikit-learn.org\/stable\/auto_examples\/ensemble\/plot_gradient_boosting_early_stopping.html\"><span style=\"text-decoration: underline;\"><span style=\"color: #0000ff; text-decoration: underline;\">https:\/\/scikit-learn.org\/stable\/auto_examples\/ensemble\/plot_gradient_boosting_early_stopping.html<\/span><\/span><\/a> pour plus d\u2019information<\/em><\/p>\n<p><em><a href=\"#_ednref1\" name=\"_edn1\">[3]<\/a> J\u2019ai suivi une pr\u00e9sentation donn\u00e9e par un vendeur de ce type de plateforme.\u00a0 L\u2019exemple phare utilise dans la pr\u00e9sentation en directe est la performance de pr\u00eats \u00e0 la consommation.\u00a0 Le choix de la variable cible \u00e9tait un indicateur Oui\/Non repr\u00e9sentant le remboursement du pr\u00eat \u00e0 \u00e9ch\u00e9ance, et non une mesure de profitabilit\u00e9.\u00a0 L\u2019intervenant admis, apr\u00e8s r\u00e9flexion et hors micro, que cela n\u2019inclut pas les pr\u00eats \u00e0 taux hauts g\u00e9n\u00e9rant un profit malgr\u00e9 un non-remboursement en fin de contrat et inclus les pr\u00eats \u00e0 taux faibles tarifes en dessous des frais fixes.\u00a0 Mais c\u2019est plus facile \u00e0 expliquer.<\/em><\/p>\n<p><em><a href=\"#_ednref2\" name=\"_edn2\">[4]<\/a> <span style=\"text-decoration: underline; color: #0000ff;\"><a style=\"color: #0000ff; text-decoration: underline;\" href=\"https:\/\/fr.wikipedia.org\/wiki\/Anekantavada\">https:\/\/fr.wikipedia.org\/wiki\/Anekantavada<\/a><\/span><\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>L\u2019utilisation de mod\u00e8les d\u2019analyse pr\u00e9dictive, ou predictive analytics (PA), est en pleine progression. Elle est destin\u00e9e \u00e0 favoriser l\u2019augmentation des ventes et \u00e0 fournir des donn\u00e9es pour affiner les strat\u00e9gies marketing. Le recours \u00e0 ces mod\u00e8les devient ainsi une pratique courante pour mesurer par exemple le d\u00e9sir ou la capacit\u00e9 d\u2019achat des consommateurs, et ainsi [&hellip;]<\/p>\n","protected":false},"author":218,"featured_media":3988,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[186,133],"tags":[],"class_list":["post-3985","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-fintech","category-themes","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/3985","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/218"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=3985"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/3985\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/3988"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=3985"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=3985"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=3985"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}