Au sein de la grande et récente famille des data scientists, divers profils ont émergé au-delà des traditionnels statisticiens : data analystes, data engineers, Kaggle masters, machine learners,… et depuis quelque temps les data scientists économistes que l’on pourrait également appeler data strategists.

Ces derniers possèdent des compétences bien spécifiques combinant maîtrise des outils quantitatifs et compréhension structurelle des phénomènes économiques sous-jacents, le tout au service d’une vision transverse leur permettant de faire le lien entre la stratégie de l’entreprise, les évolutions des marchés et les réalités opérationnelles. Les GAFA, et plus généralement les entreprises de la tech, en ont pris conscience très rapidement et en recrutent chaque année davantage, qu’il s’agisse d’analystes fraichement diplômés ou de profils beaucoup plus séniors de Chief Economists parmi lesquels on peut citer Susan Athey, Pat Bajari, Steve Tadelis ou encore Hal Varian.

Nous nous proposons dans cet article de répondre aux questions suivantes :

  • Qu’est-ce qui fait la spécificité de ces data scientists économistes ?
  • Quelles entreprises peuvent bénéficier de leurs compétences ?
  • Pourquoi un ENSAE est-il particulièrement bien placé pour devenir un parfait data scientist économiste et quels types de postes peut-il espérer occuper ?

Les données sont un actif stratégique qui, combiné aux algorithmes de Machine Learning et d’Intelligence Artificielle, génèrent des transformations majeures au sein des entreprises et des marchés

Face à la profusion de données et de moyens disponibles pour les traiter, les entreprises sont aujourd’hui dans la nécessité de définir une stratégie data. Elles doivent repenser la manière d’aborder leur cœur de métier historique et, d’un point de vue opérationnel, elles doivent également faire évoluer leurs manières de travailler.

Au-delà de leurs propres situations, leurs marchés sont confrontés à d’importants changements. D’une part les entreprises qui possèdent des données et qui savent les traiter sont susceptibles de pivoter vers de nouveaux secteurs, redessinant ainsi les frontières des marchés historiques. D’autre part, on assiste à la généralisation du modèle des plateformes bifaces qui intermédient les acteurs historiques. Une des particularités de ce modèle est d’améliorer l’efficience des marchés grâce aux données collectées.

Cette double révolution – data et algorithmes d’un côté, mutation des marchés de l’autre – fait écho aux buzz de ces dernières années autour du Big Data, de l’Intelligence Artificielle (IA), et de l’uberisation. Mais au-delà des buzz, c’est la valeur stratégique des données qui est au cœur de cette révolution. Et c’est tout naturellement que le Data Scientist, acteur central de cette révolution, sera d’autant plus à même de tirer son épingle du jeu qu’il disposera de compétences en économie lui permettant de participer à la création de valeur stratégique sans se limiter à la composante technique de son métier. Il endossera alors le rôle de Data Strategist !

Les profils de data scientists économistes sont créateurs de valeur dans un contexte de transformation des métiers historiques

Tout d’abord, les économistes occupent une place à part au sein de la famille des data scientists. Bien qu’ils fassent partie des profils historiques de data scientists, ils ne correspondent bien souvent pas aux canons du domaine pour lesquels les dimensions « code » et technologies Big Data font référence.

Comment expliquer ce décalage de perception qui fait que les profils d’économistes ne sont pas complètement perçus comme des data scientists ?

En premier lieu, l’économie empirique et l’économétrie ont longtemps concerné plutôt la macroéconomie. Cet aspect historique est en grande partie dû aux données disponibles, longtemps constituées de séries temporelles macroéconomiques. Ce n’est que depuis la fin des années 90 que la microéconométrie a vraiment pris de l’ampleur, notamment grâce à l’explosion de la masse de données individuelles disponibles, tant sur les personnes que sur les entreprises.

Ensuite, il faut reconnaître que malgré l’usage intensif de données micro, les économistes ont mis du temps à s’approprier les techniques les plus récentes issues du Machine Learning. Ce constat est en partie lié au fait que ces outils ne fournissaient pas directement les réponses auxquelles les économistes sont habitués (exemple : précision des estimations, causalité, etc.). Cependant, les développements récents de l’économétrie sont en train de changer la donne en créant des ponts avec le Machine Learning et l’intelligence artificielle.

Et pourtant, leur approche particulière des données leur confère un avantage comparatif indéniable

Dans un article récent de la Harvard Business Review (HBR) (https://hbr.org/2019/01/data-science-and-the-art-of-persuasion), les auteurs s’intéressent à la bonne manière de constituer une équipe de data science. Le constat de départ est simple : les dirigeants se plaignent de ne pas assez voir le résultat de leurs investissements dans les projets data. Un des points avancés pour expliquer cette déception concerne l’importance de poser les bonnes questions et de donner du sens aux données. Or justement cette capacité repose davantage sur des compétences liées aux sciences sociales que sur des compétences en mathématiques ou en informatique.

Ces compétences, alliées à la puissance des derniers algorithmes et des dernières technologies disponibles, permettent aux data scientists économistes d’avoir une valeur ajoutée indéniable en matière d’analyse des données.

Toute personne qui a déjà assisté à un séminaire de recherche en économie empirique pourra témoigner du fait que le « jeu » dans l’assistance consiste à essayer de s’assurer que la stratégie d’identification présentée est bien la bonne. L’auditoire essaye pour cela de proposer des contre-exemples sous formes de mécanismes économiques autres que ceux mis en avant, mais qui aboutiraient aux mêmes résultats que ceux observés.

Cet exercice de pensée, systématique en économie, permet d’apprendre à se poser les bonnes questions :

  • Traquer les biais (sélection, endogénéité, processus de collecte, etc.)
  • S’intéresser aux mécanismes structurels et pas seulement au résultat global (en forme réduite)
  • Dépasser les corrélations pour chercher la causalité

L’exemple des indicateurs de suivi pour illustrer cette approche particulière des données

Les indicateurs de suivi sont indispensables au pilotage des entreprises. Dans notre expérience de consultants, nous sommes cependant surpris de constater que les décisions stratégiques et opérationnelles sont parfois prises sur la foi d’indicateurs qui, au mieux, apportent une vision partielle de l’activité, et au pire en apportent une vision biaisée.

Par exemple, dans un contexte hospitalier, il est important de rechercher des indicateurs de performance corrigés des effets de contexte local. L’activité d’un hôpital dépend en effet du niveau de précarité de sa patientèle : recours aux urgences plus important, durées de séjour plus longues, moindre taux de recouvrement des factures. Autant d’indicateurs qui, s’ils ne sont pas corrigés de l’effet de la précarité, peuvent donner une vision biaisée de la gestion de l’hôpital (Hôpital 2.0 : Pour une gestion hospitalière data-driven, Gestions hospitalières n°567, juillet 2017). Cette approche peut également s’appliquer à toutes les activités qui incluent une dimension géographique (performance d’établissements scolaires, d’agences bancaires, collecte de déchets, etc.).

Au-delà de ce problème de mesure partielle ou biaisée de la réalité, les indicateurs peuvent même, dans certaines situations, avoir un impact négatif sur ce qu’ils mesurent. C’est le cas en particulier quand ils génèrent des incitations contreproductives. Par exemple, si un indicateur de détection de fraude tient compte uniquement du nombre de cas suspectés et ne pénalise pas les faux positifs, les agents vont avoir tendance à signaler des fraudes potentielles dès qu’ils auront le moindre le doute. Un tel indicateur fera probablement diminuer la fraude globale, mais il risque également de faire fortement augmenter le coût de détection.

Les questions auxquelles tentent de répondre les économistes ne sont pas les mêmes que celles auxquels tentent de répondre les autres data scientists

Il ne faut pas opposer économétrie et Machine Learning : les approches proposées par ces deux disciplines ont été développées pour répondre à des questions différentes mais complémentaires. On assiste d’ailleurs aujourd’hui à une forme de convergence entre ces disciplines : l’économétrie s’approprie une partie des méthodes usuelles du Machine Learning et inversement, les questions de causalité, chères aux économètres, font partie des thèmes identifiés pour faire avancer la recherche en Machine Learning.

Les réseaux de neurones convolutionnels (Deep Learning) permettent aujourd’hui d’obtenir des résultats impressionnants en matière de reconnaissance d’image ou de traitement du langage naturel. Les forêts aléatoires et le Boosting font partie des méthodes en pointe pour la détection de fraude. D’un point de vue général, les algorithmes de Machine Learning fonctionnent très bien pour résoudre des problèmes prédictifs pour lesquels il n’y a pas d’endogénéité, c’est-à-dire dont les résultats ne sont pas directement en interaction avec le système étudié.

En revanche, si l’on cherche à estimer une fonction de demande de manière naïve avec des techniques prédictives de Machine Learning, on risque de prédire ce qu’on observe dans les données, c’est-à-dire des équilibres de marché, et pas vraiment une fonction de demande.

De purs modèles de Machine Learning ou d’intelligence artificielle peuvent être erronés si les structures de marché changent par rapport à celles qui prévalaient et sur lesquelles ils auraient été entraînés.

Le data scientist économiste aura donc un avantage pour tout ce qui concerne l’analyse contrefactuelle et la recherche de causalité, mais également pour tout ce qui concerne l’économétrie structurelle. Dans ce domaine, il faut anticiper des situations qui n’ont pas été observées par le passé. Pour cela, il est nécessaire de construire des modèles structurels dont les paramètres sont ensuite estimés en utilisant les données disponibles et éventuellement des algorithmes de Machine Learning.

Ces situations surviennent, par exemple, dans des cas de concentration qui modifient les équilibres concurrentiels sur un marché. On les retrouve aussi lors de la mise sur le marché d’un nouveau produit partiellement ou totalement substituable aux produits précédents (par exemple un médicament générique à l’expiration du brevet du princeps).

Les data scientists économistes sont également particulièrement bien placés pour anticiper les limites de l’utilisation des algorithmes d’intelligence artificielle

Les progrès récents de l’intelligence artificielle génèrent un certain nombre de craintes sur les conséquences que pourrait avoir son utilisation trop rapide et non maîtrisée. De manière intéressante, une partie des sujets évoqués est en lien direct avec la recherche économique actuelle ou passée.

Prenons deux exemples : les risques de discrimination et les questions d’entente tacite.

Dans le premier, on peut craindre que l’intelligence artificielle ne mène à des situations de discrimination statistique, c’est-à-dire à des situations où l’algorithme prendrait une décision rationnelle en information imparfaite qui consisterait à utiliser l’appartenance à un groupe (ethnique par exemple) pour inférer les valeurs des caractéristiques qu’il n’observe pas. Bien que ce risque ait déjà été clairement identifié par de nombreux observateurs, les conséquences de la discrimination statistique dans le cas de l’intelligence artificielle ont en revanche été moins discutées. Ce thème a pourtant fait l’objet de nombreuses recherches en économie : la discrimination statistique est en effet d’autant plus problématique qu’elle peut mener à des prédictions auto-réalisatrices. C’est par exemple le cas si les agents adoptent des comportements sous-optimaux en anticipant que leurs efforts ne seront pas récompensés à leur juste valeur en raison de la présence future de discrimination statistique. Cette situation bien connue a par exemple été théorisée par Coate et Loury[1].

Dans le second exemple, la question qui se pose est celle d’une situation où deux intelligences artificielles seraient amenées à fixer des prix dans un duopole. Il est alors tout à fait possible qu’elles convergent naturellement vers un équilibre d’entente tacite quand bien même cette possibilité n’aurait pas été explicitement prévue dans le programme. C’est ce qu’ont montré fin 2018 de manière empirique des chercheurs de l’université de Bologne[2].

Les économistes apportent une compréhension stratégique de l’évolution des marchés et de la valeur des données

Les GAFA et plus globalement les entreprises de la tech ont compris l’importance des économistes et en recrutent non seulement sur des postes stratégiques (Chief Economist) mais aussi sur des postes intermédiaires (Product Owner) ou encore à des postes plus opérationnels (Analystes ou Data Scientists). Amazon, sous l’impulsion de Pat Bajari, son Chief Economist, est ainsi devenu un des premiers employeurs de docteurs en économie qui sont intégrés au sein de diverses équipes.

Une des raisons pour expliquer cet engouement tient au développement du modèle des plateformes bifaces telles Booking.com ou Uber. Ces dernières se positionnent en intermédiaires entre les acteurs historiques et les clients finaux disruptant ainsi les marchés traditionnels et redéfinissant la chaîne de valeur. Un tel positionnement central leur permet d’observer l’intégralité du marché là où les acteurs historiques n’en percevaient souvent qu’une partie. Au cœur de cette révolution se trouvent les données que ces plateformes accumulent plus vite et en quantité plus importante que les acteurs traditionnels. Elles acquièrent ainsi une connaissance, une compréhension et finalement une maîtrise des marchés inconnues jusqu’alors.

Pour exploiter ces données et en tirer parti, les Data Scientists sont en première ligne. Ils sont ainsi en charge de les traiter et les analyser, proposer des indicateurs de suivi, étudier l’activité de la plateforme, optimiser les choix stratégiques… d’où l’importance de n’être pas seulement un exécutant et de comprendre les besoins stratégiques, ainsi que d’avoir une vision transverse des besoins opérationnels de toutes les lignes de métiers.

Parmi les sujets spécifiques sur lesquels les data scientists économistes ont un rôle à jouer, on peut citer la correction des biais dans les systèmes de notation. Ceux-ci sont en effet au cœur de la proposition de valeur de nombreuses plateformes pour stimuler la compétition et garantir la qualité de service. Cependant, ces systèmes de notations posent de nombreux problèmes : comment inciter les utilisateurs à noter régulièrement et de manière impartiale ? Comment s’assurer que la note d’une des parties n’influence pas celle de l’autre partie ? Comment éviter la création de notes factices ? Des solutions ont été proposées, soit au niveau du timing de collecte et de divulgation (par exemple, en ne fournissant que l’évolution de la note moyenne à intervalles réguliers), soit en aval, pour redresser les résultats obtenus et tenir compte du fait que certains utilisateurs ont systématiquement tendance à noter de manière trop basse ou trop élevée.

Le champ des besoins est très vaste et couvre en fait l’ensemble des lignes de métier dont les enjeux business pourraient être étudiés sous l’angle des données : pricing, assortiment, systèmes de recommandation, classements, moteurs d’appariement, contrats d’exclusivité, finance etc.

Les data scientists économistes aident à porter un regard critique sur la valeur des données

Les données ont évidemment une valeur pour leur usage direct, mais également pour les possibilités qu’elles offrent de faire évoluer le cœur de métier voire de permettre à l’entreprise de pivoter vers de nouvelles activités ou un nouveau secteur.

Une illustration classique de secteur que les données sont amenées à bouleverser est le secteur de l’assurance. Aujourd’hui, le modèle économique repose sur une réponse aux asymétries d’information des assureurs vis-à-vis des assurés (alea moral et anti-sélection). Si demain les informations disponibles sont beaucoup plus nombreuses, tout peut changer. On peut ainsi citer l’arrivée de capteurs dans les voitures qui vont progressivement permettre de proposer des tarifs véritablement personnalisés. La suite de l’histoire est prévisible : fuite des bons conducteurs vers les assureurs qui proposeront les meilleurs tarifs, hausse du tarif pour ceux qui restent, redéfinition complète de la notion de mutualisation des risques.

Pour les changements de métier, on peut penser à des constructeurs automobiles qui se positionnent désormais comme acteurs de la mobilité, ou à la NFL (National Football League) qui est passée d’un modèle d’organisateur de compétitions sportives à une organisation sous forme de media capable de toucher ses fans 7 jours sur 7 tout au long de l’année.

La notion de valeur vaut également pour toutes les données que les entreprises divulguent à d’autres acteurs dont elles n’imaginent pas qu’ils pourraient être leurs concurrents de demain. C’est le cas dans le domaine de l’intelligence artificielle pour tous les services qui sont externalisés auprès d’autres entreprises qui se servent des données récoltées pour nourrir leurs algorithmes et améliorer ainsi leurs produits aux dépens de leurs clients qui les leur fournissent. Dans ce cas, les entreprises historiques s’exposent à un risque d’intermédiation de la part de ces nouveaux acteurs qu’elles auront contribué à faire émerger grâce à leurs propres données.

Conclusion provisoire

Il y a une vraie valeur ajoutée à faire de la data science avec un œil d’économiste et il est indispensable de maintenir cette spécificité pour dépasser le pur Machine Learning, plus orienté code et dont les métriques rassurantes peuvent parfois faire passer à côté des vraies questions. Il faut maîtriser les outils mais quelqu’un qui entraine des modèles sans forcément comprendre les enjeux est plus facilement remplaçable que quelqu’un qui sait bien faire parler les données.

Pour les plus jeunes, il semble donc primordial de conserver la double compétence qui fait la force des profils des ENSAE en se formant à la fois au Machine Learning et à l’économie.

Pour les plus anciens il n’est pas trop tard pour s’enrichir de l’état d’esprit du Machine Learning et aller au-delà des régressions linéaires (Lasso/Ridge, SVM (Support Vector Machine), forêts aléatoires, boosting, deep learning).

Pour les entreprises, nous pensons qu’il faut suivre l’exemple des plus grosses firmes américaines de la tech : intégrer à leurs équipes des Data Scientists économistes, penser à la valeur des données, pour le métier actuel, mais aussi pour d’éventuels pivots, et enfin penser à la valeur des données de leurs concurrents d’aujourd’hui sans oublier des entreprises qui pourraient venir sur leur marché afin d’anticiper les évolutions du paysage concurrentiel et des marchés en général.

Trois suggestions aux économètres de formation voulant se familiariser avec le Machine Learning

  • S’enrichir de l’état d’esprit et de la culture Machine Learning (notions d’échantillons de train et de test, de surapprentissage, technique de validation croisée) : lire par exemple An Introduction to Statistical Learning with Applications in R (http://www-bcf.usc.edu/~gareth/ISL/)
  • Se former aux logiciels adaptés (R, Python) et aux librairies comme scikit-learn
  • Suivre les liens récents faits par des équipes mixtes statisticiens/économistes pour travailler sur les questions de causalité en lien avec des algorithmes de Machine Learning (cf. par exemple les articles de Susan Athey, Julie Tibshirani et Stefan Wager)

* Cet article a été écrit à partir de la présentation faite par les auteurs au cours du petit-déjeuner Data Science d’ENSAE Alumni du 25 janvier 2019. Les auteurs remercient les participants pour leurs remarques constructives qui ont été intégrées autant que possible au présent article.


[1] Will affirmative-action policies eliminate negative stereotypes ? American Economic Review, 1993

[2] Artificial intelligence, algorithmic pricing and collusion, Center for Economic Policy Research, CEPR, DP 13405

Romain Aeberhardt et Philippe Février
Les derniers articles par Romain Aeberhardt et Philippe Février (tout voir)