L’importance des données ne fait que croître dans la gestion d’actifs. Cette observation est évidemment pertinente pour la gestion alternative mais aussi désormais pour la gestion classique. La course à la performance a fait que le Big Data est le pain quotidien des Hedge Funds depuis de nombreuses années, ces derniers étant depuis longtemps habitués à manipuler de grands volumes de données. Mais de nouvelles données, aussi originales que pertinentes, arrivent désormais entre les mains de gestionnaires réputés « moins sophistiqués » (au sens des techniques quantitatives employées ou de l’importance de la vitesse de transaction).

Cadre de l’échange

Le 10 Février dernier s’est tenu le séminaire en ligne sur le thème « Alternative Data Use In Asset Management ». Ce séminaire a eu lieu en partenariat avec l’Association Française de Gestion et l’Institut Louis Bachelier (plus particulièrement l’initiative FaIR). Un lecteur intéressé pourra trouver ici (https://www.institutlouisbachelier.org/evenement/webinar-alternative-data-use-in-asset-management/) l’annonce de l’évènement et ici (https://www.institutlouisbachelier.org/multimedia/ilb-replay/) les ressources vidéo pour revoir l’évènement en totalité. Après une introduction par Marie Brière (Amundi), deux intervenants académiques se sont succédés pour animer ce séminaire : Alexander Denev (Turnleaf Analytics) et Ronnie Sadka (Boston College). Une table ronde, modérée par Charles-Albert LeHalle (ADIA), a ensuite permis de poursuivre le débat, en confrontant les points de vue de Ghizlaine Amrani (Quantcube), Pierre Haren (Causality Link), et Eric Lebigot (CFM).

Les données désormais entre les mains des gestionnaires d’actifs sont nombreuses et diverses, différentes et complexes. Le point crucial est qu’elles permettent une information toujours plus pointue sur les comportements et les liens entre agents, consommateurs, institutions ou compagnies. Par conséquent, le potentiel pour l’investissement est énorme. Les gérants d’actifs et les Hedge Funds l’ont bien compris et investissent désormais massivement dans ce domaine. Cette tendance n’est pas près de faiblir, notamment dans le cadre de l’intérêt croissant pour l’investissement socialement responsable. Le but de ce séminaire était donc de présenter des cas d’usage, leur valeur ajoutée pour les processus d’investissement dans toute leur diversité, leurs particularités, la manière dont la vérification avant utilisation peut se faire, et la façon dont elles peuvent impacter l’efficience de marché.

Nature des données alternatives

Si il n’y a bien entendu pas de définition officielle de ce qu’est ou de ce que devrait être une donnée alternative, Alexander Denev a cependant tenté de le faire. Les données alternatives en finance sont celles qui sont en général moins utilisées parmi les acteurs financiers, plus onéreuses, avec un historique plus court, et avec des défis d’utilisation plus grands (des données brutes difficile à manipuler avant de pouvoir être utilisées). Ces données peuvent être des données « hors marchés » (donc des données ne venant pas directement des places ou des échanges), ou être le produit indirect d’autres processus (transactions, échanges, navigation physique ou virtuelle, empreinte numérique, etc.).

Nous pourrions faire un inventaire à la Prévert des types de données auxquelles il est désormais possible d’avoir accès : données de localisation, photos satellite, données de chaine de production, données textuelles de type web, twitter, forums, réseaux sociaux ; données de transaction, de cartes de crédit ou données de marché haute-fréquence…, les exemples sont nombreux.

Ces données arrivent désormais avec des volumes et une variété croissants. Sous forme de texte, d’images, de vidéo, plus ou moins bien formatées, et parfois totalement non structurées. Pour cette dernière situation on peut penser aux échanges qu’il peut y avoir sur les forums de jeux vidéo, forums sur lesquels des conseils d’investissement ou des actions collectives à mener contre telle ou telle compagnie ! En conséquence, cette grande variabilité mène à de grands biais et de grands défis quant à leur assimilation. Le traitement qu’elles nécessitent implique évidemment une dose importante de Machine Learning tout au long de la chaîne.

Biais inhérents aux données alternatives

Sur le fond, il n’y a pas vraiment de limite tant que la validité statistique du produit final est assurée : toute donnée potentielle est bonne à considérer. Cependant, apprentissage automatisé et donnée brute peuvent ne pas faire bon ménage. Un enjeu pratique (potentiellement le plus grand) qui ne saute pas aux yeux est l’attribution d’une information à l’entité qu’elle concerne (en anglais, entity matching). En effet, comment être sûr d’extraire d’un magma de texte, des informations pertinentes et parfaitement attribuées à Tesla, Google, ou Kering ? Sans même parler des données manquantes, de leur absence de structure ou des données aberrantes. Une particularité de ces données est en particulier leur manque de profondeur : si la technique de collecte (ex : des images satellite) ou la source (ex : forum Reddit) est récente, la donnée sera par nature limitée dans le temps. Toute simulation l’utilisant ne pourra qu’être faite avec un recul temporel limité, la significativité statistique de l’exercice étant alors potentiellement très fragile.

Un défaut majeur de ces données est qu’elles peuvent présenter, par leur nature, leur fournisseur, ou leur caractère récent, des biais importants (sélection, survivance par exemple) ; et disparaître après être récemment apparues, si le fournisseur de données fait faillite. S’ajoutent à cela les questions légales : est-on sûr de pouvoir toujours les utiliser, d’autant que les régulations sur ce point sont hétérogènes entre l’Europe et les Etats-Unis pour ne citer que ces deux régions.

Utilisation de ces données

Ces données peuvent être, et sont évidemment utilisées par des gestionnaires d’actifs pour générer des signaux d’investissement. Dans ce cas précis, organiser une chaîne complète et automatisée de la donnée au signal d’investissement est le principal défi. Mais l’utilisation des données alternatives ne se restreint pas à cela, et l’on voit aussi de nombreuses situations où ces données apportent une aide précieuse pour de l’aide à la décision d’une nature différente : investissement responsable, études macroéconomiques, mesures d’inflation, inférence sur les points d’inflexion ou la détection de tendance, « nowcasting », etc. Mais aussi pour mesurer le comportement des consommateurs, inférer les croyances et les prévisions d’experts, comprendre la coordination potentielle entre les investisseurs, détecter automatiquement des thèmes d’avenir, ou identifier des relations implicites entre des compagnies.

Conclusion

Ce ne sont là que quelques exemples mais l’idée est que ces données peuvent à nouveau permettre, pour l’investissement purement quantitatif, la perspective de pouvoir réintroduire des raisonnements ou des thématiques économiques. Cette possibilité est acquise lorsque d’un flot de données diverses émerge un narratif pertinent : par exemple, être capable d’automatiquement détecter en janvier 2020 que la problématique du Covid émerge quantitativement, au-delà de nos perceptions objectives de son danger ou de son caractère inoffensif. Un autre exemple serait d’être capable de prévoir les augmentations de taux à partir du corpus de texte des minutes des banques centrales pour en extraire le ton ou les intentions. Ceci fait qu’il n’y a pas parmi les utilisateurs de ces données que des fonds quantitatifs sophistiqués, mais aussi des fonds plus traditionnels, des discrétionnaires, ou même des « fintechs ».

Ces données permettent aussi de casser le paradigme implicite d’utilisation d’un signal en investissement quantitatif : une donnée, un signal. Ici, l’enrichissement des observables du monde économique autorise plus de stationnarité sur un « monde réel, observable », sans que la donnée soit acceptée ou rejetée en fonction de sa capacité à générer un signal d’achat-vente non stationnaire, uniquement sélectionné sur sa propension à générer des profits. En d’autres termes, ces données sont très utiles pour capter des tendances micro- ou macroéconomiques avec un haut niveau de détail, en permettant de s’abstraire du contexte financier immédiat. Charge aux investisseurs ensuite de les utiliser ou non, selon leur philosophie et leur mandat. Mais cette fenêtre ouverte sur une analyse quantitative plus fine des états du monde économique est assurément nouvelle.

Bibliographie

Vidéo de l’évènement : https://www.institutlouisbachelier.org/multimedia/ilb-replay/

Alexander Denev – The Book of Alternative Data (Wiley, 2020)

Chris Doloc – Applications of Computational Intelligence in Data-Driven Trading (Wiley, 2019)

Guillaume Simon
Les derniers articles par Guillaume Simon (tout voir)