Cet article est basé sur la publication Expert Aggregation for Financial Forecasting paru dans The Journal of Finance & Data Science (2023)

Au cours de la dernière décennie, les techniques de science des données ont été régulièrement testées dans le domaine financier afin d’améliorer les techniques de prévision traditionnelles. Les algorithmes de Machine Learning promettent, entre autres, de relever les défis posés par les données de grande dimension, de prendre en compte une classe plus large de fonctions ou encore d’exploiter les non-linéarités ou les interactions dans les données pour améliorer les prévisions. Ces algorithmes ont été appliqués avec succès au risque de crédit (Khandani et al., 2010 ; Butaru et al., 2016) et au risque hypothécaire (Sadhwani et al., 2016).

Brève revue des méthodes

En ce qui concerne la construction de portefeuilles, Moritz et Zimmermann (2016) utilisent des techniques d’arbres (random forests) pour classer les rendements des actions et construire des portefeuilles, tandis que Heaton et al. (2017) utilisent des modèles hiérarchiques d’apprentissage profond pour la prédiction et la classification de variables financières. D’autres travaux se concentrent sur les prévisions de séries temporelles. Par exemple, Rapach et al. (2013) explorent les relations entre les rendements boursiers des pays et tirent parti des modèles LASSO pour prévoir les rendements boursiers aux États-Unis. Freyberger et al. (2020) utilisent l’adaptive group LASSO pour déterminer les caractéristiques de l’entreprise qui fournissent le plus d’informations pertinentes au modèle de prévision. Hutchinson et al. (1994) ; Yao et al. (2000) envisagent une approche non paramétrique avec des réseaux de neurones pour prévoir les prix des produits dérivés.

Rasekhschaffe et Jones (2019) ; Kozak et al. (2020) étudient comment les modèles d’apprentissage automatique peuvent améliorer les prévisions des rendements boursiers tout en évitant le sur-apprentissage .

Enfin, Gu et al. (2020) comparent les performances de treize techniques d’apprentissage automatique, dont les réseaux de neurones, les Random Forests et les modèles linéaires pour prévoir les rendements boursiers et construire des portefeuilles à partir des prédictions.

Dans la pratique cependant, le choix d’un modèle et de ses hyper-paramètres[1] n’est pas simple.

Initiée par Bates et Granger (1969) et basée sur les concepts de la théorie des jeux (Blackwell (1956) et Hannan (1957)), l’idée de combiner les prédictions peut s’avérer très efficace pour l’apprentissage prédictif. Moyenner plusieurs modèles peut conduire à une réduction de la variance et induire des erreurs de généralisation plus faibles (Breiman, 2001). Un point essentiel est la diversité des modèles pris en compte dans l’ensemble (Brown et al., 2005a,b). Les techniques de Bagging (Breiman, 1996) et de Boosting (Freund et al., 1996 ; Schapire, 1990) sont par exemple deux méthodes populaires pour générer et agréger des ensembles (Brown et al., 2005a,b).

La combinaison de différents modèles a également été utilisée pour améliorer les prévisions de séries temporelles, comme le lissage exponentiel avec ARIMA (Bai et al., 2010), AdaBoost avec des réseaux de neurones récurrents (Sun et al., 2018) ou pour prévoir des patterns sur les marchés actions (Lin et al., 2021). Weng et al. (2018) prévoient les prix des actions à partir d’un ensemble de réseaux neuronaux, un ensemble de Support Vector Machine, un arbre boosté et une Random Forest. Yang et al. (2020) intègrent différents algorithmes d’apprentissage par renforcement pour apprendre une stratégie de trading. Nti et al. (2020), Albuquerque et al. (2022) fournissent un examen complet des techniques d’ensemble utilisées en finance. Néanmoins, un algorithme peut être plus performant que d’autres pendant des périodes spécifiques et ces méthodes ensemblistes ne sont pas robustes aux changements de distribution des données.

Combinaison des modèles

Pour remédier à l’instabilité de la précision dans le temps, Littlestone et Warmuth (1994) et Vovk (1990) ont introduit une approche fructueuse pour les prévisions de séries temporelles : l’agrégation en ligne d’experts. Cette méthode permet de combiner en une seule approche les prévisions d’un ensemble de modèles, appelés experts (Cesa-Bianchi et Lugosi, 2006). Une nouvelle prévision est obtenue à l’aide de techniques de décision séquentielle et est théoriquement garantie d’être en moyenne aussi précise que la prévision du meilleur expert (Freund et al., 1997 ; Vovk, 1997, 1998). Le mélange résultant est continuellement mis à jour dès que les prévisions des experts sont disponibles. Il s’agit d’une propriété très utile en finance, dans des environnements généralement non stationnaires, car elle permet de reconsidérer régulièrement les meilleurs modèles. Cette approche est d’autant plus intéressante qu’elle ne fait aucune hypothèse sur le processus de génération des données. Ce cadre permet également de relever le défi de l’ajustement des hyper-paramètres, en considérant toutes les combinaisons de paramètres réalistes avec le même algorithme. En outre, l’agrégation d’experts réduit le risque moyen de l’estimateur tout en bénéficiant de résultats théoriquement solides sur la limite du regret optimal, i.e. l’agrégation garantit la meilleure combinaison possible d’experts ; le tout en ligne.

Ces propriétés attrayantes expliquent pourquoi les procédures d’agrégation séquentielle ont été intensivement étudiées ces dernières années (Azoury et Warmuth, 2001 ; Vovk, 2006 ; Atiya, 2020 ; Petropoulos et al., 2022). Le livre de Cesa-Bianchi et Lugosi (2006) fournit une introduction approfondie à cette approche. Les méthodes d’agrégation ont été utilisées avec succès pour des applications de prévision de séries temporelles, telles que la production d’électricité, les conditions météorologiques (Taillardat et al., 2016 ; Thorey et al., 2017), la pollution (Debry et Mallet, 2014 ; Auder et al., 2016) ou les taux de change (Amat et al., 2018). En particulier, la consommation d’électricité (Gaillard et Goude, 2014 ; Nowotarski et Weron, 2018) qu’on sait dépendante d’aléas climatiques, de changement d’usages parfois brutaux (par ex. crise COVID) et qui en outre bénéficie de l’expertise acquise lors de ces dernières décennies, profite de cette agrégation d’experts en ligne.

Dans notre travail, l’agrégation d’experts en ligne est utilisée pour surmonter la difficulté du choix entre plusieurs stratégies d’investissement et pour garantir la robustesse de l’investissement face à l’évolution des conditions du marché. Treize portefeuilles d’investissements différents sont construits sur la base de différents algorithmes d’apprentissage automatique (linéaires et non linéaires) qui prévoient les rendements boursiers à un mois à partir des caractéristiques financières des entreprises.

Notre échantillon comprend 30 000 actions cotées sur le marché américain sur la période 1957-2016, avec pour chacune d’elles 94 caractéristiques (« taille », « value », « momentum », etc.). Les portefeuilles d’investissement « long short » sont constitués sur la base des prévisions du modèle, en achetant les actions du décile de rendement attendu le plus élevé et en vendant les actions du décile le plus bas. Finalement, l’agrégation fournit une combinaison convexe des stratégies « long » et « short » basées sur les prévisions des experts individuels pour construire un portefeuille robuste.

Le mélange attribue chaque mois un poids à chaque expert en fonction de sa performance.

Nos tests permettent de comparer, sur ce vaste ensemble de données, les performances de stratégies agrégées avec celles des treize modèles de Machine learning individuels étudiés par les travaux de Gu et al. (2020). Les résultats de nos travaux montrent que cette technique d’agrégation en ligne permet d’obtenir des performances de portefeuille attractives, même dans des environnements financiers défavorables caractérisés par une forte non-stationnarité de la distribution des données.

Le portefeuille agrégé est non seulement plus performant que les experts individuels, mais il rend également l’approche plus robuste en s’adaptant dynamiquement aux changements du marché en ligne, ce qui réduit grandement l’expected shortfall.

Dans nos tests, nous montrons que l’agrégation permet d’élaborer une stratégie d’investissement avec un ratio de Sharpe annuel de 2,73, légèrement supérieur à celui du meilleur expert (un réseau de neurones qui atteint 2,67), tout en ayant une perte mensuelle maximale de 5 %, plus de deux fois inférieure à celle du meilleur expert (14 %). Cette performance peut être attribuée à la capacité de l’agrégation à tirer parti de la complémentarité des différents experts. En particulier, les experts basés sur les réseaux de neurones contribuent à un meilleur rendement moyen tandis que les techniques linéaires comme les moindres carrés ordinaires contribuent à réduire le risque. En fin de compte, le turnover du portefeuille agrégé reste proche de celui des experts individuels, autour de 120 %. Il faut noter que l’agrégation fonctionne comme un mode de pondération des titres de chaque portefeuille expert individuel, ce qui permet aux utilisateurs d’utiliser et de combiner n’importe quel algorithme, même des modèles black box et de bénéficier ainsi de plusieurs stratégies de portefeuille sans avoir à choisir.

Enfin, des spécialisations d’experts et d’agrégation sont proposées pour améliorer le mélange global.

Un expert qui surpasse l’agrégation permet d’augmenter l’ensemble initial d’experts avec des modèles supplémentaires dérivés de ce meilleur expert. Dans le même esprit, une spécialisation de l’agrégation est introduite et explore la possibilité d’affiner l’agrégation en fonction du contexte.

Ces travaux fournissent la première application de l’agrégation d’experts en ligne pour les stratégies financières. Ils s’ajoutent à la littérature croissante testant les techniques d’apprentissage automatique pour la gestion de portefeuilles, en utilisant un mélange adaptatif de portefeuilles long-short basé sur des prévisions d’experts.

 

Mots-clés : Agrégation d’experts – Apprentissage en ligne – Prévision – Séries temporelles – Consommation électrique – Prévision finance – Structuration portefeuille


[1] C’est-à-dire les paramètres qui ne sont pas optimisés comme le nombre de couches d’un réseau de neurones.