Jérémie Jakubowicz (2002), VP Data chez ManoMano, a animé pour Ensae Alumni un petit déjeuner data-sciences consacré à l’IA dans l’e-commerce. A la suite de cet événement, Jérémie a accepté de répondre aux questions de variances.eu.

Variances : Jérémie, en quelques lignes, peux-tu retracer ton parcours entre ta sortie de l’ENSAE en 2002 et ton arrivée dans le secteur de l’e-commerce.

Jérémie Jakubowicz : Le stage que j’avais fait en deuxième année de l’ENSAE au sein de l’entreprise A2IA, encadré par Xavier Dupré (1999) a joué un rôle déterminant. Il faut se rappeler que l’époque était différente. Le Machine Learning n’était pas enseigné à l’ENSAE, à mon grand regret. Tout le monde s’en fichait pas mal et les Hedge Funds embauchaient à gogo. Pour moi c’était clair : pas question d’arrêter les études en sortant de l’école ; j’avais encore trop de choses à apprendre, à comprendre, je voulais faire de la recherche. Et j’ai eu la chance d’être admis en 3°année de l’ENS Cachan : le labo de maths était parmi les plus en pointe sur le traitement des images, et j’étais payé pour continuer mes études ! Un seul bémol : il fallait passer “l’agreg de maths”. Autant dire que 2002-2003, ma première année à Cachan, a été studieuse… J’ai ensuite suivi le master MVA (Mathématique Vision Apprentissage) : des cours d’une qualité exceptionnelle. Un pur bonheur. Puis tout s’est enchaîné, j’ai rencontré Jean-Michel Morel qui m’a dirigé en thèse sur un sujet de traitement des images numériques, la détection des segments de droite. J’ai poursuivi en post-doc au CNES (le Centre National d’Etudes Spatiales) pour appliquer ces techniques aux images satellites et j’ai obtenu un poste de Maître de Conférences dans la foulée, en 2008, dans l’équipe de stats de Télécom ParisTech. J’y ai découvert de nouveaux sujets passionnants comme l’algorithmique distribuée sur les graphes et, en particulier, l’optimisation distribuée. Sans le savoir, à travers la compréhension de ces sujets, j’ai acquis des compétences clés pour l’analyse des données massives, sujet qui commençait tout juste à se développer grâce à deux mots qui faisaient le buzz : Big Data. Enfin en 2011, j’ai décroché un poste de type chaire mixte CNRS à Télécom SudParis.

V : Dès 2013, le monde de l’entreprise t’apparaît comme un intéressant terrain d’application de la recherche.

JJ : Progressivement, je me suis tourné vers les applications de la recherche, notamment avec Matthieu Cornec (2003) qui venait de rejoindre Cdiscount. Ensemble, en 2014, nous lançons une thèse CIFRE sur le sujet des moteurs de recommandation. Parallèlement, nous proposons de créer un cours de 3°année à l’ENSAE sur l’analyse des données massives et nous en profitons pour rapprocher le GENES de l’Institut Mines-Télécom. C’est ce rapprochement qui transformera le projet Teralab en projet joint IMT-GENES. Teralab avait pour but de faire connaître les outils modernes d’analyse des données au-delà du monde de la recherche et des start-up, le tout dans un cadre sécurisé (données stockées en France, sécurité renforcée, etc). Je prends, à temps partiel, la charge de piloter les aspects scientifiques des projets Teralab. Le terme “Science des données” prend le pas sur celui de Big Data, et c’est tant mieux. En parallèle, je rejoins le duo Arthur Charpentier[1] (1999) et Romuald Elie (2002) qui est en train de lancer une formation dédiée à la science des données au sein de l’Institut des Actuaires. Ensemble, nous démarrons DSA (Data Science pour l’Actuariat) en 2015.

V : En 2017, tu deviens directeur des données de vente-privée.com (rebaptisée Veepee en 2019), chargé de créer et de développer l’activité IA dans cette entreprise à forte culture marketing produits.

JJ : Quand je reçois un appel du DRH de Veepee (vente-privée.com à l’époque) qui me propose de monter leur équipe d’intelligence artificielle, je décide de franchir le pas. La grande majorité de mes projets est déjà tournée vers l’industrie, et ça m’intéresse de comprendre les enjeux propres à l’industrialisation. C’est un des plus grands virages que j’ai pris dans ma carrière jusqu’à présent et je ne le regrette pas ! C’est l’occasion pour moi de comprendre que, quand on industrialise des projets d’intelligence artificielle, la partie scientifique arrive bien souvent en dernier. Il y a beaucoup d’autres défis à relever avant de pouvoir l’actionner. C’est une leçon d’humilité pour l’ancien chercheur que je suis, mais ça me semble bien naturel aujourd’hui.

Le premier défi auquel je dois faire face est celui du recrutement. Heureusement, les cours que je continue de donner m’offrent un lien privilégié avec les étudiant.e.s, et me permettent de les recruter à Veepee. Mais je me rends compte de la difficulté qu’il y a à recruter les profils les plus expérimentés.

Le second défi consiste à identifier les bons sujets sur lesquels travailler prioritairement. Et surtout la bonne manière de les aborder : quels livrables et quelle manière d’interagir avec les utilisateurs ? Les équipes métiers sont là pour aider, mais on n’évite pas quelques écueils.

Le troisième défi est celui du “packaging” des algorithmes de data science. Pour être facilement utilisables, il faut en faire de véritables produits. Il y a une composante logicielle très forte.

Enfin le dernier défi est celui de la culture de l’entreprise. Il n’est pas évident de faire accepter à Veepee que l’intelligence artificielle n’est pas l’ennemie du genre humain, et ne s’oppose ni à l’émotion ni à l’expertise. Que c’est un outil parmi d’autres, et que les systèmes gagnants sont ceux qui laissent l’humain “dans la boucle”. Il n’est pas non plus évident d’amener des réflexes de mesure, de quantification, de statistiques dans une entreprise qui mise avant tout sur ses intuitions – d’autant qu’elles ont souvent été gagnantes par le passé -.

V : Peux-tu évoquer quelques grands chantiers sur lesquels le pôle IA que tu dirigeais chez Veepee a prouvé son ROI positif ?

JJ : Après quelques ajustements, on a fini par définir ce qui serait nos bons sujets.

Celui de la personnalisation par exemple, qui à lui seul a rentabilisé l’investissement de Veepee dans la data science. Il faut avancer vite : en quelques mois, un prototype de moteur de personnalisation est “A/B testé”, il est basé sur des principes très simples et donne de bons résultats. Quelques mois plus tard, une version stable est lancée, elle prend en compte les contraintes exigeantes de la production : répondre en moins de 100 millisecondes.

Convaincu de l’intérêt de se rapprocher des écoles d’ingénieurs et de leurs labos, je monte également une chaire industrielle avec Télécom SudParis et Télécom ParisTech.

On avance à grande vitesse sur d’autres sujets : la mise en production d’un système de prévision des ventes et de catégorisation des produits. Mais nous sommes stoppés net par la fusion des différents sites européens de Veepee en un site unique sur lequel tous les algorithmes devront se brancher. C’est une évidence économique pour Veepee, il n’y a pas de sens à avoir trois plateformes différentes (vente-privee.com,  privalia.com et vente-exclusive.com). Il n’empêche : c’est un moment compliqué pour les équipes qui ne sont pas directement impliquées dans ce projet de migration. Le CTO de Privalia rejoint au même moment ManoMano et je le suis.

V : En 2019, tu rejoins donc les équipes de Matthieu Cornec (2003), Chief Marketing & Data Officer chez ManoMano comme VP Data de la plate-forme d’e-commerce de bricolage. Quels nouveaux challenges trouves-tu spécifiquement chez ManoMano et quels sont les grands chantiers auxquels tu te consacres ?

JJ : Bien qu’opérant dans le même secteur, le commerce 100 % en ligne, – les pure players comme on les appelle -, l’entreprise ManoMano est très différente de Veepee. ManoMano est une place de marché dont l’essentiel du trafic provient du moteur de recherche Google. En 2019, il n’y a pas d’app ManoMano, qui n’est pas encore un site de destination. L’équipe data science de l’entreprise est déjà constituée avec quelques profils très pointus. La culture de ManoMano intègre la donnée en son cœur, l’algorithme de calcul des montants d’enchères pour l’acquisition de trafic a joué un rôle clé dans la croissance de ManoMano. L’entreprise est convaincue de l’utilité des algorithmes de data science : elle s’est construite en partie grâce à eux. De plus, ManoMano a embauché plusieurs profils “datavores” d’Amazon et de Cdiscount ; deux entreprises qui scrutent les chiffres à l’affût des moindres signaux faibles. Chez ManoMano, on tranche les débats avec l’aide des données.

Chez ManoMano, je découvre aussi une autre dimension de la donnée : la donnée comme outil d’influence. Le choix des métriques a un impact déterminant, suivre une métrique plutôt qu’une autre va pousser le collectif dans une direction plutôt qu’une autre. Prenons la compétitivité par exemple. Si on cherche à être agressif et systématiquement proposer les produits les moins chers, alors il faudra suivre le nombre – ou le pourcentage – de nos produits qui sont plus chers que chez les concurrents. Et, semaine après semaine, s’assurer que ce chiffre diminue, ou en tout cas n’augmente pas. S’il augmente, il faudra en comprendre les raisons et essayer d’y remédier. Si on ne cherche pas à être le plus agressif, mais juste à rester dans le “peloton de tête”, on pourra suivre le nombre – ou le pourcentage – de produits dont le prix s’écarte trop de celui de nos meilleurs compétiteurs, disons plus de 10 %. En suivant la mauvaise métrique pour une stratégie donnée, on implémente tacitement une autre stratégie. La stratégie doit dicter la métrique, pas l’inverse. Et fabriquer une métrique “sur mesure”, pour qu’elle serve le mieux une stratégie donnée, est parfois plus difficile qu’il n’y paraît.

J’y (re)découvre aussi la science des données comme outil d’aide à la décision, et pas seulement comme outil d’automatisation. Il y a un mariage de l’ancien avec le moderne. Les analyses “toutes choses égales par ailleurs”, les méthodes basées sur les jumeaux synthétiques sont autant d’outils précieux qui combinent le Machine Learning et des concepts bien connus des économètres. L’inférence causale est un domaine que je ne connaissais pas du tout avant de rejoindre ManoMano. Je regrette d’ailleurs aujourd’hui de n’avoir pas été plus assidu dans les cours d’économétrie pendant ma scolarité à l’ENSAE.

V : En regard de tes expériences, quels enseignements aurais-tu envie de transmettre aux étudiant.e.s en data science qui doivent, pour choisir leur futur secteur d’activité, savoir prévoir les évolutions à venir d’un monde qui se transforme à toute allure ? 

JJ : Je recommande chaudement aux étudiant.e.s en data science de s’intéresser en profondeur à l’ingénierie logicielle. Ça leur permettra d’être capables de prendre en charge l’ensemble de la chaîne qui va du prototypage à la création de microservices. Elles/ils pourraient d’ailleurs prendre goût à ces aspects au point de vouloir en faire leur spécialité. Et pourquoi pas, candidater sur des postes de type “Data Engineer” ou “MLEngineer / MLOps”, qui sont pénuriques et le resteront encore pour quelques années je pense. Les data scientists qui considèrent que leur rôle s’arrête à la preuve de concept (PoC), et qui n’ont pas les compétences ou l’envie pour passer de l’algorithme au produit risquent au contraire de voir les opportunités se raréfier. Beaucoup de profils équivalent seront déjà positionnés sur le marché du travail. Je ne pense pas que le métier de data scientist, au sens français du terme[2], va disparaître. Mais je pense qu’il va changer de nature en allant beaucoup plus vers les aspects logiciels et vers les aspects de design (démarche produit).[3]

Je recommande aux étudiant.e.s de l’ENSAE de ne pas faire l’erreur de croire que la science des données se limite au Machine Learning. La demande en analystes ne risque pas de se tarir, à l’inverse de la demande pour les data scientists. Les sujets sont passionnants et en plein essor – l’inférence causale, cf. plus haut, à titre d’exemple. Les diplômé.e.s de l’ENSAE sont particulièrement bien placé.e.s pour être des analystes que les entreprises s’arrachent. Je m’attends à un appel d’air pour les métiers d’analystes dans les années qui viennent.

J’en profite pour encourager plus spécifiquement les étudiantes. Il y a un tel déséquilibre, qui s’accentue encore dans les postes de management, que certaines entreprises se lancent dans la discrimination positive. En effet, il est maintenant largement accepté que le manque de diversité – de genre en particulier, mais pas seulement – nuit à la productivité des équipes sur le long terme.

Enfin je recommande aux étudiant.e.s de l’ENSAE de ne pas hésiter à prendre des risques. En particulier, pour celles et ceux qui le souhaitent, à se lancer dans l’entrepreneuriat. Il y a peut-être une illusion d’optique, mais depuis ma fenêtre de quarantenaire, j’ai l’impression qu’il n’y a en réalité que très peu de risques à créer son entreprise à la sortie de l’école. Les sources de financement sont nombreuses et les réseaux d’entraide se multiplient. Si ça ne marche pas, le temps passé dans cette démarche sera hautement valorisé par les entreprises. Avec un crédit immobilier et des enfants, ce n’est plus la même situation. Ceci étant dit, les enfants, c’est pas mal non plus, mais ce n’est pas le sujet.

V : Pour finir, osons un peu de prospective : d’après toi, quels sont les prochains grands chantiers auxquels l’IA apportera toute sa puissance dans l’e-commerce ou dans d’autres secteurs d’activité ?

JJ : Un mouvement important, qui a déjà commencé et va prendre de l’ampleur, j’en suis persuadé, est la “commoditisation” de l’IA. On pourra bientôt – on peut déjà, en fait – monter son produit IA à partir de briques de base déjà toutes faites, comme on joue aux Lego. C’est un mouvement qui dépasse l’IA et qui touche toute l’informatique, c’est le “no code”. Sans être data scientist, on peut utiliser des produits qui simplifient énormément le déploiement des algorithmes d’IA. Je pense par exemple à l’excellent produit qu’est Dataiku, qui permet, sans une ligne de code[4], d’entraîner et de déployer un algorithme d’IA. Mais les progrès touchent aussi les outils pour les développeurs. Des librairies telles que Scikit-learn ont joué un rôle déterminant dans l’adoption du Machine Learning en dehors des laboratoires de recherche. De même Pytorch et Tensorflow pour le Deep Learning. Les progrès continuent, avec, par exemple, Tensorflow Extended ou AWS Sagemaker qui s’attaquent à la chaîne de traitement dans son ensemble. Je pense que ce mouvement va s’amplifier et va finir par bouleverser le rôle du data scientist. J’imagine un avenir proche où on n’aurait plus que des analystes d’un côté, utilisant des outils très perfectionnés, tirant profit de l’IA quand c’est nécessaire ; et des développeurs de l’autre, manipulant des frameworks holistiques incorporant la partie ingénierie et MLOps. L’autoML va continuer à prendre de l’ampleur.

En ce qui concerne le e-commerce, je pense que le domaine est déjà mûr. Ça a été un des premiers domaines à faire un usage systématique de l’IA en production. Ça m’étonnerait que les cas d’usages de l’IA, l’analytique mis à part, évoluent beaucoup dans les prochaines années : l’automatisation de la compréhension des produits (catégorisation automatique, qualification automatique), les moteurs de recherche intelligents et personnalisés mettant à profit les progrès spectaculaires dans la compréhension du langage, les moteurs de recommandation utilisant pleinement les graphes sous-jacents ; et, plus généralement, la personnalisation de l’expérience utilisateur, les prévisions des flux (si importants pour les dimensionnement des services et de la logistique), l’acquisition de trafic intelligente, le pricing dynamique, les robots conversationnels, le score de suspicion de fraude ; tous ces sujets sont déjà bien identifiés. La seule différence – de taille – est qu’ils seront, je pense, traités dans quelques années par quelques lignes de codes à partir de puissants frameworks. C’est d’ailleurs déjà le cas aujourd’hui mais avec un dilemme entre facilité d’implémentation vs performance. Demain, ce sera facilité d’implémentation et performance.

Je connais beaucoup moins les autres secteurs d’activité. Je m’aventure le temps d’un paragraphe en dehors de ma sphère de compétences. J’ai l’impression que dans d’autres domaines, la santé par exemple, il y a encore des progrès spectaculaires à faire. Je trouve fascinant les avancées qui ont été accomplies dans la prédiction de la structure spatiale des protéines à partir de la séquence d’acides aminés qui les composent. Et j’imagine qu’ils préfigurent des bouleversements à venir. On sent bien aussi que les interfaces Humain-Machine ne sont pas encore à leur apogée. La robotique et les machines autonomes sont des révolutions déjà enclenchées. La question de l’éthique et de l’équité est déjà bien présente mais les solutions convaincantes ne sont pas encore là ; en particulier pour assurer un brassage suffisant dans les réseaux sociaux et lutter contre les fausses informations. Ces derniers sujets, déjà brûlants en période d’élections, risquent de devenir critiques pour la société.

Propos recueillis par Catherine Grandcoing

 

Mots-clefs : data – intelligence artificielle – machine learning – analytics – MLOps


[1] Arthur Charpentier est un contributeur régulier à variances.eu, voir par exemple https://variances.eu/?p=4976

[2] Il est à noter qu’outre Atlantique, le terme de “Data Scientist” désigne aussi bien un.e ingénieur.e spécialisé.e  dans le Machine Learning qu’un.e analyste de données. En France, on a tendance à restreindre l’acception au seul Machine Learning

[3] Pour ceux que ça intéresse, n’hésitez pas à consulter des sites comme https://www.welcometothejungle.com/fr ou https://www.aijobs.tech/fr/ pour y trouver des exemples d’offres d’emploi

[4] Pour être précis : Dataiku permet aussi de faire du code