Constat et mise en situation

Toutes les données ne sont pas « big », mais quand elles le sont, si on veut les rendre accessibles à l’analyse par le plus grand nombre il faut des outils interfacés utilisateurs (WYSIWYG1) capables de créer les « conditions » nécessaires à la manipulation et à l’analyse des données. Tous les utilisateurs ne seront pas « tous codeurs ».

Le marché a pendant très longtemps créé des outils avec à la fois du code pour commencer : SAS et puis s’est rajouté ensuite des interfaces « objet » permettant de manipuler : SAS Guide, EM. SPSS racheté par IBM, un autre ancêtre des outils, permettant lui aussi dans son interface de rajouter ou de compléter par du code et cela que ce soit dans sa solution d’analyse statistique plus classique ou dans celle de machine learning.

Il y a donc fort à penser que les outils de nouvelle génération vont aller dans ce sens : Azure Machine Learning, Watson, si tant est que l’on arrive à bien définir son périmètre, Dataiku.com dans une moindre mesure.

Le puriste prétend que les outils qui ne passent « que » par du code comme R et Python ne permettent pas de bien rentrer dans le modèle lui-même. C’est un peu faire fi du passé car pendant des années SAS et SPSS ont été les outils des « plus » grands spécialistes de la statistique du marché.

Pour « populer » la data science sur des données volumineuses, il faut donc des solutions nouvelles qui vont créer à la fois les clusters Hadoop sur un serveur et dans le cloud, générer du code Spark pour l’utilisateur de manière transparente tout en lui permettant de faire du « machine learning » via son interface utilisateur. Tout cela étant généré pour lui.

Dans ces nouvelles solutions on peut imaginer deux extrêmes :

  • Une API packagée qui fait tout (un modèle d’attrition) auquel l’utilisateur connecte ses données et en appuyant sur un bouton il fait tourner le modèle et obtient uniquement les résultats dans un tableau de bord. Les individus en base étant alors scorés. Une sorte d’API « presse bouton »2. C’est la solution la plus extrême que nous ne retenons pas dans notre présente analyse mais qui apparait de plus en plus sur le marché.

  • L’autre solution que nous privilégions est une interface utilisateur qui lui laisse la main sur la modélisation mais qui fait tout le back office, création des clusters, ajustement de la mémoire, transcodification du modèle en Spark et restitution des résultats. Evidemment « révolution numérique » oblige, nous voulons cette solution sur un cloud sécurisé avec le meilleur rapport coût/simplicité/performance et une interface on line accessible de n’importe quel point : du bureau ou en Home Office.

Vers un outil distant de machine learning capable de gérer les données quelle que soit leur taille :

L’interface retenue est Modeler d’IBM : puissante solution de machine learning/data mining relativement connue sur le marché.

Le cloud est celui d’Azure : un des plus simple à mettre en place et à gérer pour un utilisateur non informaticien. Notez que nous aurions pu prendre Azure ML comme outil de machine learning pour rester cohérent avec notre choix Microsoft, mais la récence de l’outil (en constante évolution notamment depuis le rachat de Révolution (R sous Windows) n’est pas, selon nous, aussi puissante encore en WYSIWIG que celle de Modeler, qui a plus de 20 ans d’existence.

Le défi étant de faire travailler ensemble deux technologies best of bread d’éditeurs pour le moins concurrents. Cela peut aussi être un enjeu !

Des résultats encourageants :

Nous avons traité des tables dépassant les 2 Milliards de lignes et faisant jusqu’à 7 tera de data. Ce qui déjà est énorme dans le marketing research. Les calculs qui prenaient plusieurs heures en local passent en moyenne 3 mn pour l’apprentissage et 6 mn pour récupérer les individus scorés. La performance est exponentielle.

Une fois le back office paramétré, l’outil est entièrement visuel et objet permettant de se concentrer sur le choix des modèles et l’interprétation des résultats et le volume de données traité semble pratiquement illimité.

L’outil passe automatiquement pour l’utilisateur d’un calcul sous SSAS/SQL Serveur à un calcul sur 10 nœuds de 50GB RAM et 8 cœurs sur HD Insight. Il s’auto adapte au volume.

Conclusions :

Sans préjuger réellement de l’évolution des outils on peut penser que les investissements des grands éditeurs pour ouvrir le marché de la data science va passer par des outils interfacés utilisateurs qui auront encapsulé les meilleurs algorithmes de machine learning. Ces outils gérant tout le back office permettront à tout moment d’y intégrer du code mais sans y obliger les utilisateurs. Cela démocratisera cette discipline et résoudra la pénurie des profils tout en permettant à des « personnes » métiers de faire du machine learning. Car de mon expérience, la connaissance la plus importante, est bien, comme je le soulignais dans une précédente étude la connaissance métier au-delà de l’aspect IT et « modélisateurs » que l’utilisateur peut apprendre peut-être plus rapidement.

2 https://www.datarobot.com/ ce serait un peu l’approche de cet éditeur