{"id":1426,"date":"2016-10-18T06:04:39","date_gmt":"2016-10-18T04:04:39","guid":{"rendered":"http:\/\/variances.eu\/?p=1426"},"modified":"2017-09-25T12:22:20","modified_gmt":"2017-09-25T10:22:20","slug":"regard-personnel-sur-le-dig-data","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=1426","title":{"rendered":"Regard personnel sur le Big Data"},"content":{"rendered":"<p lang=\"fr\"><span style=\"color: #000000;\">Je pianote ce soir sur le clavier de mon ordinateur. Il est 23h et je suis au hackathon organis\u00e9 par Data Science Game &#8211; une association cr\u00e9\u00e9e par d&rsquo;anciens ENSAE. Les participants se d\u00e9battent avec des donn\u00e9es actuarielles pour pr\u00e9dire le taux d&rsquo;achats de police d&rsquo;assurance. Les 500 Mo de donn\u00e9es auraient \u00e9t\u00e9 consid\u00e9r\u00e9es comme \u00ab\u00a0big\u00a0\u00bb il y a cinq ans. Elles tiennent maintenant ais\u00e9ment sur un ordinateur portable et il ne faut que quelques secondes pour calculer une moyenne. Tous ont d\u00e9j\u00e0 particip\u00e9 \u00e0 des comp\u00e9titions Kaggle, utilis\u00e9 plusieurs librairies de machines learning. Certains obtiennent des r\u00e9sultats une heure apr\u00e8s le d\u00e9but malgr\u00e9 des variables de types tr\u00e8s vari\u00e9s. On se doute que ce n&rsquo;est pas la premi\u00e8re comp\u00e9tition \u00e0 laquelle ils participent. Je circule d&rsquo;une \u00e9quipe \u00e0 l&rsquo;autre, les \u00e9crans montrent du python, un peu de R, une ligne de commande ouverte dans un coin, un notebook dans un autre, des machines distantes qui tournent quelque part. Ca discute beaucoup au sein des \u00e9quipes. Elles sont pour la plupart compos\u00e9es de personnes qui se compl\u00e8tent, le data manager, le programmeur, le machine learner. Au d\u00eener, j&rsquo;\u00e9change avec quelques \u00e9quipes. L&rsquo;un d&rsquo;eux me parle d&rsquo;un de ses amis qui apprend des r\u00e9seaux profonds pour entra\u00eener une machine \u00e0 jouer au jeu vid\u00e9o Doom. Il utilise des techniques de deep reinforcement learning. Nous abordons les domaines dans lesquels ces technologies s&rsquo;appliqueront. La m\u00e9decine sort en premier. Les transports en second. Les participants, vingt \u00e9quipes de quatre, ont \u00e9t\u00e9 s\u00e9lectionn\u00e9s sur une premi\u00e8re comp\u00e9tition. M\u00eame si je joue le r\u00f4le de mentor, peu me posent des questions techniques. Il y a peu de choses qu&rsquo;ils ne sachent d\u00e9j\u00e0. Tous connaissent la programmation et les statistiques. Apr\u00e8s 24h, certains assemblages deviennent plut\u00f4t complexes, la pr\u00e9diction est issue d&rsquo;un patchwork de mod\u00e8les. On appr\u00e9cie le coup de crayon des peintres, certains participants ont un bon coup de clavier. Les \u00e9quipes prennent tour \u00e0 tour la place de num\u00e9ro 1.<\/span><\/p>\n<p lang=\"fr\"><span style=\"color: #000000;\">Je songe \u00e0 cette heure avanc\u00e9e que la d\u00e9finition du big data s&rsquo;apparente plus \u00e0 une forme d&rsquo;horizon qui se d\u00e9place au fur et \u00e0 mesure qu&rsquo;on se rapproche d&rsquo;elle. Le temps qu&rsquo;on comprenne, cette petite troupe aura d\u00e9couvert un nouveau continent. Le moindre objet \u00e9lectronique \u00e9met constamment des donn\u00e9es et les data scientists s&rsquo;activent pour les connecter aux autres. La routine de notre quotidien s&rsquo;automatise peu \u00e0 peu et nous apprenons de plus en plus \u00e0 nous fier aux applications pour nous trouver le plus court chemin qui tienne compte des embouteillages ou commander silencieusement ce dont notre r\u00e9frig\u00e9rateur manquera bient\u00f4t. Au vu des comp\u00e9tences r\u00e9unies dans cette grande salle ce soir, on comprend que les ouvriers de cette construction sont tous agiles avec la programmation informatique, les math\u00e9matiques et souvent tr\u00e8s forts dans un des deux. On comprend aussi qu&rsquo;ils doivent se tenir inform\u00e9s des nouvelles technologies disponibles. Aucun des outils qu&rsquo;ils utilisent n&rsquo;existaient il y a cinq ans. Les data scientists ma\u00eetrisent plusieurs langages, savent que le MIT met \u00e0 disposition de qui veut des mod\u00e8les de deep learning capables de reconna\u00eetre des objets dans des images ou encore comment construire un traducteur automatique de texte. Ils savent aussi comment effectuer ces calculs rapidement, les optimiser si besoin, construire un site web pour montrer les r\u00e9sultats, croiser des donn\u00e9es avec d&rsquo;autres r\u00e9cup\u00e9r\u00e9es en masse sur internet.<\/span><\/p>\n<p lang=\"fr\"><span style=\"color: #000000;\">Le m\u00e9tier de programmeur, de par sa nature, consiste \u00e0 automatiser des t\u00e2ches r\u00e9p\u00e9titives qui sont toujours les m\u00eames quel que soit ce qui les a pr\u00e9c\u00e9d\u00e9 comme mettre \u00e0 jour un site web, recevoir une alerte si un mail contient un mot pr\u00e9cis. Le data scientist \u00e9tend cette capacit\u00e9 \u00e0 automatiser des t\u00e2ches qui d\u00e9pendent de facteurs humains. Ce sont des informaticiens capables de d\u00e9tecter des automatismes dans ce que nous consid\u00e9rions hier comme des al\u00e9as. Ce sont des statisticiens, des sociologues, des \u00e9conomistes capables de mettre en place des cha\u00eenes de traitement prenant en compte des interactions humaines. Elles r\u00e9agissent de plus en plus rapidement en fonction de l&rsquo;information saisie par des capteurs (cam\u00e9ra, sons, interactions avec un site web, r\u00e9ponses \u00e0 des questionnaires) et de donner une r\u00e9ponse appropri\u00e9e. Un exemple embl\u00e9matique de cette \u00e9volution est la voiture sans chauffeur qui roule entour\u00e9e de conducteurs humains. Elle re\u00e7oit en permanence les images de cam\u00e9ras. C&rsquo;est big. Elle r\u00e9pond en temps r\u00e9el. C&rsquo;est big. Elle d\u00e9tecte la pr\u00e9sence de passants devant elle. C&rsquo;est big. Cela marche gr\u00e2ce \u00e0 des r\u00e9seaux de neurones profonds qui ont des millions de coefficients. C&rsquo;est big. Elle va encore \u00e0 une vitesse raisonnable mais elle ira un jour plus vite que la vitesse autoris\u00e9e. C&rsquo;est big.<\/span><\/p>\n<p lang=\"fr\"><span style=\"color: #000000;\">Le big data r\u00e9v\u00e8le des habitudes dont vous ignoriez l&rsquo;existence. Les math\u00e9matiques disent comment les trouver. Les sciences humaines disent o\u00f9 chercher. L&rsquo;informatique permet de le faire. Un data scientist est une personne forte dans un domaine et pas mauvaise dans les deux autres. Une \u00e9quipe h\u00e9t\u00e9rog\u00e8ne un peu forte partout peut faire des \u00e9tincelles. Elle m\u00e9lange les cultures scientifiques pour imaginer et mettre en \u0153uvre un outil qui requ\u00e9rait l&rsquo;intervention humaine hier. Ce mouvement peut faire peur. Nous avons une industrie qui produit beaucoup et qui jette beaucoup. Le big data peut aussi se voir comme un moyen de faire en sorte que l&rsquo;industrie produise moins et de fa\u00e7on mieux adapt\u00e9e. Fini les tailles standard de v\u00eatements. Une simple photo et la machine choisira la meilleure coupe parmi celles qu&rsquo;elle conna\u00eet. L&rsquo;apport humain se r\u00e9duira de plus en plus \u00e0 la partie innovation.<\/span><\/p>\n<p lang=\"fr\"><span style=\"color: #000000;\">Le hackathon se termine. Le public boit une coupe de champagne. Les vainqueurs jouent avec les drones qu&rsquo;ils ont gagn\u00e9. Le jury dont je faisais partie a d\u00fb d\u00e9terminer le prix de la cr\u00e9ativit\u00e9 et le choix fut difficile tant les id\u00e9es \u00e9taient vari\u00e9es et int\u00e9ressantes. Comme mentor, j&rsquo;ai plus appris que je n&rsquo;ai donn\u00e9 de conseils. Les gagnants, des russes, n&rsquo;en avaient absolument pas besoin. D&rsquo;ailleurs mes deux voisins me sortent \u00e0 tour de r\u00f4le que le hackathon est un jeu qui se joue \u00e0 quatre et que les russes gagnent \u00e0 la fin. J&rsquo;ai dans mon sac les noms des participants. Je me doute que j&rsquo;en reverrais plus d&rsquo;un dans des journaux de recherche. Je discute avec des bons perdants fran\u00e7ais qui disent avoir un peu souffert de l&rsquo;agilit\u00e9 de leurs voisins au clavier. Une \u00e9quipe s&rsquo;est lanc\u00e9e dans l&rsquo;impl\u00e9mentation d&rsquo;une descente de gradient en C++ sans h\u00e9sitation. Ils regrettent de ne pas avoir assez vu de programmation durant leur formation. Il n&rsquo;y a qu&rsquo;en France o\u00f9 les math\u00e9matiques et l&rsquo;informatique sont scind\u00e9s. Et pourtant si coder s&rsquo;apprend relativement bien, coder des algorithmes efficaces requiert de bonnes connaissances en math\u00e9matiques. C&rsquo;est d&rsquo;ailleurs ce que visent les entretiens d&#8217;embauche. A d\u00e9faut de pouvoir recruter des jeunes tout de suite agiles, les soci\u00e9t\u00e9s cherchent ceux chez qui elles d\u00e9tectent la capacit\u00e9 \u00e0 rattraper leur retard dans le domaine algorithmique. Je doute que les \u00e9quipes de recherche des plus grandes soci\u00e9t\u00e9s soient encore uniquement fran\u00e7aises. La pr\u00e9sence de russes, d&rsquo;indiens ou de chinois apporte un peu de cette culture informatique essentielle au succ\u00e8s de l&rsquo;\u00e9quipe. Quand on a 36h comme dans ce hackathon, la notion de co\u00fbt est essentielle. La meilleure m\u00e9thode, si jolie qu&rsquo;elle soit, n&rsquo;a aucune valeur si elle ne retourne pas de valeur dans le temps imparti.<\/span><\/p>\n<p lang=\"fr\"><span style=\"color: #000000;\">Le DataScienceGame a gagn\u00e9 en popularit\u00e9. La formule a tout l&rsquo;air de s\u00e9duire les participants et les sponsors. Les universit\u00e9s de tous les pays y sont regroup\u00e9es. C&rsquo;est l&rsquo;occasion de comparer les approches, les outils. Python et R dans une moindre mesure sont les grands gagnants avec XGBoost qui a r\u00e9gn\u00e9 en ma\u00eetre absolu sur la performance. L&rsquo;association accumule les curriculum vitae de jeunes qui terminent leurs \u00e9tudes et tr\u00e8s prometteurs. Ils ont re\u00e7u leurs prix des Chief Data Officers des sponsors qui n&rsquo;ont pas manqu\u00e9 de leur signaler qu&rsquo;ils \u00e9taient en qu\u00eate de profils comme les leur. Ils ont n\u00e9anmoins insist\u00e9 sur le fait que la donn\u00e9es ne sont pas encore tout \u00e0 fait int\u00e9gr\u00e9es dans les strat\u00e9gies d&rsquo;entreprise et qu&rsquo;il est essentiel de savoir bien communiquer sur une m\u00e9thode de machine learning quand bien m\u00eame tous les tests assurent de son efficacit\u00e9. Je me rappelle une vieille conversation \u00e0 ce sujet autour de la meilleure fa\u00e7on de propager au sein d&rsquo;une soci\u00e9t\u00e9 une forme de culture des donn\u00e9es. Les deux options \u00e9taient celles de la cr\u00e9ation d&rsquo;une large \u00e9quipe d&rsquo;experts \u00e0 qui on d\u00e9l\u00e8gue les projets de machine learning ou la cr\u00e9ation d&rsquo;un ou plusieurs postes de data scientist dans chaque \u00e9quipe. La premi\u00e8re option permet de centraliser les r\u00e9solutions des probl\u00e8mes, de mettre en commun les jeux de donn\u00e9es internes afin de mieux les valoriser. Le Chief Data Officer est un chef d&rsquo;\u00e9quipe comme les autres \u00e0 la t\u00eate d&rsquo;une petite troupe agile qui avance parfois trop vite sur ces sujets. La seconde option a pour chef d&rsquo;orchestre un Chef Data Officier plus itin\u00e9rant qui doit visiter chaque \u00e9quipe afin d&rsquo;assurer une certaine coh\u00e9sion et une bonne adh\u00e9sion \u00e0 ces nouvelles m\u00e9thodes. Le choc des cultures est moins frontal.<\/span><\/p>\n<p lang=\"fr\"><span style=\"color: #000000;\">Plus personne ne discute de l&rsquo;int\u00e9r\u00eat des data scientist dans le monde internet car il n&rsquo;y a qu&rsquo;eux pour produire des indicateurs de performance l\u00e0 o\u00f9 l&rsquo;affluence d&rsquo;un magasin se mesure en ligne de log g\u00e9n\u00e9r\u00e9es par un service web. Ils regardent tout, m\u00eame la disposition des pages. Imaginez qu&rsquo;ils commencent \u00e0 se pencher sur la disposition des rayons au supermarch\u00e9 en pla\u00e7ant des puces tra\u00e7ables au bas des caddies et paniers ? Ils rendent possible ce qu&rsquo;aucun n&rsquo;imagine pouvoir faire tant l&rsquo;exp\u00e9rience accumul\u00e9e depuis des dizaines d&rsquo;ann\u00e9es parait imbattable. Comment imaginer qu&rsquo;une r\u00e9flexion de quelques mois est plus efficace que des ann\u00e9es d&rsquo;exp\u00e9rience ? On oublie trop vite que dans ce monde num\u00e9rique, il n&rsquo;est pas utile de tout d\u00e9placer physiquement pour essayer. Le premier enjeu qui se d\u00e9gage de ce hackathon est la gestion d&rsquo;une \u00e9quipe de data scientist. Si je devais synth\u00e9tiser le message des sponsors lors de l&rsquo;\u00e9pilogue, il ressort que la motivation premi\u00e8re du data scientist est plus li\u00e9e \u00e0 la r\u00e9solution des probl\u00e8mes qu&rsquo;au business de la compagnie. Leur manageur doit constamment g\u00e9rer leur curiosit\u00e9. Enfin, pour terminer la m\u00e9taphore, que restera-t-il au chef de rayon si l&rsquo;ordinateur se met \u00e0 tout d\u00e9cider par optimisation ? Va-t-il se sentir inutile ? Aujourd&rsquo;hui le placement de produits, demain le d\u00e9placement avec un robot ? C&rsquo;est oublier un peu vite que les data scientists optimisent des syst\u00e8mes sur la base d&rsquo;\u00e9valuations humaines. Achat, vente, sant\u00e9&#8230; La donn\u00e9e est uniquement humaine. Les aspects manuels vont se r\u00e9duire et notre chef de rayon aura plus souvent un smartphone \u00e0 la main. Ce second enjeu est plus un enjeu collectif. C&rsquo;est le propre de toute r\u00e9volution technologique.<\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Je pianote ce soir sur le clavier de mon ordinateur. Il est 23h et je suis au hackathon organis\u00e9 par Data Science Game &#8211; une association cr\u00e9\u00e9e par d&rsquo;anciens ENSAE. Les participants se d\u00e9battent avec des donn\u00e9es actuarielles pour pr\u00e9dire le taux d&rsquo;achats de police d&rsquo;assurance. Les 500 Mo de donn\u00e9es auraient \u00e9t\u00e9 consid\u00e9r\u00e9es comme [&hellip;]<\/p>\n","protected":false},"author":20,"featured_media":1568,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"footnotes":""},"categories":[99,15,135],"tags":[110,113],"class_list":["post-1426","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-data-science","category-tribune","tag-dupre","tag-hackathon","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/1426","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/20"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=1426"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/1426\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/1568"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=1426"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=1426"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=1426"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}