Il est légitime de se poser cette question, tant certains sujets ont parfois été montés en épingle, avant de reperdre leur intérêt. Cependant, il ne semble pas que les données massives soient une mode passagère. Les vraies questions pourraient porter sur sa durée et sur ses conséquences sociétales. Combien d’années va vivre ce nouveau paradigme de juxtaposition de sources ? Comment se définir dans une société d’algorithmes traitant en temps réel des images numériques avec le minimum d’interventions humaines ?

Il est probable que nous soyons entrés pour au moins une décennie dans un monde à dominante scientifique. Non seulement les investissements sont réalisés dans la durée par les entreprises, et ne sont pas éphémères, mais s’y rajoute une réelle orientation politique.

En introduction, nous considérions que le numérique a donné encore plus de poids aux méthodologies, aux modélisations et aux technologies. Cela ne semble pas prêt de cesser. Non seulement parce que de nombreux secteurs d’activité développent ce type de sources – en 2014, par minute, le monde a créé 1,7 million de milliards d’octets de données, c’est-à-dire l’équivalent du contenu de 360 000 DVD –, mais aussi parce que c’est un espoir de croissance économique et d’emplois.

Des avantages

Il est évident que nous ne sommes qu’au début des utilisations de ces données nombreuses. Chaque jour en fournit de nouveaux exemples, dans des domaines d’activité en progression permanente : médecine, épidémiologie et santé, assurances, sport, marketing, culture, ressources humaines….

Certes, le grand public ou les médias peuvent considérer que la ligne blanche est parfois dépassée dans certaines approches de ciblage marketing, mais à côté de ces errements, combien de progrès potentiels ? Dans l’histoire, a-t-on supprimé le système bancaire à cause de banquiers parfois véreux, de produits financiers toxiques ou de l’existence de hold-up ?

L’approche nord-américaine actuelle est révélatrice de cet état d’esprit et résumée par cette paraphrase d’un extrait d’un rapport de J. P. Holdren – E. S. Lander « Big Data and Privacy : A Technological Perspective », remis en mai 2014 au Président B. Obama, par le Conseil sur la Science et la Technologie auprès du Président (PCAST) : «  …. Quoiqu’il en soit, il y a des bénéfices et des risques …Santé : des « plus » évidents, mais des informations pour les sociétés d’assurance ; Déplacements par GPS : optimisation de la fluidité de trafic, anticipation des bouchons, mais localisation de l’individu ».

Pour être concret, trois exemples parmi tant d’autres : janvier 2014, Amazon a déposé un brevet pour anticiper les commandes de ses clients avant leur clic final de validation et commencer à envoyer les colis avant la confirmation de la commande ; Netflix a mis au point des algorithmes pour prévoir ce que veulent regarder les abonnés à son service de diffusion de films et de séries ; des chercheurs suisses ont mis au point une méthode de prévision de la prochaine destination de voyage d’une personne. L’énumération serait longue et, par nature, incomplète.

La note intitulée Analyse des Big Data, Quels usages, quels défis ? publiée en novembre 2013 par France Stratégie, ancien Commissariat Général à la stratégie et à la prospective, fournit une bonne synthèse. Dresser une liste à la Prévert ne servirait à rien, le quotidien ajoutant des exemples de valeur ajoutée apportés par la modélisation, les algorithmes – nouveau mot à la mode – ou par le machine learning appliqués aux données nombreuses, domaine en plein expansion, depuis le génie d’Alan Turing jusqu’à Arthur Samuel, Tom Mitchell, Vladimir Vapnik ou Alexeï Chernovenkis).

Un remue-méninges intéressant

Quand on n’y baigne pas dedans en permanence, il est difficile d’imaginer le présent foisonnement intellectuel.

Citons, par exemple, « The Falling Walls Conference 2014 » de Berlin, rencontres entre chercheurs et start-up scientifiques centrées sur les ruptures dans la pensée scientifique. Toujours en novembre 2014, à Paris, ont été organisées deux conférences en parallèle et en concurrence. La première, dénommée « Digital Innovation Summit » et placée sous l’égide de l’Electronic Business Group (EBG), a réuni plus de mille participants travaillant sur les données digitales en France : universitaires, chercheurs dans des start-up ou des entreprises établies (Orange, Danone, Coca-Cola, Criteo, Dassault Systèmes …). La deuxième était centrée sur le Data Management, avec des thématiques sur le cloud, les data, la qualité, les conséquences sur la gouvernance d’entreprise, et elle a regroupé plus de 250 participants (GfK, Schneider, CNRS, Accor …).

Le milieu statistique n’est pas en reste, avec des conférences lors du Colloque francophone de sondages de Dijon, toujours en novembre 2014, el la journée « Statistique et données massives : enjeux et perspectives » organisée par la Société Française de Statistique (SFDS) en octobre 2015.

Les acteurs des médias et de la publicité, réunis dans l’IREP (Institut de Recherches et d’Etudes Publicitaires), a bénéficié de deux séminaires intitulés “Concilier les enjeux business avec la protection des données”, en mai 2014, et « Données massives, de l’intelligence aux résultats », en septembre 2015.

Au vu de toute cette activité, il serait tentant de conclure que nous en sommes au niveau du marché des colloques. Ce n’est pas faux, certes, mais pas uniquement, car il y a une réalité de fond derrière cette concurrence de communication.

Des orientations politiques claires

Au niveau politique, les orientations sont clairement annoncées. Prenons le cas de la France. Tout le monde a probablement lu les 34 propositions pour relancer l’industrialisation en France (François Hollande, septembre 2013), du rapport de la Commission Innovation 2030 présidée par Anne Lauvergeon (« 7 ambitions pour la France », octobre 2013), ou encore de la feuille de route gouvernementale sur le numérique (février 2013) et, à sa suite, du plan de formation présenté par Mme Fleur Pellerin (juillet 2013) : un point commun à toutes ces initiatives et annonces, les « Data ». Dans son rapport, Anne Lauvergeon met particulièrement en avant la qualité reconnue internationalement des formations mathématiques et statistiques françaises.

A ces orientations extraites de la gouvernance politique s’ajoutent bien d’autres initiatives. Ainsi, l’INSEE a lancé début octobre 2014 une réflexion de nature stratégique à horizon 2025. Ce travail est évidemment composé de plusieurs thématiques, dont l’une est intitulée « Ouverture des données ». Elle aborde d’une part l’accès aux données privées et leur usage pour la statistique publique, et d’autre part pose des questions proches des mégadonnées, comme « la volumétrie potentiellement importante qu’il serait néanmoins dommage d’échantillonner», « les données non ou mal structurées », « les questions de privacy », l’ensemble étant situé dans le mouvement dit « open data », évoqué plus loin.

Le Forum d’Avignon, think tank créé en 2008 et regroupant des représentants des monde de la culture, des médias, de l’économie et des technologies numériques avait proclamé, en novembre 2013, que « la donnée personnelle culturelle est une data qui vaut de l’or » avant de publier, en septembre 2014, une « version zéro » d’une déclaration des huit droits de l’Homme numérique. Cette déclaration est organisée selon huit thématiques, qui sont ADN numérique, Ethique et équitable, Vie privée, Droit de regard, Consentement, Transparence des usages, Recherche et intérêt général, et enfin Coopération, société aidée par les données.

Toujours en 2014, le 13 octobre, un protocole d’accord a été signé entre la Commission Européenne et la Big Data Value Association, structure regroupant des entreprises et des organismes de recherche européens. Font partie de la BDVA les universités de Bologne, de Duisbourg-Essen, l’université technique de Berlin, l’université polytechnique de Madrid, et les entreprises ATC, IT Innovation, IBM, Sintef, Nokia Solutions and Networks, Thales, Siemens, SAP Engineering, TIE Kinetix, Answare, Software AG, Orange, Atos, Indra, ITI, VTT, Fraunhofer.

L’objet de ce protocole est de constituer, dès janvier 2015, un partenariat public-privé pour un montant total de 2,5 Md€ afin de  » rechercher des idées révolutionnaires sur les mégadonnées », l’Europe contribuant à ces recherches pour une valeur de 500 M€ pris sur le programme-cadre Horizon 2020.

En mars 2015, le Ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche a publié le schéma « Stratégie Nationale de Recherche », qui définit des orientations, des défis et des programmes d’actions sur cinq enjeux thématiques.

Parmi les orientations : objets connectés, exploitation des grandes masses de données, collaboration homme-machine, cinquième génération des infrastructures réseaux, disponibilité des données et extraction de connaissances …Parmi les dix, le septième porte sur la Société de l’information et de la communication, et dans les cinq programmes d’action, on y trouve les Big Data.

Elles sont présentées comme un gisement exceptionnel de connaissances et de croissance. Extrait :

« L’information présente dans cet univers numérique constitue un capital immatériel d’une grande valeur pour la connaissance et un formidable gisement de développement économique : le plan big data de la Nouvelle France Industrielle vise un marché de 9 milliards d’euros et un potentiel de création ou maintien d’environ 140 000 emplois, dont 80 000 emplois nouveaux.

La France maîtrise les technologies matérielles et logicielles sur toute la chaîne de valeur, de leur collecte à leur exploitation en passant par l’indexation, le stockage, la visualisation, l’extraction de connaissances.

Les technologies du big data représentent aujourd’hui un enjeu pour un grand nombre de secteurs économiques et pour la plupart des disciplines scientifiques (santé-biologie, environnement-climatologie, physique des particules, SHS…).

L’objectif du programme est de contribuer à la pleine réalisation du potentiel de notre pays dans le domaine des données massives, en s’attachant à l’acceptation et l’appropriation de ces applications, et à la sécurité de données devenues un enjeu économique et social de plus en plus important.

Ce programme doit mobiliser des équipes pluridisciplinaires associant des chercheurs en sciences et technologies numériques (ingénierie de la connaissance, technologies matérielles et logicielles, réseaux et télécommunications, cyber-sécurité), des mathématiciens, des chercheurs en SHS, des experts des domaines applicatifs potentiels (transport, santé, environnement, marketing, services internet…). »

Autre lien avec la recherche, les chaires académiques en Big Data commencent à fleurir : sans aucune prétention d’exhaustivité, début octobre 2014, l’ENSAE et l’ENSAI ont annoncé un partenariat avec LCL, l’Ecole Polytechnique en a fait de même, sur un sujet identique, avec Orange, Thalès et Keyrus, sans oublier les précurseurs qu’ont été Télécom Paris-Tech ou l’ESSEC.

En pleine actualité, le projet de loi numérique piloté par Mme Axelle Lemaire, secrétaire d’Etat en charge du numérique. La réflexion a été initiée à l’automne 2014, autour de quatre thèmes : croissance, innovation et disruption ; loyauté dans l’environnement numérique ; la transformation numérique de l’action publique ; la société face à la métamorphose numérique. Première dans la forme : en amont, les internautes ont été conviés à y apporter leur contribution. Les thèmes 1 et 2 sont restés ouverts jusqu’au 19 décembre 2014, les thèmes 3 et 4 jusqu’au début février 2015. Au total il y a eu 1486 contributeurs, et 3367 contributions.

Le 23 septembre 2015, une première version du projet a été mise en ligne publiquement pour consultation et réactions. Certains avis et observations ont été intégrés dans la version du texte présentée en conseil des ministres le 9 décembre, le débat parlementaire ayant conduit à son adoption en 2016.

Enfin, pour terminer, au plus haut niveau de l’Etat, le gouvernement a nommé, le 18 septembre 2014, M. Henri Verdier comme Chief Data Officer, c’est-à-dire Administrateur général des Données, une première en Europe. Il est en charge de l’Open Data, mission qui consiste à ouvrir les données publiques : en dresser l’inventaire, s’assurer qu’elles sont bonnes, favoriser leur circulation et surtout de développer de nouvelles méthodes d’analyse des données au service des politiques publiques. Le 23 septembre 2015, le Journal Officiel a annoncé la création d’une nouvelle direction au sein du Secrétariat général de modernisation de l’action publique. Elle porte l’acronyme de DINSIC, pour « Direction interministérielle du numérique et du système d’information et de communication de l’État », et Henri Verdier, en est le directeur.

L’open data est un mouvement de libre accès aux données – le terme « données » étant à prendre avec distance, car il s’agit aussi de résultats –, né au début du XXIème siècle. Il consiste à considérer que l’information publique est un bien commun, dont certaines parties sont même un garant de démocratie (droit, jurisprudence, comptes publics, transparence et évaluation des politiques publiques …). Cette ouverture des données repose sur la numérisation, et semble même étendre le concept de donnée ouverte des fichiers administratifs aux données privées.

Les objets connectés sont la prochaine révolution. Leur fonctionnement et leur généralisation vont continuer à engendrer des bases de données multiples, dans des domaines toujours de plus en plus diversifiés. Au passage, mentionnons un qui peut a priori surprendre : le sport. La SFDS a organisé en janvier 2014 la première demi-journée d’étude intitulée « Quand la statistique a rendez-vous avec le sport » et certains exposés ont mis en évidence les exploitations nouvelles permises par ces données, ne serait-ce que dans la lutte anti-dopage.

Il est heureux de voir que le monde scientifique et statistique aura un rôle majeur à jouer pour l’ensemble des bonnes utilisations des données qui en seront issues.

Un espoir pour l’économie ?

Tout cela constitue une opportunité pour la formation, la recherche et le développement, et, bien sûr, l’emploi : on estime à au moins 300 000 le nombre de postes de Data Scientistséés d’ici 2022 en Europe ; la lecture du rapport « Les métiers en 2022 » de France Stratégie avec la DARES, publié en juillet 2014, est également fort intéressante.

Plus généralement, Eurostat estimait en 2010 que la part du secteur TIC, pris dans son ensemble, dans le PIB de la France était de 4,18 % (Source : Eurostat. Nouveau périmètre de l’OCDE excluant le secteur des instruments de mesure).En 2014 le rapport Mc Kinsey « Accélérer la mutation numérique des entreprises » estime à 5,5 % le poids du digital dans le même PIB, soit un peu plus de 110 milliards d’euros, le numérique concernant environ 1,5 millions d’actifs.

Pour conclure, il faut mentionner la publication, au printemps 2016, du remarquable rapport Philippe Varin et Claudie Haigneré. Placé sous l’égide du Ministère de l’économie, de l’industrie et du numérique, il détaille en plus de six cents pages, les « Technologies Clés » pour « Préparer l’industrie du futur 2020 ».

Philippe Tassi