À l’image du texto, les comptes-rendus d’appels ou CRA, autrefois uniquement destinés à des fins de facturation, ont de loin dépassé leur but premier. Il est devenu clair au cours des derniers cinq ans, que ces métadonnées, littéralement « données à propos des données », étaient utiles pour bien plus que juste la facturation. Connaître, même de manière anonyme, qui téléphone ou qui envoie un texto, à quel moment, et de quel endroit est une source d’information exceptionnelle sur nous-même et la société dans laquelle nous vivons.

Les comptes-rendus d’appels (CRA ou CDR en anglais) ont déjà été utilisés par des chercheurs pour étudier les vecteurs de propagation d’épidémies comme la malaria [1] ou de réaliser des recensements de population en temps réel [2]. Au-delà du monde de la recherche, l’utilisation commerciale de ces données est déjà en plein essor aux États-Unis et ailleurs, comme en témoigne le programme « precision insight » de Verizon ou FluxVision d’Orange.

Le potentiel de ces données ne doit cependant pas nous faire oublier que chacune d’entre elles est produite par une personne passant un appel, recevant un texto d’un ami ou effectuant un déplacement. Les CRA contiennent des informations détaillées et potentiellement sensibles sur le comportement, les habitudes de déplacement, ou encore le style de vie d’une personne.

Permettre la collecte et l’utilisation des données en respectant la vie privée des utilisateurs passe souvent, d’un point de vue pratique mais aussi légal, par leur « anonymisation ». L’idée est en effet que si les données ne sont pas associées à un individu, les informations qu’elles contiennent ne peuvent pas lui nuire.

Historiquement, l’anonymat de données était appliqué au sens littéral du terme grec anônymos, qui signifie « sans nom », notamment grâce à l’utilisation de pseudonymes. L’essor de l’informatique à la fin du XXe siècle et les possibilités de traitement et de collecte d’information que celles-ci offrent montrent les limites de cette anonymisation des données. A la fin des années 90, Latanya Sweeney alors étudiante au MIT montre que la combinaison de la date de naissance, du sexe et du code postal identifie de manière unique 87% des Américains [3]. Celle-ci utilise ensuite cette information pour retrouver, dans une base de données anonymisée, le dossier médical du gouverneur du Massachusetts de l’époque, William Weld.

Suite à cette démonstration, le concept de k-anonymity [3] a été développé afin de parer à une telle ré-identification d’un individu dans une base de donnée pseudonymisée. Une base de donnée est considérée comme k-anonyme si aucune combinaison d’information (par exemple l’année de naissance, le sexe et le code postal) n’identifiera jamais une personne au sein d’un groupe de moins de k personnes. Il est donc pas possible, a partir de ses informations, d’identifier une personne particulière dans la base de données. De nombreux algorithmes, basés sur les principes de généralisation et de suppression, existent pour rendre une base de données k-anonyme. Un champs ainsi peut-être généralisé pour le rendre moins précis (par exemple en donnant une tranche d’âge au lieu de l’âge exact d’une personne) ou en supprimant un enregistrement ou une colonne si ceux-ci sont trop identifiants. Des extensions de la k-anonymity tels que la l-diversity [4] et la t-closeness [5] ont également été développés.

En empêchant l’identification d’une personne dans la base de données, la k-anonymity permet d’utiliser les données en limitant les risques pour la vie privée d’un individu.

L’évolution des technologiques et la taille des données générées par nos cartes de crédit ou téléphones portables est cependant entrain de rapidement remettre en cause cet équilibre précaire entre l’utilités des données et la protection de la vie privée. Le concept d’unicity est alors proposé pour évaluer le risque de ré-identification dans des grands jeux de métadonnées. Le degré d’unicity d’un ensemble de données est défini comme le nombre d’individus qui peuvent être identifiés par un nombre p d’informations choisis au hasard. En 2013, une étude que nous avons publiés dans Nature S.Rep. utilisant les métadonnées téléphoniques d’un million et demi de personnes a montré que seul 4 points, lieux et temps approximatifs, sont suffisants pour identifier de manière unique 95 % des personnes [6]. Ces résultats montrent qu’il est relativement facile de retrouver un utilisateur même dans un très grand jeux de données CRA. Il suffit en effet en moyenne de collecter 4 points pour retrouver un utilisateur ou pour réconcilier deux base de données géolocalisées.

Ces résultats, obtenus originalement dans un pays européen, ont depuis été répliqués sur de nombreuses base de données, par exemple, une base de données d’un million de personnes dans un pays d’Amérique latine [7] et sur une base de donnée Italienne ou les données de CRA ont été croisée avec des données Twitter [8]. Au début de l’année dernière, la même méthodologie a été appliquée aux données de transactions bancaires. Ce travail, publié par la revue Science, a aussi conclu que 4 points, le jour et le lieu d’un achat, étaient ici aussi suffisants pour identifier de manière unique 90 % des personnes dans une base de données de carte de crédit [9]. Ces résultats suggèrent que d’autres bases de métadonnées puissent également avoir une haute unicité.

Mais est-il de nouveau possible de brouiller les pistes ? Pouvons-nous de nouveau généraliser les données ou leur ajouter du bruit? Malheureusement pas le cas des données de téléphones portable ou de cartes de de crédit. Les études ci-dessus nous montrent qu’ajouter du bruit ou réduire la résolution spatiale ou temporelle des données (par exemple en regroupant les antennes par commune) ne rend l’identification que légèrement plus difficile. En effet, même dans une base de metadonnées téléphoniques à très basse résolution (15 heures et 15 antennes) il suffit de 10 points pour retrouver une personne plus de 50% du temps [6]. De la même manière, dans une base de données de cartes de crédit l’étude montre que connaître légérement plus d’information comme par exemple le montant approximatif de l’achat augmente en moyenne l’unicité de 22% et que même à très basse résolution (350 magasins, 15 jours, et un montant approximatif), 10 points sont suffisants pour retrouver une personne 80% du temps [9].

Ces études montrent ainsi qu’il est donc très peu probable qu’il soit jamais possible d’anonymiser des bases de métadonnées à haute dimension. La richesse des informations qu’elles contiennent sur un utilisateur le rend très rapidement unique, cela même dans d’un échantillon de millions de personnes.

Nous ne pouvons cependant pas arrêter d’utiliser ses données et oublier leur potentiel pour le bien public. Il est donc impératif de fondamentalement repenser notre approche quand à la protection des données: il est nécessaire de s’éloigner de l’anonymization des données pour la replacer par une, plus large, utilisation anonyme des données. Les données ici peuvent n’être que pseudonymisée mais l’ensemble des moyens mis en place pour contrôler leur utilisation permet de garantir que les données sont, in fine, utilisées de manière anonyme. De nombreuses solutions modernes ont été développée en mathématiques et en informatique tels que les mécanismes de questions-réponse (e.g. SafeAnswers [10]) avec des quaranties de protection de la vie privée associés (e.g. Differential Privacy [11]). Le projet OPAL, une collaboration entre Data-Pop Alliance, Orange, Telefonica, le MIT Media Lab et l’Imperial college de Londres, construit et planifie de déployer d’ici un an une telle solution pour les métadonnées téléphoniques. Il est maintenant temps de voir ce type de solutions être adaptées à d’autres secteurs comme les banques ou les compagnies d’électricité afin de pouvoir créer une révolution des données qui soit positive pour tous.

 

[1] Amy Wesolowski, Nathan Eagle, Andrew J Tatem, David L Smith, Abdisalan M Noor, Robert W Snow, and Caroline O Buckee. Quantifying the impact of human mobility on malaria. Science, 338(6104):267–270, 2012.
[2] Pierre Deville, Catherine Linard, Samuel Martin, Marius Gilbert, Forrest R. Stevens, Andrea E. Gaughan, Vincent D. Blondel, and Andrew J. Tatem. Dynamic population mapping using mobile phone data. Proceedings of the National Academy of Sciences, 2014.
[3] Sweeney, L. 2002 : k-anonymity: a model for protecting privacy. Intl. Jour. on Uncertainty, Fuzziness and Knowledge-based Systems 10( 5).
[4] Machanavajjhala, A. et al. 2007 : l-diversity: Privacy beyond k-anonymity. ACM Transactions on Knowledge Discovery from Data 1(3)
[5] Li, N., Tiancheng L., Venkatasubramanianm S. 2007 : t-closeness: Privacy beyond k-anonymity and l-diversity. Data Engineering.
[6] de Montjoye, Y-A. et al. 2013 : Unique in the Crowd: The privacy bounds of human mobility. Nature S.Rep. 3(1376).
[7] U.N. Global Pulse. Mapping the risk-utility landscape of mobile phone data for sustainable development & humanitarian action. http://www.unglobalpulse.org/sites/default/files/UNGP_ProjectSeries_Mobile_Data_Privacy_2015.pdf, 2015.
[8] Alket Cecaj, Marco Mamei, and Franco Zambonelli. Re-identification and information fusion between anonymized cdr and social network data. Jour. of Ambient Intell. and Hum. Comp., 1–14, 2015
[9] de Montjoye, Y-A. et al. 2015 : Unique in the shopping mall: On the reidentifiability of credit card metadata, Science 317(6221).
[10] YA de Montjoye, E Shmueli, SS Wang, and AS Pentland. openpds: Protecting the privacy of metadata through safeanswers. PloS one, 9(7):e98790, 2014.
[11] Dwork, C. 2011 : Differential privacy. Encyclopedia of Cryptography and Security, Springer.