{"id":1416,"date":"2016-10-07T13:59:35","date_gmt":"2016-10-07T11:59:35","guid":{"rendered":"http:\/\/variances.eu\/?p=1416"},"modified":"2017-09-25T12:23:16","modified_gmt":"2017-09-25T10:23:16","slug":"metadonnees-et-vie-privee-lequation-insoluble","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=1416","title":{"rendered":"M\u00e9tadonn\u00e9es et vie priv\u00e9e, l&rsquo;\u00e9quation insoluble?"},"content":{"rendered":"<p>\u00c0 l&rsquo;image du texto, les comptes-rendus d&rsquo;appels ou CRA, autrefois uniquement destin\u00e9s \u00e0 des fins de facturation, ont de loin d\u00e9pass\u00e9 leur but premier. Il est devenu clair au cours des derniers cinq ans, que ces m\u00e9tadonn\u00e9es, litt\u00e9ralement \u00ab\u00a0donn\u00e9es \u00e0 propos des donn\u00e9es\u00a0\u00bb, \u00e9taient utiles pour bien plus que juste la facturation. Conna\u00eetre, m\u00eame de mani\u00e8re anonyme, qui t\u00e9l\u00e9phone ou qui envoie un texto, \u00e0 quel moment, et de quel endroit est une source d&rsquo;information exceptionnelle sur nous-m\u00eame et la soci\u00e9t\u00e9 dans laquelle nous vivons.<\/p>\n<p>Les comptes-rendus d&rsquo;appels (CRA ou CDR en anglais) ont d\u00e9j\u00e0 \u00e9t\u00e9 utilis\u00e9s par des chercheurs pour \u00e9tudier les vecteurs de propagation d&rsquo;\u00e9pid\u00e9mies comme la malaria [1] ou de r\u00e9aliser des recensements de population en temps r\u00e9el [2]. Au-del\u00e0 du monde de la recherche, l&rsquo;utilisation commerciale de ces donn\u00e9es est d\u00e9j\u00e0 en plein essor aux \u00c9tats-Unis et ailleurs, comme en t\u00e9moigne le programme \u00ab\u00a0precision insight\u00a0\u00bb de Verizon ou FluxVision d&rsquo;Orange.<\/p>\n<p>Le potentiel de ces donn\u00e9es ne doit cependant pas nous faire oublier que chacune d&rsquo;entre elles est produite par une personne passant un appel, recevant un texto d&rsquo;un ami ou effectuant un d\u00e9placement. Les CRA contiennent des informations d\u00e9taill\u00e9es et potentiellement sensibles sur le comportement, les habitudes de d\u00e9placement, ou encore le style de vie d&rsquo;une personne.<\/p>\n<p>Permettre la collecte et l&rsquo;utilisation des donn\u00e9es en respectant la vie priv\u00e9e des utilisateurs passe souvent, d&rsquo;un point de vue pratique mais aussi l\u00e9gal, par leur \u00ab\u00a0anonymisation\u00a0\u00bb. L&rsquo;id\u00e9e est en effet que si les donn\u00e9es ne sont pas associ\u00e9es \u00e0 un individu, les informations qu&rsquo;elles contiennent ne peuvent pas lui nuire.<\/p>\n<p>Historiquement, l&rsquo;anonymat de donn\u00e9es \u00e9tait appliqu\u00e9 au sens litt\u00e9ral du terme grec an\u00f4nymos, qui signifie \u00ab\u00a0sans nom\u00a0\u00bb, notamment gr\u00e2ce \u00e0 l&rsquo;utilisation de pseudonymes. L&rsquo;essor de l&rsquo;informatique \u00e0 la fin du XXe si\u00e8cle et les possibilit\u00e9s de traitement et de collecte d&rsquo;information que celles-ci offrent montrent les limites de cette anonymisation des donn\u00e9es. A la fin des ann\u00e9es 90, Latanya Sweeney alors \u00e9tudiante au MIT montre que la combinaison de la date de naissance, du sexe et du code postal identifie de mani\u00e8re unique 87% des Am\u00e9ricains [3]. Celle-ci utilise ensuite cette information pour retrouver, dans une base de donn\u00e9es anonymis\u00e9e, le dossier m\u00e9dical du gouverneur du Massachusetts de l&rsquo;\u00e9poque, William Weld.<\/p>\n<p>Suite \u00e0 cette d\u00e9monstration, le concept de k-anonymity [3] a \u00e9t\u00e9 d\u00e9velopp\u00e9 afin de parer \u00e0 une telle r\u00e9-identification d&rsquo;un individu dans une base de donn\u00e9e pseudonymis\u00e9e. Une base de donn\u00e9e est consid\u00e9r\u00e9e comme k-anonyme si aucune combinaison d&rsquo;information (par exemple l&rsquo;ann\u00e9e de naissance, le sexe et le code postal) n&rsquo;identifiera jamais une personne au sein d&rsquo;un groupe de moins de k personnes. Il est donc pas possible, a partir de ses informations, d&rsquo;identifier une personne particuli\u00e8re dans la base de donn\u00e9es. De nombreux algorithmes, bas\u00e9s sur les principes de g\u00e9n\u00e9ralisation et de suppression, existent pour rendre une base de donn\u00e9es k-anonyme. Un champs ainsi peut-\u00eatre g\u00e9n\u00e9ralis\u00e9 pour le rendre moins pr\u00e9cis (par exemple en donnant une tranche d&rsquo;\u00e2ge au lieu de l&rsquo;\u00e2ge exact d&rsquo;une personne) ou en supprimant un enregistrement ou une colonne si ceux-ci sont trop identifiants. Des extensions de la k-anonymity tels que la l-diversity [4] et la t-closeness [5] ont \u00e9galement \u00e9t\u00e9 d\u00e9velopp\u00e9s.<\/p>\n<p>En emp\u00eachant l&rsquo;identification d&rsquo;une personne dans la base de donn\u00e9es, la k-anonymity permet d&rsquo;utiliser les donn\u00e9es en limitant les risques pour la vie priv\u00e9e d&rsquo;un individu.<\/p>\n<p>L&rsquo;\u00e9volution des technologiques et la taille des donn\u00e9es g\u00e9n\u00e9r\u00e9es par nos cartes de cr\u00e9dit ou t\u00e9l\u00e9phones portables est cependant entrain de rapidement remettre en cause cet \u00e9quilibre pr\u00e9caire entre l&rsquo;utilit\u00e9s des donn\u00e9es et la protection de la vie priv\u00e9e. Le concept d&rsquo;unicity est alors propos\u00e9 pour \u00e9valuer le risque de r\u00e9-identification dans des grands jeux de m\u00e9tadonn\u00e9es. Le degr\u00e9 d&rsquo;unicity d&rsquo;un ensemble de donn\u00e9es est d\u00e9fini comme le nombre d&rsquo;individus qui peuvent \u00eatre identifi\u00e9s par un nombre p d&rsquo;informations choisis au hasard. En 2013, une \u00e9tude que nous avons publi\u00e9s dans Nature S.Rep. utilisant les m\u00e9tadonn\u00e9es t\u00e9l\u00e9phoniques d&rsquo;un million et demi de personnes a montr\u00e9 que seul 4 points, lieux et temps approximatifs, sont suffisants pour identifier de mani\u00e8re unique 95 % des personnes [6]. Ces r\u00e9sultats montrent qu&rsquo;il est relativement facile de retrouver un utilisateur m\u00eame dans un tr\u00e8s grand jeux de donn\u00e9es CRA. Il suffit en effet en moyenne de collecter 4 points pour retrouver un utilisateur ou pour r\u00e9concilier deux base de donn\u00e9es g\u00e9olocalis\u00e9es.<\/p>\n<p>Ces r\u00e9sultats, obtenus originalement dans un pays europ\u00e9en, ont depuis \u00e9t\u00e9 r\u00e9pliqu\u00e9s sur de nombreuses base de donn\u00e9es, par exemple, une base de donn\u00e9es d&rsquo;un million de personnes\u00a0dans un pays d&rsquo;Am\u00e9rique latine [7] et sur une base de donn\u00e9e Italienne ou les donn\u00e9es de CRA\u00a0ont \u00e9t\u00e9 crois\u00e9e avec des donn\u00e9es Twitter [8]. Au d\u00e9but de l&rsquo;ann\u00e9e derni\u00e8re, la m\u00eame m\u00e9thodologie a \u00e9t\u00e9 appliqu\u00e9e aux donn\u00e9es de transactions bancaires. Ce travail, publi\u00e9 par la revue Science, a aussi conclu que 4 points, le jour et le lieu d&rsquo;un achat, \u00e9taient ici aussi suffisants pour identifier de mani\u00e8re unique 90 % des personnes dans une base de donn\u00e9es de carte de cr\u00e9dit [9]. Ces r\u00e9sultats sugg\u00e8rent que d&rsquo;autres bases de m\u00e9tadonn\u00e9es puissent \u00e9galement avoir une haute unicit\u00e9.<\/p>\n<p>Mais est-il de nouveau possible de brouiller les pistes\u00a0? Pouvons-nous de nouveau g\u00e9n\u00e9raliser les donn\u00e9es ou leur ajouter du bruit? Malheureusement pas le cas des donn\u00e9es de t\u00e9l\u00e9phones portable ou de cartes de de cr\u00e9dit. Les \u00e9tudes ci-dessus nous montrent qu&rsquo;ajouter du bruit ou r\u00e9duire la r\u00e9solution spatiale ou temporelle des donn\u00e9es (par exemple en regroupant les antennes par commune) ne rend l&rsquo;identification que l\u00e9g\u00e8rement plus difficile. En effet, m\u00eame dans une base de metadonn\u00e9es t\u00e9l\u00e9phoniques \u00e0 tr\u00e8s basse r\u00e9solution (15 heures et 15 antennes) il suffit de 10 points pour retrouver une personne plus de 50% du temps [6]. De la m\u00eame mani\u00e8re, dans une base de donn\u00e9es de cartes de cr\u00e9dit l&rsquo;\u00e9tude montre que conna\u00eetre l\u00e9g\u00e9rement plus d&rsquo;information comme par exemple le montant approximatif de l&rsquo;achat augmente en moyenne l&rsquo;unicit\u00e9 de 22% et que m\u00eame \u00e0 tr\u00e8s basse r\u00e9solution (350 magasins, 15 jours, et un montant approximatif), 10 points sont suffisants pour retrouver une personne 80% du temps [9].<\/p>\n<p>Ces \u00e9tudes montrent ainsi qu&rsquo;il est donc tr\u00e8s peu probable qu&rsquo;il soit jamais possible d&rsquo;anonymiser des bases de m\u00e9tadonn\u00e9es \u00e0 haute dimension. La richesse des informations qu&rsquo;elles contiennent sur un utilisateur le rend tr\u00e8s rapidement unique, cela m\u00eame dans d&rsquo;un \u00e9chantillon de millions de personnes.<\/p>\n<p>Nous ne pouvons cependant pas arr\u00eater d&rsquo;utiliser ses donn\u00e9es et oublier leur potentiel pour le bien public. Il est donc imp\u00e9ratif de fondamentalement repenser notre approche quand \u00e0 la protection des donn\u00e9es: il est n\u00e9cessaire de s&rsquo;\u00e9loigner de l&rsquo;anonymization des donn\u00e9es pour la replacer par une, plus large, utilisation anonyme des donn\u00e9es. Les donn\u00e9es ici peuvent n&rsquo;\u00eatre que pseudonymis\u00e9e mais l&rsquo;ensemble des moyens mis en place pour contr\u00f4ler leur utilisation permet de garantir que les donn\u00e9es sont, in fine, utilis\u00e9es de mani\u00e8re anonyme. De nombreuses solutions modernes ont \u00e9t\u00e9 d\u00e9velopp\u00e9e en math\u00e9matiques et en informatique tels que les m\u00e9canismes de questions-r\u00e9ponse (e.g. SafeAnswers [10]) avec des quaranties de protection de la vie priv\u00e9e associ\u00e9s (e.g. Differential Privacy [11]). Le projet OPAL, une collaboration entre Data-Pop Alliance, Orange, Telefonica, le MIT Media Lab et l&rsquo;Imperial college de Londres, construit et planifie de d\u00e9ployer d&rsquo;ici un an une telle solution pour les m\u00e9tadonn\u00e9es t\u00e9l\u00e9phoniques. Il est maintenant temps de voir ce type de solutions \u00eatre adapt\u00e9es \u00e0 d&rsquo;autres secteurs comme les banques ou les compagnies d&rsquo;\u00e9lectricit\u00e9 afin de pouvoir cr\u00e9er une r\u00e9volution des donn\u00e9es qui soit positive pour tous.<\/p>\n<p>&nbsp;<\/p>\n<p>[1] Amy Wesolowski, Nathan Eagle, Andrew J Tatem, David L Smith, Abdisalan M Noor, Robert W Snow, and Caroline O Buckee. Quantifying the impact of human mobility on malaria. Science, 338(6104):267\u2013270, 2012.<br \/>\n[2] Pierre Deville, Catherine Linard, Samuel Martin, Marius Gilbert, Forrest R. Stevens, Andrea E. Gaughan, Vincent D. Blondel, and Andrew J. Tatem. Dynamic population mapping using mobile phone data. Proceedings of the National Academy of Sciences, 2014.<br \/>\n[3] Sweeney, L. 2002 : k-anonymity: a model for protecting privacy. Intl. Jour. on Uncertainty, Fuzziness and Knowledge-based Systems 10( 5).<br \/>\n[4] Machanavajjhala, A. et al. 2007 : l-diversity: Privacy beyond k-anonymity. ACM Transactions on Knowledge Discovery from Data 1(3)<br \/>\n[5] Li, N., Tiancheng L., Venkatasubramanianm S. 2007 : t-closeness: Privacy beyond k-anonymity and l-diversity. Data Engineering.<br \/>\n[6] de Montjoye, Y-A. et al. 2013 : Unique in the Crowd: The privacy bounds of human mobility. Nature S.Rep. 3(1376).<br \/>\n[7] U.N. Global Pulse. Mapping the risk-utility landscape of mobile phone data for sustainable development &amp; humanitarian action. http:\/\/www.unglobalpulse.org\/sites\/default\/files\/UNGP_ProjectSeries_Mobile_Data_Privacy_2015.pdf, 2015.<br \/>\n[8] Alket Cecaj, Marco Mamei, and Franco Zambonelli. Re-identification and information fusion between anonymized cdr and social network data. Jour. of Ambient Intell. and Hum. Comp., 1\u201314, 2015<br \/>\n[9] de Montjoye, Y-A. et al. 2015 : Unique in the shopping mall: On the reidentifiability of credit card metadata, Science 317(6221).<br \/>\n[10] YA de Montjoye, E Shmueli, SS Wang, and AS Pentland. openpds: Protecting the privacy of metadata through safeanswers. PloS one, 9(7):e98790, 2014.<br \/>\n[11] Dwork, C. 2011 : Differential privacy. Encyclopedia of Cryptography and Security, Springer.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u00c0 l&rsquo;image du texto, les comptes-rendus d&rsquo;appels ou CRA, autrefois uniquement destin\u00e9s \u00e0 des fins de facturation, ont de loin d\u00e9pass\u00e9 leur but premier. Il est devenu clair au cours des derniers cinq ans, que ces m\u00e9tadonn\u00e9es, litt\u00e9ralement \u00ab\u00a0donn\u00e9es \u00e0 propos des donn\u00e9es\u00a0\u00bb, \u00e9taient utiles pour bien plus que juste la facturation. Conna\u00eetre, m\u00eame de [&hellip;]<\/p>\n","protected":false},"author":21,"featured_media":1439,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[99,15,133],"tags":[108,107,105],"class_list":["post-1416","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-data-science","category-themes","tag-anonymite","tag-cra","tag-internet","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/1416","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/21"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=1416"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/1416\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/1439"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=1416"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=1416"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=1416"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}