{"id":4683,"date":"2020-02-03T07:15:38","date_gmt":"2020-02-03T05:15:38","guid":{"rendered":"http:\/\/variances.eu\/?p=4683"},"modified":"2020-05-13T14:30:58","modified_gmt":"2020-05-13T12:30:58","slug":"quand-les-donnees-big-data-de-telephonie-mobile-servent-la-statistique-publique","status":"publish","type":"post","link":"https:\/\/variances.eu\/?p=4683","title":{"rendered":"Quand les donn\u00e9es big-data de t\u00e9l\u00e9phonie mobile servent la statistique publique"},"content":{"rendered":"<p>Si le recensement de la population organis\u00e9 par l\u2019Insee permet d\u2019estimer la population r\u00e9sidente, il ne permet pas d\u2019estimer la population effectivement <em>pr\u00e9sente<\/em> sur une zone g\u00e9ographique donn\u00e9e \u00e0 un instant donn\u00e9, puisqu\u2019il ne tient pas compte des flux touristiques et des comportements d\u2019activit\u00e9. Or la population pr\u00e9sente constitue un indicateur crucial pour observer et piloter une grande vari\u00e9t\u00e9 de ph\u00e9nom\u00e8nes \u00e0 la fois sociaux (la mixit\u00e9 sociale par exemple), \u00e9conomiques (la mobilit\u00e9 domicile-travail), environnementaux (la pression anthropique) ou encore relatifs \u00e0 des infrastructures (les besoins en logements et transports). Ainsi par exemple, conna\u00eetre la population pr\u00e9sente dans une r\u00e9gion touristique permet d\u2019anticiper plus finement les fluctuations de besoin en logements, en transports ou encore en eau.<\/p>\n<p>Dans ce contexte, les donn\u00e9es de t\u00e9l\u00e9phonie mobile offrent des perspectives prometteuses puisqu\u2019elles indiquent la localisation des abonn\u00e9s. En effet, pour communiquer, un appareil mobile \u00e9change des ondes radio un r\u00e9seau cellulaire\u00a0: selon sa localisation, l\u2019appareil mobile \u00e9change avec une antenne et en se d\u00e9pla\u00e7ant peut changer d\u2019antenne sans interrompre la communication. En connaissant l\u2019antenne qui est mobilis\u00e9e \u00e0 un instant <em>t<\/em> par un appareil mobile et les caract\u00e9ristiques de cette antenne, il est ainsi possible d\u2019affecter une localisation plus ou moins pr\u00e9cise \u00e0 l\u2019individu correspondant. La pr\u00e9cision d\u00e9pend de la r\u00e9partition locale des antennes dans le territoire et des informations disponibles sur leur configuration. Deux types de donn\u00e9es de t\u00e9l\u00e9phonie mobile peuvent \u00eatre utilis\u00e9es\u00a0: (a) les donn\u00e9es actives, ou C<em>all Details Records<\/em>, qui correspondent \u00e0 une action d\u00e9lib\u00e9r\u00e9e de l\u2019abonn\u00e9 (appel, SMS, etc.)\u00a0; (b) les donn\u00e9es de signalisation d\u2019autre part, ou <em>S<\/em><em>ignaling Data<\/em>, qui sont g\u00e9n\u00e9r\u00e9es toutes les 10 \u00e0 200 minutes sans action n\u00e9cessaire de l\u2019abonn\u00e9, et qui correspondent aux diverses connexions de l\u2019appareil mobile au r\u00e9seau mobile (t\u00e9l\u00e9communication et internet 2G, 3G, 4G). Ce sont ce type de donn\u00e9es qui ont permis \u00e0 plusieurs chercheurs d\u2019\u00e9valuer les performances du r\u00e9seau de transport d\u2019\u00cele-de-France, d\u2019analyser les relations interpersonnelles ou d\u2019estimer le nombre de touristes et leur dur\u00e9e de s\u00e9jour comme le font la Banque de France et le Minist\u00e8re de l\u2019\u00e9conomie et des finances.<\/p>\n<p>Gr\u00e2ce \u00e0 ces donn\u00e9es et des comp\u00e9tences de \u00ab\u00a0data-scientist\u00a0\u00bb, on peut ainsi construire des cartographies assez pr\u00e9cises de la population pr\u00e9sente. Mais pour cela, il est essentiel de construire pr\u00e9alablement un mod\u00e8le statistique adapt\u00e9.<\/p>\n<h3><strong>A la recherche d\u2019un mod\u00e8le statistique adapt\u00e9<\/strong><\/h3>\n<p>Un t\u00e9l\u00e9phone se connecte toujours \u00e0 l\u2019antenne dont il est le plus proche. On peut en tirer une partition de l\u2019espace appel\u00e9e \u00ab\u00a0tessellation de Vorono\u00ef\u00a0\u00bb. Cette\u00a0 partition s\u2019appuie sur un ensemble de points donn\u00e9s, appel\u00e9s \u00ab\u00a0<em>graines<\/em>\u00a0\u00bb. En affectant chaque point du plan \u00e0 la graine la plus proche, il appara\u00eet alors des polygones\u00a0: chaque polygone contient l\u2019ensemble des points affect\u00e9s \u00e0 une m\u00eame graine. La tesselation de Vorono\u00ef est utilis\u00e9e dans l\u2019exploitation des donn\u00e9es de t\u00e9l\u00e9phonie mobile, en consid\u00e9rant que chaque antenne correspond \u00e0 une graine. Lorsqu\u2019un appareil mobile se connecte \u00e0 une antenne, il peut alors \u00eatre admis que l\u2019individu se situe dans le polygone de Vorono\u00ef associ\u00e9. Cette repr\u00e9sentation a le m\u00e9rite de r\u00e9aliser une partition de l\u2019espace mais ne correspond \u00e0 aucun d\u00e9coupage administratif, d\u00e9pend largement de la densit\u00e9 des antennes et n\u2019approxime qu\u2019imparfaitement la couverture r\u00e9elle des antennes (port\u00e9e, superposition, etc.). Les donn\u00e9es brutes ne permettent donc qu\u2019un maillage g\u00e9ographique assez grossier de la population pr\u00e9sente.<\/p>\n<p style=\"text-align: center;\"><strong>Figure n\u00b01\u00a0: Une tessellation de Vorono\u00ef<\/strong><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-4684 aligncenter\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/1-1.png\" alt=\"\" width=\"294\" height=\"297\" \/><\/p>\n<p><strong>\u00a0<\/strong><\/p>\n<p><strong>\u00a0<\/strong>On peut cependant, \u00e0 travers \u00e0 une mod\u00e9lisation, obtenir une pr\u00e9cision bien meilleure dans la localisation des individus en recoupant ces donn\u00e9es brutes avec des informations sur les caract\u00e9ristiques et le fonctionnement du r\u00e9seau. Ainsi, dans une \u00e9tude men\u00e9e par l\u2019Insee en partenariat avec Orange Labs, on a r\u00e9ussi \u00e0 affiner la localisation des \u00e9v\u00e9nements observ\u00e9s en mobilisant des donn\u00e9es de la statistique publique. Pour cela, le territoire consid\u00e9r\u00e9 est d\u2019abord d\u00e9coup\u00e9 en des carreaux de 500m de c\u00f4t\u00e9, selon une grille fine et r\u00e9guli\u00e8re. Puis chacun des carreaux est caract\u00e9ris\u00e9 selon la nomenclature topologique de l\u2019IGN (b\u00e2ti indiff\u00e9renci\u00e9<a href=\"#_ftn1\" name=\"_ftnref1\"><sup>[1]<\/sup><\/a>, routes, cours d\u2019eau, etc.). On peut alors faire plusieurs hypoth\u00e8ses raisonnables\u00a0: par exemple, qu\u2019un portable en activit\u00e9 la nuit appartient plus probablement \u00e0 certains types de carreaux que d\u2019autres\u00a0ou, autre exemple, qu\u2019il y a plus de chances qu\u2019un individu envoyant un SMS se trouve dans un quartier r\u00e9sidentiel avoisinant que dans un parc. Le mod\u00e8le probabiliste ainsi con\u00e7u localisera chaque t\u00e9l\u00e9phone mobile en activit\u00e9, non plus strictement selon les coordonn\u00e9es de l\u2019antenne la plus proche, mais sur plusieurs carreaux avoisinant, en affectant \u00e0 chacun d\u2019eux une probabilit\u00e9 de pr\u00e9sence plus ou moins grande.<\/p>\n<p>Ce mod\u00e8le a \u00e9t\u00e9 estim\u00e9 \u00e0 partir des Call Details Records de 18,5 millions de clients de l\u2019op\u00e9rateur Orange sur le mois de septembre 2007, soit pr\u00e8s de 3 milliards d\u2019\u00e9v\u00e8nements t\u00e9l\u00e9phoniques. \u00c0 l\u2019\u00e9chelle de la France, l\u2019agr\u00e9gation de toutes les probabilit\u00e9s de pr\u00e9sence selon ce mod\u00e8le offre ainsi la carte suivante (\u00e0 droite), relativement au mod\u00e8le classique des Vorono\u00efs (\u00e0 gauche)\u00a0:<\/p>\n<p style=\"text-align: center;\"><strong>Figure n\u00b02\u00a0: La distribution de la population \u00e0 partir des vorono\u00efs (\u00e0 gauche) et \u00e0 partir d\u2019un mod\u00e8le probabiliste (\u00e0 droite)<\/strong><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-4685\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/2-1.png\" alt=\"\" width=\"1111\" height=\"537\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/2-1.png 1111w, https:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/2-1-300x145.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/2-1-1024x495.png 1024w, https:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/2-1-600x290.png 600w, https:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/2-1-1080x522.png 1080w\" sizes=\"(max-width: 1111px) 100vw, 1111px\" \/><\/p>\n<p><strong>\u00a0<\/strong><\/p>\n<p><strong>\u00a0<\/strong><\/p>\n<p>Outre la finesse accrue qu\u2019offre le mod\u00e8le probabiliste, comme en t\u00e9moigne la granularit\u00e9 plus fine de la cartographie correspondante, il appara\u00eet que les probabilit\u00e9s de pr\u00e9sence ainsi estim\u00e9es sont <em>en moyenne<\/em> corrobor\u00e9es par la distribution de r\u00e9f\u00e9rence calcul\u00e9e \u00e0 partir d\u2019une source fiscale (les Revenus fiscaux localis\u00e9s) et repr\u00e9sent\u00e9e dans la figure 3.<\/p>\n<p style=\"text-align: center;\"><strong>Figure n\u00b03\u00a0: La distribution de la population \u00e0 partir d\u2019une source fiscale (RFL)<\/strong><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-4686\" src=\"http:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/3-1.png\" alt=\"\" width=\"841\" height=\"831\" srcset=\"https:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/3-1.png 841w, https:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/3-1-300x296.png 300w, https:\/\/variances.eu\/wp-content\/uploads\/2020\/01\/3-1-600x593.png 600w\" sizes=\"(max-width: 841px) 100vw, 841px\" \/><\/p>\n<p>&nbsp;<\/p>\n<p><strong>\u00a0<\/strong><\/p>\n<h3><strong>On pourrait faire encore mieux\u2026<\/strong><\/h3>\n<p>Une analyse approfondie montre que les r\u00e9sultats obtenus \u00e0 travers le mod\u00e8le probabiliste sont d\u2019autant plus robustes que la zone \u00e9tudi\u00e9e est peu dens\u00e9ment peupl\u00e9e, soit davantage dans les zones rurales et p\u00e9ri-urbaines que dans les zones urbaines. Dans ces derni\u00e8res en effet, le b\u00e2ti est plus largement uniforme, ce qui limite la possibilit\u00e9 de discriminer les carreaux et donc les probabilit\u00e9s de pr\u00e9sence. La prise en compte des donn\u00e9es plus riches de <em>Signaling<\/em> <em>Data<\/em> et d\u2019informations techniques sur la couverture des antennes, ainsi que la distinction entre les diff\u00e9rents types de b\u00e2ti devraient permettre de consolider encore la finesse et la robustesse des estimations de pr\u00e9sence de population.<\/p>\n<p>Les donn\u00e9es en notre possession ne portaient ni sur l\u2019ensemble des abonn\u00e9s, ni sur l\u2019ensemble des op\u00e9rateurs, et elles ignoraient les individus sans t\u00e9l\u00e9phone portable. Il a donc fallu proc\u00e9der \u00e0 des redressements afin de rendre les estimations de population comparables \u00e0 la source fiscale. Ce n\u2019est pas ais\u00e9, puisque cela suppose d\u2019avoir des informations compl\u00e9mentaires, notamment d\u00e9mographiques, qui soient appariables et disponibles \u00e0 un niveau g\u00e9ographique tr\u00e8s fin. Nous avons utilis\u00e9 pour cela le fichier clients (CRM) d\u2019Orange au niveau d\u00e9partemental. Par ailleurs, les donn\u00e9es de t\u00e9l\u00e9phonie mobile sont rarement suffisantes pour d\u00e9terminer les caract\u00e9ristiques des abonn\u00e9s (m\u00e9tier, \u00e2ge, etc.) ou pour qualifier les lieux (r\u00e9sidence, transit, activit\u00e9) et les motifs de ses d\u00e9placements (conduite \u00e0 l\u2019\u00e9cole, courses, etc.). Il faudrait d\u00e9velopper\u00a0 des algorithmes <em>ad hoc<\/em>, par exemple pour distinguer les touristes des personnes r\u00e9sidentes \u00e0 partir de leur fr\u00e9quence de passage sur le m\u00eame lieu.<\/p>\n<p>Il y aura cependant des difficult\u00e9s de nature juridique. L\u2019exploitation des donn\u00e9es de t\u00e9l\u00e9phonie mobiles pose en effet un risque pour le respect de la vie priv\u00e9e des abonn\u00e9s puisqu\u2019il est relativement ais\u00e9 de r\u00e9-identifier un abonn\u00e9 \u00e0 partir de l\u2019historique des traces num\u00e9riques laiss\u00e9es par son portable ce qui impose d\u2019agr\u00e9ger suffisamment l\u2019information &#8211; au risque d\u2019une perte en finesse &#8211; pour se conformer \u00e0 des garanties juridiques (RGPD ou directive<em> Eprivacy<\/em>).<\/p>\n<p>En d\u00e9finitive, les donn\u00e9es de t\u00e9l\u00e9phonie mobile ouvrent un champ novateur de la statistique publique\u00a0: combin\u00e9es \u00e0 diverses sources de donn\u00e9es, elles peuvent d\u00e9boucher sur des indicateurs de pr\u00e9sence humaine selon une r\u00e9gularit\u00e9 temporelle et une granularit\u00e9 spatiale in\u00e9gal\u00e9es. Que ce soit pour mesurer la pression anthropique sur un espace ou une ressource naturelle, anticiper des besoins en services ou observer finement des mobilit\u00e9s, ces indicateurs seraient tout particuli\u00e8rement utiles dans le champ de l\u2019action sociale et environnementale. Pour poursuivre l\u2019exp\u00e9rimentation, l\u2019Ifsttar<a href=\"#_ftn2\" name=\"_ftnref2\">[2]<\/a>, l\u2019Insee, Orange labs, et G\u00e9ographie-cit\u00e9s lancent en janvier 2020 le projet MobiTIC, financ\u00e9 par l\u2019Agence Nationale de la Recherche. Ce projet de 42 mois visera \u00e0 produire une cartographie dynamique de pr\u00e9sence, en caract\u00e9risant les lieux par leur usage et fr\u00e9quentation, avec un zoom notamment sur les quartiers des politiques de la ville et les zones p\u00e9ri-urbaines.<\/p>\n<p>&nbsp;<\/p>\n<p><em>* Les auteurs remercient Orange Labs, et en particulier Zbigniew Smoreda, ainsi que le SSP Lab de l\u2019Insee.\u00a0<\/em><\/p>\n<hr \/>\n<p><a href=\"#_ftnref1\" name=\"_ftn1\"><sup>[1]<\/sup><\/a> Soit essentiellement l\u2019habitat mais aussi les \u00e9coles, les h\u00f4pitaux, les mus\u00e9es, etc.<\/p>\n<p><a href=\"#_ftnref2\" name=\"_ftn2\">[2]<\/a> Institut fran\u00e7ais des sciences et technologies des transports, de l&rsquo;am\u00e9nagement et des r\u00e9seaux.<\/p>\n<hr \/>\n<p><em><strong>R\u00e9f\u00e9rences <\/strong><\/em><\/p>\n<p>Avouac R., Sakarovitch, B., S\u00e9m\u00e9curbe, F. &amp; Smoreda, Z. (2019). A bayesian approach to improve the estimation of population using mobile phone data. Document de travail.<\/p>\n<p>Aguil\u00e9ra,\u00a0 V.,\u00a0 Allio,\u00a0 S.,\u00a0 Benezech,\u00a0 V.,\u00a0 Combes,\u00a0 F.\u00a0 &amp; Milion, C. (2014). Using cell phone data to measure quality of service and passenger flows of Paris transit\u00a0 system.\u00a0 Transportation\u00a0 Research\u00a0 Part\u00a0 C: Emerging Technologies, 43(2), 198\u2013211<\/p>\n<p>Ahas, R., Silm, S., J\u00e4rv, O., Saluveer, E. &amp; Tiru, M. (2010).\u00a0 <em>Using\u00a0 Mobile\u00a0 Positioning\u00a0 Data\u00a0 to Model\u00a0 Locations Meaningful to Users of Mobile Phones<\/em>. Journal of Urban Technology, 17(1), 3\u201327<\/p>\n<p>Bojic,\u00a0 I.,\u00a0 Massaro,\u00a0 E.,\u00a0 Belyi,\u00a0 A.,\u00a0 Sobolevsky,\u00a0 S.\u00a0 &amp; Ratti, C. (2015). <em>Choosing the Right Home Location Definition Method for the given Dataset<\/em>. Springer International Publishing, pp. 194\u2013208<\/p>\n<p>Cousin, G. &amp; Hillaireau, F. (2018). <em>Can Mobile Phone Data Improve the Measurement of International Tourism in France? <\/em>Economie et Statistique, 505-506, 89\u2013107.<\/p>\n<p>Grauwin,\u00a0 S.,\u00a0 Szell,\u00a0 M.,\u00a0 Sobolevsky,\u00a0 S.,\u00a0 H\u00f6vel,\u00a0 P.,\u00a0 Simini,\u00a0 F.,\u00a0 Vanhoof,\u00a0 M.,\u00a0 Smoreda,\u00a0 Z.,\u00a0 Barab\u00e1si, A.L. &amp; Ratti, C. (2017). <em>Identifying and modeling the\u00a0 structural\u00a0 discontinuities\u00a0 of\u00a0 human\u00a0 interactions<\/em>.\u00a0 Scientific Reports, 7<\/p>\n<p>Montjoye, Y. A. (de), Hidalgo, C.A., Verleysen, M. &amp; Blondel, V. D. (2013). <em>Unique in the Crowd: The privacy bounds of human mobility<\/em>. Science Report, 3<\/p>\n<p>Sakarovitch, Benjamin, Marie-Pierre De Bellefon, Pauline Givord, and Maarten Vanhoof. 2019. <em>All\u00f4, o\u00f9 es-tu ? Estimer la population r\u00e9sidente \u00e0 partir de donn\u00e9es de t\u00e9l\u00e9phonie mobile, une premi\u00e8re exploration<\/em>. Economie et Statistique.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Si le recensement de la population organis\u00e9 par l\u2019Insee permet d\u2019estimer la population r\u00e9sidente, il ne permet pas d\u2019estimer la population effectivement pr\u00e9sente sur une zone g\u00e9ographique donn\u00e9e \u00e0 un instant donn\u00e9, puisqu\u2019il ne tient pas compte des flux touristiques et des comportements d\u2019activit\u00e9. Or la population pr\u00e9sente constitue un indicateur crucial pour observer et [&hellip;]<\/p>\n","protected":false},"author":280,"featured_media":4688,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[99,135],"tags":[],"class_list":["post-4683","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-tribune","et-has-post-format-content","et_post_format-et-post-format-standard"],"_links":{"self":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/4683","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/users\/280"}],"replies":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=4683"}],"version-history":[{"count":0,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/posts\/4683\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=\/wp\/v2\/media\/4688"}],"wp:attachment":[{"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=4683"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=4683"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/variances.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=4683"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}