Marges d’erreur et Big Data

30 Janvier 2019 Digital

Anne Ruiz-Gazen travaille en méthodologie statistique, notamment sur la compréhension et l’amélioration des marges d’erreur. “Mes travaux mathématiques peuvent être appliqués à de nombreux domaines, comme les enquêtes socio-économiques mais aussi à l’industrie pour ce qui concerne la détection d’anomalies.” explique-t-elle.

 

Les marges d’erreur

Par exemple pour aider les grands offices publics que sont l’INSEE (Institut national de la statistique et des études économiques), l’INED (Institut national d'études démographiques) ou l’Inserm (Institut national de la santé et de la recherche médicale) lorsqu’ils mènent des enquêtes nationales. Anne Ruiz-Gazen travaille ainsi sur l’amélioration et la compréhension de la fiabilité de ce type d’enquêtes. “Nous avons récemment collaboré avec l’INED pour une grande enquête portant sur le suivi d’individus de leur naissance jusqu’à leurs vingt ans. Nous avons calculé la fiabilité de leurs résultats en prenant en compte leurs méthodes d’échantillonnage.” Les travaux de la chercheuse ont montré que le protocole choisi n’était pas optimal et avait augmenté la marge d’erreur de l’enquête. “L’enquête est réalisée en se basant sur les mêmes jours de naissance des enfants pour l’ensemble des maternités échantillonnées, cela augmente l’incertitude parce que ce choix réduit potentiellement la variabilité à l’intérieur de l’échantillon.”

 

La chercheuse travaille également sur les sondages électoraux et notamment sur l’influence de la spatialité des données. “Sur les élections départementales françaises, nous travaillons avec Christine Thomas (TSE - UTC), Thibault Laurent (TSE - UTC) et An Huong Nguyen (doctorante – TSE – UTC) sur des modèles de prédictions prenant en compte la nature particulière de ce type de données, dites de composition, mais aussi leur géolocalisation, afin d’anticiper les effets d’un changement économique ou démographique sur les résultats.

Des données « propres »

Dans l’objectif d’améliorer des données, Anne Ruiz-Gazen travaille avec Aurore Archimbaud, docteur de TSE, sur des méthodes de détection d’anomalies avec des applications dans l’industrie. “Avec l'accroissement exponentiel du nombre de mesures effectuées sur les composants électroniques, la problématique de la grande dimension se pose lors de la recherche d'anomalies. Les résultats de ces travaux ont été utilisés depuis par plusieurs entreprises pour réduire les défauts de fabrication.”

La plupart des économistes et statisticiens s’accordent à dire que l’avènement du Big Data, soit le nombre exponentiel de données disponibles à traiter, représente une évolution majeure pour nos sociétés dans les années à venir. “Le Big Data représente sans aucun doute l’avenir mais l’un des enjeux souvent oublié de cette révolution, c’est la fiabilité des données publiées. Améliorer la précision d’estimations issues de données d’enquêtes en utilisant des données massives est un sujet difficile qui donne matière à réflexion.

UseR! 2019

Ce congrès annuel dédié au logiciel libre R a débuté en 2004 et se tient depuis 2006 en alternance entre villes européennes et américaines. Après Rennes en 2009, Toulouse sera la deuxième ville française à accueillir cet événement qui regroupe plus de 1000 chercheurs et décideurs économiques autour des dernières évolutions du logiciel. “C’est une fierté de pouvoir organiser UserR! à TSE en partenariat avec l’Université Paul Sabatier et l’INRA et une excellente nouvelle pour toutes les entreprises et les chercheurs qui utilisent cet outil, véritable référence dans le domaine

Extrait du TSE Mag#17 Eté 2018