Imputation (statistique)

En statistique, l’imputation désigne le processus de remplacement des données manquantes avec des valeurs substituées. Quand un point de données est substitué, on parle d’imputation unitaire ; quand une composante de point de données est substituée, on parle d’imputation d'items.

Des données manquantes peuvent être à l'origine de trois types de problèmes[1] :

  • elles peuvent introduire une quantité importante de biais statistiques ;
  • elles peuvent rendre le traitement et l'analyse des données plus laborieux ;
  • elles peuvent réduire l'efficacité des méthodes statistiques.

L'imputation est considérée comme un moyen d'éviter les pièges liées aux valeurs manquantes, en préservant tous les cas par le remplacement des données manquantes par une valeur estimée basée sur d'autres informations disponibles. Une fois toutes les valeurs manquantes imputées, on peut alors analyser l'ensemble de données à l'aide des techniques standard applicables à des jeux de données complets[2].

De nombreuses techniques ont été développées pour traiter les données manquantes, mais la majorité d'entre elles introduisent des biais. Parmi les plus courantes, on trouve notamment[3] :

  • la suppression de données manquantes : par liste ou par paires ;
  • des techniques d'imputation unique : hot deck et cold deck, par la dernière observation reportée, par la moyenne, par factorisation matricielle non négative, par régression, stochastique ;
  • des techniques d'imputation multiple.

Suppression par liste et par paire

Suppression par liste (ou cas complet)

La technique de loin la plus courante pour traiter les données manquantes est la suppression par liste (également appelée cas complet), consistant à supprimer tous les cas avec une valeur manquante.

Si le manque de données se fait totalement au hasard, la suppression par liste n'ajoute aucun biais : elle ne fait que réduire la puissance de l'analyse en diminuant la taille effective de l'échantillon. Par exemple, si 1 000 cas sont collectés mais que 80 ont des valeurs manquantes, la taille d'échantillon effective après la suppression de la liste est de 920.

Si, à l'inverse, les cas ne manquent pas complètement au hasard, la suppression par liste introduira un biais car le sous-échantillon de cas représenté par les données manquantes ne sera pas représentatif de l'échantillon d'origine, et si l'échantillon d'origine était lui-même un échantillon représentatif d'une population, les cas complets ne sont pas non plus représentatifs de cette population[4].

Bien qu'en théorie, la suppression par liste soit impartiale dès lors que les données manquantes manquent complètement au hasard, c'est rarement le cas dans la réalité. Son seul avantage par rapport aux autres méthodes de traitement des données manquantes, et la principale raison qui explique qu'elle soit la méthode la plus couramment appliquée malgré ses nombreux inconvénients, est qu'elle est simple et facile à mettre en œuvre.

Suppression par paires (ou analyse de cas disponible)

La suppression par paires (ou analyse de cas disponible) consiste à supprimer un cas de valeur manquante lorsqu'il manque une variable requise pour une analyse particulière, et à l'inclure dans les analyses pour lesquelles toutes les variables requises sont présentes.

Quand on utilise la suppression par paires, le N total pour l'analyse ne sera pas cohérent entre les estimations de paramètres. En raison des valeurs N incomplètes à certains moments, tout en maintenant une comparaison de cas complète pour d'autres paramètres, la suppression par paires peut introduire des situations mathématiques impossibles, comme des corrélations supérieures à 100 %[5].

Imputation unique

Imputation hot-deck

Une méthode d'imputation autrefois courante était l'imputation hot-deck, où une valeur manquante était imputée à partir d'un enregistrement similaire sélectionné au hasard. Le terme « hot-deck » remonte à l'époque où les données étaient stockées sur cartes perforées, et indique que les producteurs et les consommateurs de données appartenaient au même jeu de données. La pile de cartes était "chaude" ("hot") car elle était en cours de traitement.

Imputation par la dernière observation reportée

Une des formes d'imputation hot-deck est appelée dernière observation reportée (ou LOCF en anglais abrégé). Cette technique d'imputation consiste à trier un ensemble de données en fonction d'une des variables, quelconque, parmi un certain nombre pour créer ainsi un ensemble de données ordonné. On substitue alors chaque valeur manquante par la valeur de cellule qui la précède immédiatement dans cet ensemble de données ordonné.

Lorsque les données correspondent à des mesures répétées d'une variable donnée, cette technique repose sur l'hypothèse que la meilleure estimation d'une mesure manquante est la valeur de la variable lors de sa dernière mesure. Cette méthode est connue pour augmenter le risque de biais croissants et de conclusions potentiellement fausses. Pour cette raison, l'utilisation de cette technique n'est pas recommandée[6].

Imputation cold-deck

À l'inverse de l'imputation hot-deck, l'imputation cold-deck sélectionne des données d'un autre jeu de données, par exemple, avec des valeurs de réponse d'éléments similaires obtenues lors d'enquêtes antérieures.

Imputation par la moyenne

La technique d'imputation par la moyenne consiste à remplacer chaque valeur manquante par la moyenne de cette variable pour tous les autres cas.

Cette technique présente l'avantage de ne pas modifier la moyenne de l'échantillon pour cette variable. Elle a pour inconvénient d'atténuer toutes les corrélations qui impliquent la ou les variables imputées. En effet, dans les cas d'imputation, on garantit l'absence de relation entre la variable imputée et toute autre variable mesurée. L'imputation par la moyenne présente donc des propriétés intéressantes pour l'analyse univariée, mais elle devient problématique pour l'analyse multivariée.

L'imputation moyenne peut être effectuée à l'intérieur des classes (c'est-à-dire des catégories comme le sexe ou la tranche d'âge) et peut être exprimée sous la forme , où est la valeur imputée pour l'enregistrement , et est la moyenne de l'échantillon des données des répondants dans une classe . Il s'agit d'un cas particulier d'imputation par régression généralisée :

Ici les valeurs sont estimés à partir de la régression sur en données non imputées, est une variable muette pour l'appartenance à une classe, et les données sont divisées en répondant () et manquant ()[7].

Factorisation matricielle non négative

La factorisation matricielle non négative (ou NMF en anglais abrégé) consiste à calculer des valeurs de substitution pour les données manquantes en minimisant leur fonction de coût, au lieu de les traiter comme des valeurs à zéro, qui introduiraient des biais[8].

Cette technique est une méthode mathématiquement éprouvée pour l'imputation des données : cela permet d'ignorer les données manquantes dans la fonction de coût, et de réduire l'impact des données manquantes à un effet de second ordre.

Imputation par régression

L'imputation par la régression pose le problème inverse de l'imputation par la moyenne. Cette technique consiste à estimer un modèle de régression pour prédire les valeurs observées d'une variable sur la base d'autres variables. On utilise ensuite ce modèle pour imputer des valeurs dans les cas où la valeur de cette variable est manquante. En d'autres termes, les informations disponibles pour les cas complets et incomplets sont utilisées pour prédire la valeur d'une variable spécifique. Les valeurs ajustées du modèle de régression sont ensuite utilisées pour imputer les valeurs manquantes.

Cependant, cette technique pose un problème : les données imputées n'ont pas de terme d'erreur inclus dans leur estimation. Les estimations s'ajustent donc parfaitement le long de la ligne de régression sans aucune variance résiduelle. Cela entraîne une sur-identification des relations et suggère une plus grande précision dans les valeurs imputées que ce qui est justifié. Le modèle de régression prédit la valeur la plus probable des données manquantes, mais il ne fournit pas d'incertitude sur cette valeur.

Imputation stochastique

La régression stochastique vise à corriger l'absence d'un terme d'erreur dans l'imputation de régression, en y ajoutant la variance de régression moyenne aux imputations de régression pour introduire une erreur.

Il s'avère que la régression stochastique introduit beaucoup moins de biais que les autres techniques d'imputation unique. Pour autant, dès lors que des données sont imputées, on pourrait intuitivement penser que le bruit introduit dans le problème devrait être plus important que la simple variance résiduelle[5] : c'est pour cela que des techniques d'imputation multiple ont été mises au point.

Imputation multiple

Afin de traiter le problème du bruit accru dû à l'imputation, il est possible de faire la moyenne des résultats sur plusieurs ensembles de données imputées[9].

Toutes les méthodes d'imputation multiple suivent trois étapes :

  1. Imputation : Les valeurs manquantes sont imputées en appliquant une technique d'imputation simple. Cependant, les valeurs imputées sont extraites m fois d'une distribution plutôt qu'une seule fois. À la fin de cette étape, il devrait y avoir m jeux de données complets.
  2. Analyse : Chacun des m ensembles de données est analysé individuellement, produisantm analyses.
  3. Regroupement : Les m résultats d'analyse sont consolidés en un seul résultat en calculant la moyenne, la variance et l'intervalle de confiance de la variable concernée[10],[11] ou en combinant les simulations de chaque modèle distinct.

Tout comme il existe plusieurs méthodes d'imputation unique, il existe également plusieurs méthodes d'imputation multiple. L'un des avantages de l'imputation multiple par rapport aux méthodes d'imputation unique et de suppression est sa flexibilité et la possibilité de l'utiliser dans une grande variété de scénarios.

Une technique courante d'imputation multiple est appelée imputation multiple par équations enchaînées (MICE en anglais abrégé), ou spécification entièrement conditionnelle, ou encore imputation multiple par régression séquentielle[12]. Cette technique a été conçue pour imputer des données aléatoires, et des preuves de simulation suggèrent qu'elle peut également fonctionner sur des données manquantes non aléatoires lorsque le nombre de variables auxiliaires est suffisant. Cependant, lorsque le nombre d'observations est important et que les données présentent des caractéristiques complexes, telles que des non-linéarités et une dimensionnalité élevée, elle peut se révéler peu performante.

Des approches plus récentes d'imputation multiple utilisent des techniques d'apprentissage automatique pour obtenir de meilleures performances. Par exemple, la technique d’imputation multiple par auto-encodeurs de débruitage (MIDAS en anglais abrégé, pour Multiple Imputation with Denoising Autoencoders), utilise des réseaux neuronaux non supervisés pour apprendre des représentations latentes à grain fin des données observées[13]. Il a été démontré que la technique MIDAS était plus efficace et restituait des valeurs plus précises que les autres techniques d'imputation multiple.

Comparaison avec les techniques d'imputation simple

Comme décrit précédemment, l'imputation unique ne tient pas compte de l'incertitude des imputations : après imputation, les données sont traitées comme s'il s'agissait des valeurs réelles réelles. Négliger l'incertitude de l'imputation peut conduire à des valeurs imputées trop précises et à commettre des erreurs dans les conclusions tirées[14]. En imputant plusieurs fois, l'imputation multiple permet de tenir compte de l'incertitude et de la plage de valeurs que la vraie valeur aurait pu prendre.

Combiner l'estimation de l'incertitude et l'apprentissage en profondeur pour l'imputation semble faire partie des meilleures stratégies d'imputation connues. Cela a notamment été utilisé pour modéliser des données hétérogènes sur la découverte de médicaments[15].

Voir aussi

Références

  1. (en) J. Barnard et X. L. Meng, « Applications of multiple imputation in medical studies: from AIDS to NHANES », Statistical Methods in Medical Research, vol. 8, no 1,‎ , p. 17–36 (ISSN 0962-2802, PMID 10347858, DOI 10.1177/096228029900800103, S2CID 11453137)
  2. (en) Andrew Gelman et Jennifer Hill, Data analysis using regression and multilevel/hierarchical models, New York, Cambridge University Press, (lire en ligne), « 25 »
  3. (en) « R-miss-tastic: A resource website on missing data »
  4. (en) Ranjit Lall, « How Multiple Imputation Makes a Difference », Political Analysis, vol. 24, no 4,‎ , p. 414–433 (DOI 10.1093/pan/mpw020, lire en ligne)
  5. a et b C. K. Enders, Applied Missing Data Analysis, New York, Guilford Press, (ISBN 978-1-60623-639-0)
  6. (en) Frank J. Molnar, Brian Hutton et Dean Fergusson, « Does analysis using "last observation carried forward" introduce bias in dementia research? », Canadian Medical Association Journal, vol. 179, no 8,‎ , p. 751–753 (ISSN 0820-3946, PMID 18838445, PMCID 2553855, DOI 10.1503/cmaj.080820)
  7. (en) Graham Kalton, « The treatment of missing survey data », Survey Methodology, vol. 12,‎
  8. (en) Bin Ren, Laurent Pueyo, Christine Chen et Elodie Choquet, « Using Data Imputation for Signal Separation in High Contrast Imaging », The Astrophysical Journal, vol. 892, no 2,‎ , p. 74 (DOI 10.3847/1538-4357/ab7024, Bibcode 2020ApJ...892...74R, arXiv 2001.00563, S2CID 209531731)
  9. (en) Donald Rubin, Multiple imputation for nonresponse in surveys, Wiley, coll. « Wiley Series in Probability and Statistics », (ISBN 9780471087052, DOI 10.1002/9780470316696)
  10. (en) Yang C. Yuan, « Multiple imputation for missing data: Concepts and new development », SAS Institute Inc., Rockville, MD, vol. 49,‎ , p. 1–11 (lire en ligne)
  11. Stef Van Buuren, Flexible Imputation of Missing Data, vol. 20125245, Chapman and Hall/CRC, coll. « Chapman & Hall/CRC Interdisciplinary Statistics Series », (ISBN 9781439868249, DOI 10.1201/b11826), « 2. Multiple Imputation »
  12. (en) Melissa J. Azur, Elizabeth A. Stuart, Constantine Frangakis et Philip J. Leaf, « Multiple imputation by chained equations: what is it and how does it work? », International Journal of Methods in Psychiatric Research, vol. 20, no 1,‎ , p. 40–49 (ISSN 1557-0657, PMID 21499542, PMCID 3074241, DOI 10.1002/mpr.329)
  13. (en) Ranjit Lall et Thomas Robinson, « The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning », Political Analysis,‎ (DOI 10.1017/pan.2020.49, lire en ligne)
  14. (en) John W. Graham, « Missing data analysis: making it work in the real world », Annual Review of Psychology, vol. 60,‎ , p. 549–576 (ISSN 0066-4308, PMID 18652544, DOI 10.1146/annurev.psych.58.110405.085530)
  15. (en) Benedict Irwin, « Practical Applications of Deep Learning to Impute Heterogeneous Drug Discovery Data », Journal of Chemical Information and Modeling, vol. 60, no 6,‎ , p. 2848–2857 (PMID 32478517, DOI 10.1021/acs.jcim.0c00443)