Imputation (statistique)En statistique, l’imputation désigne le processus de remplacement des données manquantes avec des valeurs substituées. Quand un point de données est substitué, on parle d’imputation unitaire ; quand une composante de point de données est substituée, on parle d’imputation d'items. Des données manquantes peuvent être à l'origine de trois types de problèmes[1] :
L'imputation est considérée comme un moyen d'éviter les pièges liées aux valeurs manquantes, en préservant tous les cas par le remplacement des données manquantes par une valeur estimée basée sur d'autres informations disponibles. Une fois toutes les valeurs manquantes imputées, on peut alors analyser l'ensemble de données à l'aide des techniques standard applicables à des jeux de données complets[2]. De nombreuses techniques ont été développées pour traiter les données manquantes, mais la majorité d'entre elles introduisent des biais. Parmi les plus courantes, on trouve notamment[3] :
Suppression par liste et par paireSuppression par liste (ou cas complet)La technique de loin la plus courante pour traiter les données manquantes est la suppression par liste (également appelée cas complet), consistant à supprimer tous les cas avec une valeur manquante. Si le manque de données se fait totalement au hasard, la suppression par liste n'ajoute aucun biais : elle ne fait que réduire la puissance de l'analyse en diminuant la taille effective de l'échantillon. Par exemple, si 1 000 cas sont collectés mais que 80 ont des valeurs manquantes, la taille d'échantillon effective après la suppression de la liste est de 920. Si, à l'inverse, les cas ne manquent pas complètement au hasard, la suppression par liste introduira un biais car le sous-échantillon de cas représenté par les données manquantes ne sera pas représentatif de l'échantillon d'origine, et si l'échantillon d'origine était lui-même un échantillon représentatif d'une population, les cas complets ne sont pas non plus représentatifs de cette population[4]. Bien qu'en théorie, la suppression par liste soit impartiale dès lors que les données manquantes manquent complètement au hasard, c'est rarement le cas dans la réalité. Son seul avantage par rapport aux autres méthodes de traitement des données manquantes, et la principale raison qui explique qu'elle soit la méthode la plus couramment appliquée malgré ses nombreux inconvénients, est qu'elle est simple et facile à mettre en œuvre. Suppression par paires (ou analyse de cas disponible)La suppression par paires (ou analyse de cas disponible) consiste à supprimer un cas de valeur manquante lorsqu'il manque une variable requise pour une analyse particulière, et à l'inclure dans les analyses pour lesquelles toutes les variables requises sont présentes. Quand on utilise la suppression par paires, le N total pour l'analyse ne sera pas cohérent entre les estimations de paramètres. En raison des valeurs N incomplètes à certains moments, tout en maintenant une comparaison de cas complète pour d'autres paramètres, la suppression par paires peut introduire des situations mathématiques impossibles, comme des corrélations supérieures à 100 %[5]. Imputation uniqueImputation hot-deckUne méthode d'imputation autrefois courante était l'imputation hot-deck, où une valeur manquante était imputée à partir d'un enregistrement similaire sélectionné au hasard. Le terme « hot-deck » remonte à l'époque où les données étaient stockées sur cartes perforées, et indique que les producteurs et les consommateurs de données appartenaient au même jeu de données. La pile de cartes était "chaude" ("hot") car elle était en cours de traitement. Imputation par la dernière observation reportéeUne des formes d'imputation hot-deck est appelée dernière observation reportée (ou LOCF en anglais abrégé). Cette technique d'imputation consiste à trier un ensemble de données en fonction d'une des variables, quelconque, parmi un certain nombre pour créer ainsi un ensemble de données ordonné. On substitue alors chaque valeur manquante par la valeur de cellule qui la précède immédiatement dans cet ensemble de données ordonné. Lorsque les données correspondent à des mesures répétées d'une variable donnée, cette technique repose sur l'hypothèse que la meilleure estimation d'une mesure manquante est la valeur de la variable lors de sa dernière mesure. Cette méthode est connue pour augmenter le risque de biais croissants et de conclusions potentiellement fausses. Pour cette raison, l'utilisation de cette technique n'est pas recommandée[6]. Imputation cold-deckÀ l'inverse de l'imputation hot-deck, l'imputation cold-deck sélectionne des données d'un autre jeu de données, par exemple, avec des valeurs de réponse d'éléments similaires obtenues lors d'enquêtes antérieures. Imputation par la moyenneLa technique d'imputation par la moyenne consiste à remplacer chaque valeur manquante par la moyenne de cette variable pour tous les autres cas. Cette technique présente l'avantage de ne pas modifier la moyenne de l'échantillon pour cette variable. Elle a pour inconvénient d'atténuer toutes les corrélations qui impliquent la ou les variables imputées. En effet, dans les cas d'imputation, on garantit l'absence de relation entre la variable imputée et toute autre variable mesurée. L'imputation par la moyenne présente donc des propriétés intéressantes pour l'analyse univariée, mais elle devient problématique pour l'analyse multivariée. L'imputation moyenne peut être effectuée à l'intérieur des classes (c'est-à-dire des catégories comme le sexe ou la tranche d'âge) et peut être exprimée sous la forme , où est la valeur imputée pour l'enregistrement , et est la moyenne de l'échantillon des données des répondants dans une classe . Il s'agit d'un cas particulier d'imputation par régression généralisée :
Ici les valeurs sont estimés à partir de la régression sur en données non imputées, est une variable muette pour l'appartenance à une classe, et les données sont divisées en répondant () et manquant ()[7]. Factorisation matricielle non négativeLa factorisation matricielle non négative (ou NMF en anglais abrégé) consiste à calculer des valeurs de substitution pour les données manquantes en minimisant leur fonction de coût, au lieu de les traiter comme des valeurs à zéro, qui introduiraient des biais[8]. Cette technique est une méthode mathématiquement éprouvée pour l'imputation des données : cela permet d'ignorer les données manquantes dans la fonction de coût, et de réduire l'impact des données manquantes à un effet de second ordre. Imputation par régressionL'imputation par la régression pose le problème inverse de l'imputation par la moyenne. Cette technique consiste à estimer un modèle de régression pour prédire les valeurs observées d'une variable sur la base d'autres variables. On utilise ensuite ce modèle pour imputer des valeurs dans les cas où la valeur de cette variable est manquante. En d'autres termes, les informations disponibles pour les cas complets et incomplets sont utilisées pour prédire la valeur d'une variable spécifique. Les valeurs ajustées du modèle de régression sont ensuite utilisées pour imputer les valeurs manquantes. Cependant, cette technique pose un problème : les données imputées n'ont pas de terme d'erreur inclus dans leur estimation. Les estimations s'ajustent donc parfaitement le long de la ligne de régression sans aucune variance résiduelle. Cela entraîne une sur-identification des relations et suggère une plus grande précision dans les valeurs imputées que ce qui est justifié. Le modèle de régression prédit la valeur la plus probable des données manquantes, mais il ne fournit pas d'incertitude sur cette valeur. Imputation stochastiqueLa régression stochastique vise à corriger l'absence d'un terme d'erreur dans l'imputation de régression, en y ajoutant la variance de régression moyenne aux imputations de régression pour introduire une erreur. Il s'avère que la régression stochastique introduit beaucoup moins de biais que les autres techniques d'imputation unique. Pour autant, dès lors que des données sont imputées, on pourrait intuitivement penser que le bruit introduit dans le problème devrait être plus important que la simple variance résiduelle[5] : c'est pour cela que des techniques d'imputation multiple ont été mises au point. Imputation multipleAfin de traiter le problème du bruit accru dû à l'imputation, il est possible de faire la moyenne des résultats sur plusieurs ensembles de données imputées[9]. Toutes les méthodes d'imputation multiple suivent trois étapes :
Tout comme il existe plusieurs méthodes d'imputation unique, il existe également plusieurs méthodes d'imputation multiple. L'un des avantages de l'imputation multiple par rapport aux méthodes d'imputation unique et de suppression est sa flexibilité et la possibilité de l'utiliser dans une grande variété de scénarios. Une technique courante d'imputation multiple est appelée imputation multiple par équations enchaînées (MICE en anglais abrégé), ou spécification entièrement conditionnelle, ou encore imputation multiple par régression séquentielle[12]. Cette technique a été conçue pour imputer des données aléatoires, et des preuves de simulation suggèrent qu'elle peut également fonctionner sur des données manquantes non aléatoires lorsque le nombre de variables auxiliaires est suffisant. Cependant, lorsque le nombre d'observations est important et que les données présentent des caractéristiques complexes, telles que des non-linéarités et une dimensionnalité élevée, elle peut se révéler peu performante. Des approches plus récentes d'imputation multiple utilisent des techniques d'apprentissage automatique pour obtenir de meilleures performances. Par exemple, la technique d’imputation multiple par auto-encodeurs de débruitage (MIDAS en anglais abrégé, pour Multiple Imputation with Denoising Autoencoders), utilise des réseaux neuronaux non supervisés pour apprendre des représentations latentes à grain fin des données observées[13]. Il a été démontré que la technique MIDAS était plus efficace et restituait des valeurs plus précises que les autres techniques d'imputation multiple. Comparaison avec les techniques d'imputation simpleComme décrit précédemment, l'imputation unique ne tient pas compte de l'incertitude des imputations : après imputation, les données sont traitées comme s'il s'agissait des valeurs réelles réelles. Négliger l'incertitude de l'imputation peut conduire à des valeurs imputées trop précises et à commettre des erreurs dans les conclusions tirées[14]. En imputant plusieurs fois, l'imputation multiple permet de tenir compte de l'incertitude et de la plage de valeurs que la vraie valeur aurait pu prendre. Combiner l'estimation de l'incertitude et l'apprentissage en profondeur pour l'imputation semble faire partie des meilleures stratégies d'imputation connues. Cela a notamment été utilisé pour modéliser des données hétérogènes sur la découverte de médicaments[15]. Voir aussiRéférences
|