Données manquantes

En statistiques, les données manquantes ou les valeurs manquantes se produisent lorsqu’aucune valeur de données n’est représentée pour une variable pour une observation donnée. Les données manquantes sont courantes et peuvent avoir un effet significatif sur l'inférence, les performances de prédiction ou toute autre utilisation faite avec les données.

Des données manquantes peuvent exister dans les données en raison d'une « omission de réponse » pour l'observation donnée. Dans cette situation, aucune information n'est fournie pour un élément, pour plusieurs éléments ou pour une unité entière, c'est-à-dire un sujet. Certains éléments sont plus susceptibles d'avoir une « omission de réponse » que d'autres. Par exemple, les données concernant le revenu sont souvent manquantes. L'attrition est un type de données manquantes qui peut survenir dans les études longitudinales. Par exemple, en étudiant le développement d'un sujet avec une mesure répétée dans un laps de temps. L'absence de données se produit lorsque les participants abandonnent avant la fin du test, ainsi il manque une ou plusieurs mesures.

Les données manquent souvent en recherche en économie, en sociologie et en science politique parce que les gouvernements ou les entités privées ne peuvent pas ou choisissent de ne pas communiquer certaines statistiques critiques[1]. L'information pourrait aussi être indisponible. Parfois, les valeurs manquantes sont causées par le chercheur. Ces situations arrivent lorsque la collecte des données est mal effectuée ou que des erreurs sont commises lors de la saisie des données[2].

Différents types de données manquantes existent, ce qui affecte de différentes manières la validité des conclusions d'une recherche. Les données peuvent être soit manquantes de manière complètement aléatoire, soit manquantes aléatoirement, soit manquantes par omission prévisible. Les données manquantes peuvent être traitées de la même manière que les données censurées.

Les types de données manquantes

Il est important de comprendre les raisons pour lesquelles des données sont manquantes afin de bien utiliser l'ensemble des données. Si les valeurs sont manquantes de manière complètement aléatoire, l'échantillon de données peut encore être représentatif de la population. Néanmoins, si les valeurs manquent de manière systématique, l'analyse peut être biaisée. Par exemple, dans une étude de la relation entre le QI et le revenu, si les participants avec un QI supérieur à la moyenne ont tendance à ignorer la question « Quel est votre salaire? », l'analyse qui ne prend pas en compte cette omission volontaire (modèle MA [ voir ci-dessous]) peut faussement échouer à trouver une association positive entre le QI et le salaire. En raison de ces problèmes, les spécialistes de la méthodologie conseillent aux chercheurs de concevoir des études qui minimisent l'occurrence de valeurs manquantes[2]. Des modèles graphiques peuvent être utilisés pour décrire en détail le mécanisme de données manquantes[3],[4].

Le graphique ci-dessus montre les distributions de probabilité des estimations de l'intensité attendue de la dépression dans la population. Le nombre de cas est de 60. Laissons la vraie distribution de la population suivre une loi normale standardisée et la probabilité de non-réponse être une fonction logistique. La conclusion est la suivante: plus les données sont manquantes par omission prévisible (MOP), plus les estimations sont biaisées. En fait, l'intensité de la dépression dans la population est sous-estimée.

Données manquantes de manière complètement aléatoire (MMCA)

Les valeurs d'un ensemble de données sont manquantes de manière complètement aléatoire (MMCA) si les évènements qui conduisent à la disparition d'un élément de données particulier sont indépendants à la fois des variables observables et des paramètres d'intérêt non observables, et ce, tout en se produisant de manière aléatoire[5]. Lorsque les données sont MMCA, l'analyse effectuée sur les données est non biaisée; cependant, les données sont rarement MMCA.

Dans le cas du MMCA, le manque de données n'est lié à aucune variable dans l'étude. Ainsi, les sujets de l'étude avec une observation parfaite de l'ensemble de leurs données sont, dans les faits, un échantillon aléatoire de tous les sujets de l'étude. Avec des données MMCA, l'assignation aléatoire des traitements est censée être préservée, mais c'est généralement une hypothèse irréaliste en pratique[6].

Données manquantes aléatoirement

Les données manquantes aléatoirement (MA) se produisent lorsque les observations manquantes ne sont pas aléatoires, mais qu'elles peuvent être entièrement expliquées par des variables où il existe des informations complètes[7]. La situation MA, étant une hypothèse impossible à vérifier statistiquement, le chercheur doit s'en remettre à la vraisemblance d'une telle situation. Par exemple, les hommes sont moins susceptibles de remplir une enquête sur la dépression, mais cela n'a rien à voir avec leur niveau de dépression, après avoir inclus l'effet de leur sentiment de virilité dans l'analyse. Selon la méthode d'analyse retenue, ces données peuvent induire un biais de paramètres par l'ampleur du nombre de cellules avec des données manquantes. Un individu « mâle » avec une dépression aigüe pourrait n'avoir aucune case de remplie. Cependant, si le paramètre est estimé par le Maximum de Vraisemblance de l'Information Complète, une situation MA donne des estimations asymptotiquement non biaisées. [réf. nécessaire]

Manquant par omission prévisible

Les données manquantes par omission prévisible (MOP), également appelée données de non-réponses ou données non-ignorables, sont des données qui ne sont ni MA ni MCA. En ce sens, la valeur de la variable manquante est liée à la raison pour laquelle elle est manquante[5]. Continuant avec le précédent exemple, cette situation se produirait si les hommes ne remplissaient pas une enquête sur la dépression en raison de leur niveau de dépression.

Techniques de traitement des données manquantes

Les données manquantes réduisent la représentativité de l'échantillon, ce qui peut fausser l'extrapolation des conclusions de l'étude sur la population. En général, il existe trois approches principales pour gérer les données manquantes:

  1. Imputation : Des valeurs viennent remplacer les données manquantes du jeu de données;
  2. Omission : Les échantillons qui contiennent des données non valides sont rejetées pour le reste de l'analyse; et,
  3. Analyse : Utiliser des méthodes sur lesquelles les données manquantes n'ont aucune incidence sur le résultat.

Dans certaines applications pratiques, les chercheurs peuvent contrôler le niveau de données manquantes et prévenir les données manquantes avant la collecte de données. Un exemple serait l'obligation, dans un questionnaire électronique, de remplir un champ pour continuer de remplir le document. Ce type de questionnaire prévient l'inclusion de valeurs manquantes dans l'ensemble de données bien que cette méthode ne soit généralement pas autorisée par les comités d'éthique qui supervisent les recherches. Dans la recherche par sondage, il est courant de contacter de multiples façons chaque individu de l'échantillon en envoyant de manière répétée des lettres pour que ceux qui ne veulent pas participer changent d'avis[8]. :161–187 Cependant, ces techniques sont plus ou moins efficaces pour réduire l'effet négatif des données manquantes sur l'inférence. En effet, ces individus qui acceptent après avoir initialement refusé ou qui deviennent disponibles pour répondre au sondage risquent d'être différents des individus qui refusent de manière catégorique de participer. :188–198

Dans les situations où des valeurs manquantes sont susceptibles de se produire, il est souvent conseillé au chercheur d'utiliser des méthodes robustes à ce type de problème. Une analyse est robuste lorsque, de toute évidence, des violations légères à modérées des hypothèses clés de la technique produiront peu ou pas de biais ou de distorsion dans les conclusions tirées sur la population.

Imputation

Certaines techniques d' analyse de données ne sont pas robustes à l'absence de données et nécessitent des jeux de données «complets» ou l'imputation de données manquantes. Rubin (1987) soutien que la répétition de l'imputation, voire 5 fois ou moins, améliore considérablement la qualité de l'estimation[2]. En pratique, imputer 2 ou 3 fois les données se révèle aussi efficace que d'imputer de grands nombres de fois les données. Cependant, un nombre trop petit d'imputations peut entrainer une perte substantielle de puissance statistique, ce qui mène certains chercheurs à recommander d'imputer les données 20 à 100 fois ou plus[9]. Toute analyse de données faite par imputation multiple doit être répétée pour chacun des ensembles de données imputées, ce qui peut, dans certains cas, complexifier la combinaison de l'ensemble des statistiques calculées.

L'algorithme de maximisation des attentes est une approche dans laquelle les valeurs des statistiques qui seraient calculées si un ensemble de données complet était disponible sont estimées (imputées), en tenant compte de la configuration des données manquantes. Dans cette approche, les valeurs des éléments de données manquants individuels ne sont généralement pas imputées.

Interpolation (exemple: interpolation bilinéaire)

Dans le domaine mathématique de l'analyse numérique, l' interpolation est une méthode de construction de nouveaux points de données dans la plage d'un ensemble discret de points de données connus.

Dans la comparaison de deux échantillons appariés avec des données manquantes, une statistique de test qui utilise toutes les données disponibles sans avoir besoin d'imputation est le test t d'échantillons se chevauchant partiellement[10]. Ceci est valable sous la normalité et en supposant MCAR

Suppression partielle

Les méthodes qui impliquent de réduire les données disponibles pour un ensemble de données sans valeur manquante comprennent:

  • Suppression par liste / suppression par casse
  • Suppression par paire

Analyse complète

Méthodes qui tiennent pleinement compte de toutes les informations disponibles, sans la distorsion résultant de l'utilisation de valeurs imputées comme si elles étaient effectivement observées:

Techniques basées sur des modèles

Les techniques basées sur des modèles, souvent à l'aide de graphiques, offrent des outils supplémentaires pour tester les types de données manquants (MCAR, MAR, MNAR) et pour estimer les paramètres dans des conditions de données manquantes. Par exemple, un test pour réfuter MAR / MCAR se lit comme suit:

Pour les trois variables X, Y et ZZ est pleinement observé et X et Y partiellement observé, les données doivent satisfaire: .

En d'autres termes, la portion observée de X devrait être indépendante du statut de manque de Y, conditionnelle à chaque valeur de Z. Le non-respect de cette condition indique que le problème appartient à la catégorie MNAR[13].

(Remarque: ces tests sont nécessaires pour le MAR à base variable qui est une légère variation du MAR basé sur événement[14],[15]. )

Lorsque les données entrent dans la catégorie MNAR, des techniques sont disponibles pour estimer de manière cohérente les paramètres lorsque certaines conditions se vérifient dans le modèle[3]. Par exemple, si Y explique la raison du manque dans X et Y lui-même a des valeurs manquantes, la distribution de probabilité conjointe de X et Y peut toujours être estimée si le manque de Y est aléatoire. L'estimation dans ce cas sera:

et désignent les parties observées de leurs variables respectives.

Différentes structures de modèle peuvent produire des estimations différentes et des procédures d'estimation différentes chaque fois qu'une estimation cohérente est possible. L'estimant précédent appelle une première estimation à partir de données complètes et en le multipliant par estimée à partir des cas où Y est observé quel que soit le statut de X. De plus, pour obtenir une estimation cohérente, il est essentiel que le premier terme soit par opposition à .

Dans de nombreux cas, les techniques basées sur un modèle permettent à la structure du modèle de subir des tests de réfutation. Tout modèle qui implique l'indépendance entre une variable X partiellement observée et l'indicateur de manque d'une autre variable Y (c'est-à-dire ), sur conditionnelle peut être soumis au test de réfutation suivant: .

Enfin, les estimations qui émergent de ces techniques sont dérivées sous forme fermée et ne nécessitent pas de procédures itératives telles que la maximisation des attentes qui sont sensibles aux optima locaux[16].

Une classe spéciale de problèmes apparaît lorsque la probabilité de disparition dépend du temps. Par exemple, dans les bases de données sur les traumatismes, la probabilité de perdre des données sur l'issue du traumatisme dépend du lendemain du traumatisme. Dans ces cas, différents modèles de chaînes de Markov non stationnaires sont appliqués[17].

  1. Messner SF, « Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide », Journal of Quantitative Criminology, vol. 8, no 2,‎ , p. 155–173 (DOI 10.1007/bf01066742)
  2. a b et c David J. Hand, Herman J. Adèr et Gideon J. Mellenbergh, Advising on Research Methods: A Consultant's Companion, Huizen, Netherlands, Johannes van Kessel, , 305–332 p. (ISBN 978-90-79418-01-5)
  3. a et b Karthika Mohan, Judea Pearl et Jin Tian, Advances in Neural Information Processing Systems 26, , 1277–1285 p.
  4. Karvanen, « Study design in causal models », Scandinavian Journal of Statistics, vol. 42, no 2,‎ , p. 361–377 (DOI 10.1111/sjos.12110, arXiv 1211.2958, lire en ligne)
  5. a et b Polit DF Beck CT, Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed., Philadelphia, USA, Wolters Klower Health, Lippincott Williams & Wilkins,
  6. Deng, « On Biostatistics and Clinical Trials » [archive du ], (consulté le )
  7. « Archived copy » [archive du ] (consulté le )
  8. I. Stoop, J. Billiet, A. Koch et R. Fitzgerald, Reducing Survey Nonresponse: Lessons Learned from the European Social Survey, Oxford, Wiley-Blackwell, (ISBN 978-0-470-51669-0)
  9. Graham J.W., Olchowski A.E. et Gilreath T.D., « How Many Imputations Are Really Needed? Some Practical Clarifications of Multiple Imputation Theory », Preventative Science, vol. 8, no 3,‎ , p. 208–213 (PMID 17549635, DOI 10.1007/s11121-007-0070-9, lire en ligne)
  10. Derrick, Russ, Toher et White, « Test Statistics for the Comparison of Means for Two Samples That Include Both Paired and Independent Observations », Journal of Modern Applied Statistical Methods, vol. 16, no 1,‎ , p. 137–157 (DOI 10.22237/jmasm/1493597280)
  11. Chechik, Heitz, Elidan et Abbeel, « Max-margin Classification of incomplete data », Neural Information Processing Systems,‎ , p. 233–240 (lire en ligne)
  12. Chechik, Heitz, Elidan et Abbeel, « Max-margin Classification of Data with Absent Features », The Journal of Machine Learning Research, vol. 9,‎ , p. 1–21 (ISSN 1532-4435, lire en ligne)
  13. Mohan et Pearl, « On the testability of models with missing data », Proceedings of AISTAT-2014, Forthcoming,‎
  14. Adnan Darwiche, Modeling and Reasoning with Bayesian Networks, Cambridge University Press,
  15. Potthoff, Tudor, Pieper et Hasselblad, « Can one assess whether missing data are missing at random in medical studies? », Statistical Methods in Medical Research, vol. 15, no 3,‎ , p. 213–234 (PMID 16768297, DOI 10.1191/0962280206sm448oa, lire en ligne)
  16. Mohan, Van den Broeck, Choi et Pearl, « An Efficient Method for Bayesian Network Parameter Learning from Incomplete Data », Presented at Causal Modeling and Machine Learning Workshop, ICML-2014,‎
  17. Mirkes, Coats, Levesley et Gorban, « Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes », Computers in Biology and Medicine, vol. 75,‎ , p. 203–216 (PMID 27318570, DOI 10.1016/j.compbiomed.2016.06.004, Bibcode 2016arXiv160400627M, arXiv 1604.00627, lire en ligne [archive du ])

Bibliographie

  • Acock AC (2005), "Working with missing values", Journal of Marriage and Family, 67 (4): 1012–28, doi:10.1111/j.1741-3737.2005.00191.x, archived from the original on 2013-01-05
  • Allison, Paul D. (2001), Missing Data, SAGE Publishing
  • Bouza-Herrera, Carlos N. (2013), Handling Missing Data in Ranked Set Sampling, Springer
  • Enders, Craig K. (2010), Applied Missing Data Analysis, Guilford Press
  • Graham, John W. (2012), Missing Data, Springer
  • Molenberghs, Geert; Fitzmaurice, Garrett; Kenward, Michael G.; Tsiatis, Anastasios; Verbeke, Geert, eds. (2015), Handbook of Missing Data Methodology, Chapman & Hall
  • Raghunathan, Trivellore (2016), Missing Data Analysis in Practice, Chapman & Hall
  • Little, Roderick J. A.; Rubin, Donald B. (2002), Statistical Analysis with Missing Data (2nd ed.), Wiley
  • Tsiatis, Anastasios A. (2006), Semiparametric Theory and Missing Data, Springer
  • Van den Broeck J, Cunningham SA, Eeckels R, Herbst K (2005), "Data cleaning: detecting, diagnosing, and editing data abnormalities", PLOS Medicine, 2 (10): e267, doi:10.1371/journal.pmed.0020267, PMC 1198040, PMID 16138788
  • « Techniques for Missing Value Recovering in Imbalanced Databases: Application in a marketing database with massive missing data » () (DOI 10.1109/ICSMC.2006.385265)
    « (ibid.) », dans IEEE International Conference on Systems, Man and Cybernetics, 2006. SMC '06., vol. 3, p. 2658–2664

Liens externes

Contexte

Logiciel