Données manquantesEn statistiques, les données manquantes ou les valeurs manquantes se produisent lorsqu’aucune valeur de données n’est représentée pour une variable pour une observation donnée. Les données manquantes sont courantes et peuvent avoir un effet significatif sur l'inférence, les performances de prédiction ou toute autre utilisation faite avec les données. Des données manquantes peuvent exister dans les données en raison d'une « omission de réponse » pour l'observation donnée. Dans cette situation, aucune information n'est fournie pour un élément, pour plusieurs éléments ou pour une unité entière, c'est-à-dire un sujet. Certains éléments sont plus susceptibles d'avoir une « omission de réponse » que d'autres. Par exemple, les données concernant le revenu sont souvent manquantes. L'attrition est un type de données manquantes qui peut survenir dans les études longitudinales. Par exemple, en étudiant le développement d'un sujet avec une mesure répétée dans un laps de temps. L'absence de données se produit lorsque les participants abandonnent avant la fin du test, ainsi il manque une ou plusieurs mesures. Les données manquent souvent en recherche en économie, en sociologie et en science politique parce que les gouvernements ou les entités privées ne peuvent pas ou choisissent de ne pas communiquer certaines statistiques critiques[1]. L'information pourrait aussi être indisponible. Parfois, les valeurs manquantes sont causées par le chercheur. Ces situations arrivent lorsque la collecte des données est mal effectuée ou que des erreurs sont commises lors de la saisie des données[2]. Différents types de données manquantes existent, ce qui affecte de différentes manières la validité des conclusions d'une recherche. Les données peuvent être soit manquantes de manière complètement aléatoire, soit manquantes aléatoirement, soit manquantes par omission prévisible. Les données manquantes peuvent être traitées de la même manière que les données censurées. Les types de données manquantesIl est important de comprendre les raisons pour lesquelles des données sont manquantes afin de bien utiliser l'ensemble des données. Si les valeurs sont manquantes de manière complètement aléatoire, l'échantillon de données peut encore être représentatif de la population. Néanmoins, si les valeurs manquent de manière systématique, l'analyse peut être biaisée. Par exemple, dans une étude de la relation entre le QI et le revenu, si les participants avec un QI supérieur à la moyenne ont tendance à ignorer la question « Quel est votre salaire? », l'analyse qui ne prend pas en compte cette omission volontaire (modèle MA [ voir ci-dessous]) peut faussement échouer à trouver une association positive entre le QI et le salaire. En raison de ces problèmes, les spécialistes de la méthodologie conseillent aux chercheurs de concevoir des études qui minimisent l'occurrence de valeurs manquantes[2]. Des modèles graphiques peuvent être utilisés pour décrire en détail le mécanisme de données manquantes[3],[4]. Données manquantes de manière complètement aléatoire (MMCA)Les valeurs d'un ensemble de données sont manquantes de manière complètement aléatoire (MMCA) si les évènements qui conduisent à la disparition d'un élément de données particulier sont indépendants à la fois des variables observables et des paramètres d'intérêt non observables, et ce, tout en se produisant de manière aléatoire[5]. Lorsque les données sont MMCA, l'analyse effectuée sur les données est non biaisée; cependant, les données sont rarement MMCA. Dans le cas du MMCA, le manque de données n'est lié à aucune variable dans l'étude. Ainsi, les sujets de l'étude avec une observation parfaite de l'ensemble de leurs données sont, dans les faits, un échantillon aléatoire de tous les sujets de l'étude. Avec des données MMCA, l'assignation aléatoire des traitements est censée être préservée, mais c'est généralement une hypothèse irréaliste en pratique[6]. Données manquantes aléatoirementLes données manquantes aléatoirement (MA) se produisent lorsque les observations manquantes ne sont pas aléatoires, mais qu'elles peuvent être entièrement expliquées par des variables où il existe des informations complètes[7]. La situation MA, étant une hypothèse impossible à vérifier statistiquement, le chercheur doit s'en remettre à la vraisemblance d'une telle situation. Par exemple, les hommes sont moins susceptibles de remplir une enquête sur la dépression, mais cela n'a rien à voir avec leur niveau de dépression, après avoir inclus l'effet de leur sentiment de virilité dans l'analyse. Selon la méthode d'analyse retenue, ces données peuvent induire un biais de paramètres par l'ampleur du nombre de cellules avec des données manquantes. Un individu « mâle » avec une dépression aigüe pourrait n'avoir aucune case de remplie. Cependant, si le paramètre est estimé par le Maximum de Vraisemblance de l'Information Complète, une situation MA donne des estimations asymptotiquement non biaisées. [réf. nécessaire] Manquant par omission prévisibleLes données manquantes par omission prévisible (MOP), également appelée données de non-réponses ou données non-ignorables, sont des données qui ne sont ni MA ni MCA. En ce sens, la valeur de la variable manquante est liée à la raison pour laquelle elle est manquante[5]. Continuant avec le précédent exemple, cette situation se produirait si les hommes ne remplissaient pas une enquête sur la dépression en raison de leur niveau de dépression. Techniques de traitement des données manquantesLes données manquantes réduisent la représentativité de l'échantillon, ce qui peut fausser l'extrapolation des conclusions de l'étude sur la population. En général, il existe trois approches principales pour gérer les données manquantes:
Dans certaines applications pratiques, les chercheurs peuvent contrôler le niveau de données manquantes et prévenir les données manquantes avant la collecte de données. Un exemple serait l'obligation, dans un questionnaire électronique, de remplir un champ pour continuer de remplir le document. Ce type de questionnaire prévient l'inclusion de valeurs manquantes dans l'ensemble de données bien que cette méthode ne soit généralement pas autorisée par les comités d'éthique qui supervisent les recherches. Dans la recherche par sondage, il est courant de contacter de multiples façons chaque individu de l'échantillon en envoyant de manière répétée des lettres pour que ceux qui ne veulent pas participer changent d'avis[8]. :161–187 Cependant, ces techniques sont plus ou moins efficaces pour réduire l'effet négatif des données manquantes sur l'inférence. En effet, ces individus qui acceptent après avoir initialement refusé ou qui deviennent disponibles pour répondre au sondage risquent d'être différents des individus qui refusent de manière catégorique de participer. :188–198 Dans les situations où des valeurs manquantes sont susceptibles de se produire, il est souvent conseillé au chercheur d'utiliser des méthodes robustes à ce type de problème. Une analyse est robuste lorsque, de toute évidence, des violations légères à modérées des hypothèses clés de la technique produiront peu ou pas de biais ou de distorsion dans les conclusions tirées sur la population. ImputationCertaines techniques d' analyse de données ne sont pas robustes à l'absence de données et nécessitent des jeux de données «complets» ou l'imputation de données manquantes. Rubin (1987) soutien que la répétition de l'imputation, voire 5 fois ou moins, améliore considérablement la qualité de l'estimation[2]. En pratique, imputer 2 ou 3 fois les données se révèle aussi efficace que d'imputer de grands nombres de fois les données. Cependant, un nombre trop petit d'imputations peut entrainer une perte substantielle de puissance statistique, ce qui mène certains chercheurs à recommander d'imputer les données 20 à 100 fois ou plus[9]. Toute analyse de données faite par imputation multiple doit être répétée pour chacun des ensembles de données imputées, ce qui peut, dans certains cas, complexifier la combinaison de l'ensemble des statistiques calculées. L'algorithme de maximisation des attentes est une approche dans laquelle les valeurs des statistiques qui seraient calculées si un ensemble de données complet était disponible sont estimées (imputées), en tenant compte de la configuration des données manquantes. Dans cette approche, les valeurs des éléments de données manquants individuels ne sont généralement pas imputées. Interpolation (exemple: interpolation bilinéaire)Dans le domaine mathématique de l'analyse numérique, l' interpolation est une méthode de construction de nouveaux points de données dans la plage d'un ensemble discret de points de données connus. Dans la comparaison de deux échantillons appariés avec des données manquantes, une statistique de test qui utilise toutes les données disponibles sans avoir besoin d'imputation est le test t d'échantillons se chevauchant partiellement[10]. Ceci est valable sous la normalité et en supposant MCAR Suppression partielleLes méthodes qui impliquent de réduire les données disponibles pour un ensemble de données sans valeur manquante comprennent:
Analyse complèteMéthodes qui tiennent pleinement compte de toutes les informations disponibles, sans la distorsion résultant de l'utilisation de valeurs imputées comme si elles étaient effectivement observées:
Techniques basées sur des modèlesLes techniques basées sur des modèles, souvent à l'aide de graphiques, offrent des outils supplémentaires pour tester les types de données manquants (MCAR, MAR, MNAR) et pour estimer les paramètres dans des conditions de données manquantes. Par exemple, un test pour réfuter MAR / MCAR se lit comme suit: Pour les trois variables X, Y et Z où Z est pleinement observé et X et Y partiellement observé, les données doivent satisfaire: . En d'autres termes, la portion observée de X devrait être indépendante du statut de manque de Y, conditionnelle à chaque valeur de Z. Le non-respect de cette condition indique que le problème appartient à la catégorie MNAR[13]. (Remarque: ces tests sont nécessaires pour le MAR à base variable qui est une légère variation du MAR basé sur événement[14],[15]. ) Lorsque les données entrent dans la catégorie MNAR, des techniques sont disponibles pour estimer de manière cohérente les paramètres lorsque certaines conditions se vérifient dans le modèle[3]. Par exemple, si Y explique la raison du manque dans X et Y lui-même a des valeurs manquantes, la distribution de probabilité conjointe de X et Y peut toujours être estimée si le manque de Y est aléatoire. L'estimation dans ce cas sera: où et désignent les parties observées de leurs variables respectives. Différentes structures de modèle peuvent produire des estimations différentes et des procédures d'estimation différentes chaque fois qu'une estimation cohérente est possible. L'estimant précédent appelle une première estimation à partir de données complètes et en le multipliant par estimée à partir des cas où Y est observé quel que soit le statut de X. De plus, pour obtenir une estimation cohérente, il est essentiel que le premier terme soit par opposition à . Dans de nombreux cas, les techniques basées sur un modèle permettent à la structure du modèle de subir des tests de réfutation. Tout modèle qui implique l'indépendance entre une variable X partiellement observée et l'indicateur de manque d'une autre variable Y (c'est-à-dire ), sur conditionnelle peut être soumis au test de réfutation suivant: . Enfin, les estimations qui émergent de ces techniques sont dérivées sous forme fermée et ne nécessitent pas de procédures itératives telles que la maximisation des attentes qui sont sensibles aux optima locaux[16]. Une classe spéciale de problèmes apparaît lorsque la probabilité de disparition dépend du temps. Par exemple, dans les bases de données sur les traumatismes, la probabilité de perdre des données sur l'issue du traumatisme dépend du lendemain du traumatisme. Dans ces cas, différents modèles de chaînes de Markov non stationnaires sont appliqués[17].
Bibliographie
Liens externesContexte
Logiciel |