Estimateur de Kaplan-MeierEstimateur de Kaplan-Meier
L'estimateur de Kaplan-Meier[1],[2], également connu sous le nom de l’estimateur produit-limite, est un estimateur pour estimer la fonction de survie d’après des données de durée de vie. En recherche médicale, il est souvent utilisé pour mesurer la fraction de patients en vie pour une certaine durée après leur traitement. Il est également utilisé en économie et en écologie. Cet estimateur doit son nom à Edward L. Kaplan et Paul Meier. Une courbe d’estimation de Kaplan-Meier pour la fonction de survie est une série de marches horizontales de grandeur décroissante qui, quand un échantillon suffisamment grand est utilisé, permet d’approcher la fonction de survie réelle dans cette population. La valeur de la fonction de survie entre les échantillons successifs observés est considérée comme étant constante. Un avantage important de la courbe de Kaplan-Meier est que cette méthode peut prendre en compte certains types de données censurées, en particulier censurées par la droite, ce qui intervient lorsqu’un patient disparaît d’une étude, c’est-à-dire qu’on ne dispose plus de ses données avant que l’événement attendu (par exemple le décès), soit observé. Sur le graphique, les petits traits verticaux indiquent ces censures. Si aucune troncature ou censure n’intervient, la courbe de Kaplan-Meier est équivalente à la fonction de survie. FormulesSoit S(t) la probabilité qu’un membre d’une population donnée ait une durée de vie supérieure à t. Pour un échantillon de taille N dans cette population, les durées observées jusqu’à chaque décès des membres de l’échantillon N sont : À chaque ni correspond un ti, ni étant le nombre de personnes « à risque » juste avant le temps ti, et di le nombre de décès au temps ti. On note que les intervalles entre chaque évènement ne sont pas uniformes. Par exemple, une petite quantité de données peut commencer avec 10 cas. Supposons que le sujet 1 décède au jour 3, les sujets 2 et 3 au jour 11 et le sujet 4 disparaît du suivi (donnée censurée) au jour 9. Les données pour les 2 premiers sujets seraient les suivantes :
L’estimateur de Kaplan-Meier est l’estimation du maximum de vraisemblance non-paramétrique de S(t). C’est un produit de la forme : Lorsqu’il n’y aucune censure, ni est le nombre de survivants juste avant le temps ti.
Ici une autre définition possible parfois utilisée : Les deux définitions diffèrent uniquement aux moments des évènements observés. La dernière définition est « continue à droite » tandis que la première est « continue à gauche ». Soit T la variable aléatoire qui mesure le temps d’échec et soit F(t) sa Fonction de répartition cumulative. On note que : En conséquence, la définition continue à droite de peut être préférée pour rendre l’estimation compatible avec une estimation continue à droite de F(t). Considérations statistiquesL’estimateur de Kaplan-Meier est une statistique, et certains estimateurs sont utilisés pour approcher sa variance. Un de ces estimateurs les plus courants est la formule de Greenwood : Genèse de l'estimateur de Kaplan-MeierEn 1983, Edward L. Kaplan raconte la genèse de l'estimateur de Kaplan-Meier[3]. Le tout débute en 1952, révèle Kaplan, quand Paul Meier (alors en stage post-doctoral à l'université Johns-Hopkins, au Maryland), après avoir pris connaissance de l'article de Greenwood, publié en 1926, sur la durée du cancer, veut proposer un puissant estimateur de survie appuyé sur les résultats d'essais cliniques. En 1953, le mathématicien Kaplan (travaillant alors aux Laboratoires Bell, au New Jersey) veut proposer un estimateur de la durée qu'auront les tubes à vide utilisés pour amplifier et retransmettre les signaux dans le système de câbles téléphoniques sous-marins. Kaplan soumet son projet d'article au professeur John W. Tukey, qui œuvrait aussi pour les Laboratoires Bell et qui venait d'être maître de thèse de Meier[4] à Princeton, au New Jersey. Chacun des deux jeunes chercheurs avait soumis son manuscrit au Journal of the American Statistical Association, qui leur recommandait d'entrer en contact l'un avec l'autre, pour fusionner les deux articles. Alors, Kaplan et Meier entreprennent, par correspondance (courrier postal), de réconcilier leurs points de vue. Durant les quatre ans que dure cette phase, leur seule crainte est qu'un tiers publie avant eux un article proposant une solution équivalente. L'article Nonparametric estimation from incomplete observations est finalement publié en 1958 (Journal of the American Statistical Association, vol. 53, p. 457–481)[1]. Implémentation dans les langages de programmationPlusieurs langages de programmation et logiciels statistiques proposent des implémentations de l'estimateur de Kaplan-Meier. On peut notamment citer :
Références
|