Rapport de corrélation

On se situe dans le cadre de l'analyse de données dans lesquelles un ensemble d'individus est décrit par plusieurs variables. Le rapport de corrélation est un indicateur statistique qui mesure l’intensité de la liaison entre une variable quantitative et une variable qualitative.

Définition

Prenons l’exemple d’une variable quantitative (la taille en cm) et d’une variable qualitative (le genre : femme/homme) dont on dispose pour un ensemble d'individus. Intuitivement, on dira que ces deux variables sont liées si :

  1. en moyenne, femmes et hommes ont des tailles différentes ;
  2. à genre fixé, les individus sont homogènes (les femmes auraient alors toutes à peu près la même taille ainsi que, de leur côté, les hommes).

Le cadre conceptuel pour formaliser cette intuition est l’équation de l’analyse de variance à un facteur. Cette équation décompose la variabilité totale (celle de tous les individus) en une variabilité inter-classes (écart entre la moyenne des femmes et la moyenne des hommes) et une variabilité intra-classe (variabilité au sein des femmes d’une part et au sein des hommes d’autre part)[1]. Soit :

Variabilité totale = variabilité inter-classes + variabilité intra-classe

Formellement, on utilise classiquement les notations suivantes.

La variable possède modalités (= classes) notées (dans l’exemple )

 : taille du individu de la classe .

 : taille moyenne des individus de la classe .

 : taille moyenne de tous les individus.

 : l'ensemble des individus appartenant à la classe .

La variabilité est mesurée par la somme des carrés des écarts (SCE). Soit:

  • pour l’ensemble des individus : ;
  • pour la variabilité intra-classe :  ;
  • pour la variabilité inter-classes : .

L’équation d’analyse de variance à un facteur s’écrit :

 

Le carré du rapport de corrélation, noté , est défini par :

C'est le pourcentage de variabilité (de la variable ) dû aux différences entre classes (de la variable )[2]. Cet indicateur varie entre 0 (les classes ont exactement la même moyenne : les variables ne sont pas liées) et 1 (les individus d'une même classe ont exactement la même valeur : les variables sont parfaitement liées puisque lorsque l'on connaît l'une on connaît l'autre).

Vocabulaire : rapport ou carré du rapport?

Les deux formulations sont utilisées. La formulation « carré du rapport » semble un peu plus utilisée. Elle est en phase avec la notation et permet de considérer le rapport lui-même (cf. interprétation géométrique plus loin). C'est celle que l'on préférera.

Exemple numérique

On a mesuré la taille de quatre animaux en notant leur sexe (mâle/femelle).

Sexe Taille
1 mâle 1
2 mâle 3
3 femelle 6
4 femelle 8

La décomposition de la est :

Soit, numériquement :

D'où

La différence entre mâles et femelles rend compte de 86,24 % de la variabilité totale. De fait, pour cette espèce, les femelles sont plus grandes que les mâles.

Interprétation géométrique

Interprétation géométrique du rapport de correlation

Soit le nombre total des individus et l’espace des fonctions sur (une fonction sur affecte une valeur numérique à chaque individu ; c’est donc un vecteur à composantes ; cet espace est communément appelé « espace des variables » en Analyse en composantes principales -ACP)[3]. On considère ci-après les variables centrées. Dans , une variable quantitative (centrée ou non) est représentée par un vecteur (ce qui est classique en ACP). Dans , une variable qualitative est représenté par un sous-espace, celui des fonctions constantes sur les classes de la variable . Ce sous-espace, noté , possède dimensions lorsque l’on se limite aux fonctions centrées ( dimensions sinon). On montre que le rapport de corrélation est égal au cosinus de l’angle entre et la projection de sur notée .

Notes

  1. Dagnélie 1998, p. 219 et suiv.
  2. Pagès 2010, p. 66.
  3. Introduction à cet espace dans Pagès 2010, p. 235

Bibliographie

  • Pierre Dagnélie, Statistique théorique et appliquée. Tome 2. Inférence statistique à une et à deux dimensions, Bruxelles, De Boeck, 2011, 3e éd. (1re éd. 1998), 736 p. (ISBN 978-2-8041-6336-5)