Analyse procustéenne

En statistiques, l'analyse procustéenne est une technique pour comparer des formes. Elle est utilisée pour déformer un objet afin de le rendre autant que faire se peut semblable à une référence (potentiellement arbitraire), ne laissant apparaître entre l'objet et la référence que les différences que les transformations autorisées (rotation, translation et mise à l'échelle) n'ont pu gommer. La déformation supprime les différences qui ne sont pas dues à la forme intrinsèque de l'objet (mais par exemple à un biais introduit lors de l'acquisition des données). Celles qui subsistent sont considérées objectives, et permettent d'évaluer le degré de ressemblance entre l'objet et la référence.

Cette technique a été nommée ainsi en 1962 par Hurley et Catell à partir de Procuste, brigand de la mythologie grecque qui forçait ses victimes à s'allonger sur un lit et modifiait leur taille par la force pour que celle-ci correspondît à la taille du lit. Cependant, le cœur théorique de la technique est de plus de 20 ans antérieur (Mosier, 1939). Améliorée et affinée depuis par de nombreuses publications scientifiques, l'analyse procustéenne est utilisée dans tous les champs où l'analyse de formes peut être utile, à l'instar entre autres de la biologie, de la psychologie, de l'archéologie et de la médecine.

Le problème de Procuste

Procuste, personnage de la mythologie grecque, était un brigand qui forçait ses victimes à s'allonger sur son lit et leur étirait les jambes si les pieds ne touchaient pas le bout du lit, ou au contraire leur coupait les jambes à la hache si elles dépassaient du lit.

La version scientifique de l'histoire, dans le domaine de l'analyse des formes, consiste à se donner pour lit une forme de référence, dont les propriétés sont connues, sur lequel on allongera des victimes venant d'un ensemble d'objets à étudier. Le problème consiste à comparer la forme du lit à la forme des victimes, opération difficile tant que l'une ne peut pas s'allonger sur l'autre.

Pour retailler les victimes et résoudre le problème, les scientifiques vont utiliser, en fait de hache, la translation, qui permettra de déplacer les victimes jusqu'au centre du lit, l'homothétie, qui changera la taille de la victime pour qu'elle soit égale à la taille du lit et enfin la rotation, qui trouvera la position la plus confortable pour la victime.

Il apparaît ainsi que la hache ne peut changer la forme de l'objet (toutes les transformations utilisées conservent les angles). Cela permet par exemple en biologie de comparer la forme du crâne d'un dauphin et d'un rat, en éliminant la différence de taille entre ces deux crânes, ainsi que les différences introduites lors de la numérisation des données (position et orientation sur l'appareil de mesure, par exemple).

Illustration en dimension deux

Illustration d'une analyse de procuste : un carré de référence et un quadrilatère à analyser
Illustration de l'analyse : un carré de référence en bleu et un quadrilatère à analyser en vert

La première étape en analyse Procuste est de rechercher, dans la forme à étudier, un certain nombre de points considérés comme des points de référence ou points d'intérêt qui pourront résumer la forme étudiée. Pour illustrer la résolution du problème de Procuste, on peut considérer le cas d'une victime, symbolisée par les quatre points du quadrilatère vert sur le schéma, que l'on cherche à allonger sur un lit carré (en bleu sur le schéma), de côté 1, centré sur l'origine.

La méthode de base, illustrée ici, consiste en la suppression des trois composantes en translation, rotation et échelle du quadrilatère vert. La seule contrainte sur l'ordre des opérations est que la rotation doit être effectuée en dernier.

Suppression de la composante en translation

Le quadrilatère à analyser est centré sur l'origine grâce à la translation
Le quadrilatère à analyser est centré sur l'origine grâce à la translation

La forme à analyser et la référence sont maintenant toutes deux centrées sur l'origine.

Il faut que le centre du quadrilatère considéré coïncide avec le centre de la forme de référence, qui se situe à l'origine du repère. Pour cela, il suffit de calculer les coordonnées du centre du quadrilatère vert :

sont les coordonnées des quatre sommets du quadrilatère vert, puis d'appliquer à tous ces points la transformation  :

Suppression de la composante d'échelle

Le quadrilatère à analyser est mis à l'échelle
La surface du quadrilatère à analyser est rendue égale à celle du carré de référence (qui vaut 1).

Il existe différents moyens de calculer la taille de la victime (ils dépendent principalement de la métrique choisie). Considérons ici un des plus utilisés, où la taille du quadrilatère à analyser est :

Il s'agit de donner à la forme considérée la même taille que celle de la forme de référence. Comme celle-ci est 1, il suffit d'appliquer la transformation à tous les points de la forme.

Suppression de la composante en rotation

Le quadrilatère à analyser est tourné de manière à minimiser la distance de Procuste
Le quadrilatère à analyser est tourné de manière à minimiser la distance de Procuste.

La dernière étape, la plus complexe, consiste à trouver de quel angle il faut tourner le quadrilatère vert pour répartir au mieux entre les quatre points qui constituent les formes la différence qu'il présente avec la forme de référence.

Mathématiquement, cette différence s'exprime par une distance (qui dépend, comme la surface, de la métrique choisie) que l'on minimise en fonction de , en utilisant par exemple la méthode des moindres carrés.

Cette distance, une fois minimisée, s'appelle distance de Procuste et n'a d'intérêt que comparée à la distance de Procuste d'autres spécimens. Par exemple en biologie la comparaison de formes de crânes permet d'évaluer la distance entre plusieurs espèces[a 1].

Formalisme mathématique

Formalisme géométrique

Le sujet de l'analyse est une forme , composée de points d'intérêt de dimension , que l'on comparera à une référence .

La forme fait partie d'une classe d'équivalence, générée en supprimant les composantes de translation, rotation et d'échelle.

Le problème que résout l'analyse procustéenne est la minimisation de la distance entre et , en utilisant uniquement sur translations, rotations et homothéties. C'est-à-dire que l'on recherche :

est l'ensemble des compositions des translations, rotations et homothéties (les mouvements que Procuste peut effectuer avec sa hache), et la norme correspondant à la distance choisie, bien souvent définie par[1] :

Formalisme matriciel

Le formalisme matriciel est en réalité celui qui prévaut dans la littérature (le formalisme géométrique n'ayant qu'un intérêt pédagogique).

En reprenant les notations du formalisme géométrique, le problème de Procuste revient à modifier une matrice de dimension (le voyageur) pour minimiser sa distance à un lit de Procuste , également de dimension , à l'aide d'une autre matrice , la matrice des opérations permises à Procuste, de dimension . C'est-à-dire que l'on cherchera[b 1] :

Dans le cas où est réelle, la solution du problème s'estime par[b 2] :

Distance de Procuste

La distance de Procuste (ou distance procustéenne) est un moyen de comparaison de deux images représentées par un ensemble de points d'intérêt décrits en coordonnées de Bookstein. Elle s'utilise dans le cadre de la morphométrie.

La distance entre deux objets et composés de points est donnée par :

.

Implémentations

L'expression matricielle du problème a permis d'informatiser l'analyse procustéenne, on en trouve une implémentation dans de nombreux logiciels scientifiques, par exemple Matlab[2], Octave[3] ou encore R[4].

Variantes

Le problème de Procuste, s'il correspond toujours au cadre général de faire correspondre un objet à un autre objet de référence, en utilisant un jeu bien défini de transformation sur le premier objet, connaît d'innombrables variantes :

  • il est possible de poser des conditions sur la matrice , (une condition d'orthogonalité, par exemple) ce qui signifie que le type d'opérations possibles sur la victime est limité ;
  • l'expression de la distance dépend de la métrique choisie ;
  • l'objet considéré et la référence peuvent être constitués de points repérés dans des espaces de dimension différentes (auquel cas on augmentera la taille de la plus petite matrice en rajoutant des 0[3]).

Historique

Le problème de Procuste a été ainsi nommé par Hurley et Catell en 1962, car leur programme « se prête bien à l'exploit de faire correspondre par la force presque n'importe quelles données à presque n'importe quelle hypothèse[c 1]». Mosier parvient toutefois, en 1939, c'est-à-dire avant l'avènement de l'informatique, à la même solution au même problème[a 2]. Une étude[a 3] menée par Cole en 1996 fait même remonter la première occurrence d'un tel problème à une publication datant 1905[a 4], écrite par un dénommé Boas, dont un des étudiants, Phelps, publiera en 1932[a 5] une extension de la méthode de Boas utilisant la moyenne de plusieurs spécimens, ce qui constitue le cœur de l'analyse procustéenne généralisée, dont les premières apparitions sous ce nom datent du début des années 1970[b 3].

La densité de la littérature sur le sujet, la disparité des champs d'application et l'abondance des problèmes dérivés du problème de Procuste original font qu'à partir de la fin des années 1960, il devient très difficile de tracer un parcours cohérent du problème, certaines découvertes sur le sujet étant parfois effectuées indépendamment par deux personnes[b 4]. En 1977, une publication de ten Berge identifiait pas moins de 36 problèmes de Procuste différents[b 4].

Champs d'application

De par son utilité en analyse statistique des formes, l'analyse procustéenne est appliquée en médecine, biologie, archéologie ou même en physique (pour l'analyse des déformations).

La mise au point de l'analyse de Procuste généralisée a encore élargi le spectre des applications, en y incluant par exemple la psychologie, où cette technique se révèle utile pour donner du sens aux résultats des questionnaires à profil libre.

Annexes

Notes

  1. « lends itself to the brutal feat of making almost any data fit almost any hypothesis », J.R. Hurley et R.B. Cattell, The Procrustes program: Producing direct rotation to test a hypothesized factor structure. Behav. Sci., 1962

Références

  1. (en) « The Procrustes Shape Distance Metric» extrait d'une thèse effectuée au Department of Mathematical Modelling à L'Université Technique du Danemark
  2. (en) « Statistics Toolbox - Documentation » documentation de la fonction procrustes de la boite à outil statistique du logiciel Matlab
  3. a et b (en) « Procrustes rotation » Analyse procustéenne pour Octave et Matlab, sur la page personnelle de Frans van den Berg, sur le site officiel de la faculté des sciences du vivant de l'Université de Copenhague
  4. (en) « Generalised Procrustes Analysis » Documentation de la fonction procGPA du logiciel R

Bibliographie

(en) J.C. Gower et G.B. Dijksterhuis, Procrustes Problems, Oxford University Press,

  1. p. 1
  2. p. 2
  3. p. 3
  4. a et b p. 4

Autres :

  1. (en) L. F. Markus, E. Hingst-Zaher et H. Zaher, Application of landmark morphometrics to skulls representing the orders of living mammals
  2. (en) Mosier, « Determining a simple structure when loadings for certain tests are known », Psychometrika, no 4,‎ , p. 149-162
  3. (en) T. M. Cole, « Historical note: early anthropological contributions to «geometric morphometrics». », Amer. J. Phys. Anthropol., no 101,‎ , p. 291-296
  4. (en) F. Boas, « The horizontal plane of the skull and the general problem of the comparision of variable forms », Science, no 21,‎ , p. 862-863
  5. (en) E. M. Phelps, « A critique of the principle of the horizontal plane of the skull », Amer. J. Phys. Anthropol., no 17,‎ , p. 71-98

Articles connexes

Lien externe