LogitLa fonction logit est une fonction mathématique utilisée principalement :
Son expression est
La base du logarithme utilisé est sans importance, tant que celle-ci est supérieure à 1. Le logarithme népérien (base e) est souvent choisi, mais on peut lui préférer le logarithme décimal (base 10) pour mettre en évidence les ordres de grandeur décimaux : logit(p) = –4 correspond alors à une probabilité de 10-4, etc. En fiabilité, Myron Tribus utilise une base 100.1, soit dix fois le logarithme décimal, et les nomme des décibels[1] par analogie avec les niveaux de bruit. Pour éviter toute confusion[a], Stanislas Dehaene appelle cette unité déciban dans ses cours au Collège de France, du nom inventé par Alan Turing en 1940[2], repris par d'autres auteurs[3]. PropriétésRéciproqueUtilisée avec le logarithme népérien, la fonction logit est la réciproque de la sigmoïde :
Elle est donc utilisée pour linéariser les fonctions logistiques. Points remarquables et limitesLa fonction logit étant définie sur ]0,1[, on s'intéresse aux deux points extrêmes et au point central. DérivéeLa fonction logit est dérivable pour tout . Avec le logarithme népérien, sa valeur est Étant donné que, pour tout , et , la fonction logit est strictement croissante. PrimitivesEn utilisant les propriétés du logarithme népérien et la forme de ses primitives, on montre que sa primitive qui s'annule en 0 s'écrit :
MotivationSi p est une probabilité, cette probabilité sera toujours comprise entre 0 et 1, et donc toute tentative pour ajuster un nuage de probabilité par une droite sera invalidée par le fait que la droite n'est pas bornée. La transformation de p en p/(1–p) permet de travailler sur des valeurs variant de 0 à +∞, puis le passage au logarithme permet de travailler sur un nuage de points dont les valeurs varient entre –∞ et +∞, ce qui rend possible l'approximation par une droite réelle. Sous cette forme on peut tenter un ajustement du nuage de points[b]. La fonction logit est plus malléable que la probit, ce qui permet de simuler par une fonction dérivable en forme de S aplati ce qui, en pratique, ressemble à un saut non continu, une « marche d'escalier » (oui/non en régression discrète, déclenchement d'un neurone, catastrophe à la Thom, etc.) HistoriqueJoseph Berkson a présenté la fonction et le nom logit en 1944, par analogie et en opposition à la notion de probit développée par Chester Ittner Bliss et John Gaddum en 1934. Alan Turing utilise indépendamment la même fonction peu après la Seconde Guerre mondiale sous le nom de log-odds[4]. En effet, une fonction de répartition de fréquences en forme de S aplati peut laisser penser à une distribution Normale, mais aussi à une courbe logistique qui est moins concentrée (de kurtosis > 3), voire à d'autres modèles (arc tangente, Student, Cauchy). Jusqu'en 1944, le modèle de la loi normale était privilégié et la fonction pour en déterminer les paramètres était la fonction probit. Il faut plusieurs années à Berkson pour convaincre la communauté scientifique que le modèle logit possède sa place dans l'arsenal des méthodes au même titre que le modèle probit ; mais sa virulence polémique d'une part et l'habitude acquise de la loi normale d'autre part freinent puissamment l'adoption du modèle. Le développement des statistiques et des réseaux neuronaux le généralisera pourtant dès 1960. De nos jours, en inférence statistique, il est plus utilisé que le probit, par exemple dans la régression logistique[5]. Les imperfections du modèle Gauss-normal ont également conduit les responsables de systèmes de classement Elo (échecs, tennis, football, etc.) à lui préférer un modèle logistique. La fonction logit doit en partie son succès à la moindre puissance de calcul nécessaire à son évaluation, même sans moyens informatiques[6]. Notes et référencesNotes
Références
|