Régression (statistiques)

Régression
Type
Type of statistical method (d), méthode statistique (d), analyse des donnéesVoir et modifier les données sur Wikidata
Inventeur
Nommé en référence à
Regression Towards Mediocrity in Hereditary Stature (d)Voir et modifier les données sur Wikidata
Aspect de

En mathématiques, la régression recouvre plusieurs méthodes d’analyse statistique permettant d’approcher une variable à partir d’autres qui lui sont corrélées. Par extension, le terme est aussi utilisé pour certaines méthodes d’ajustement de courbe.

En apprentissage automatique, on distingue les problèmes de régression des problèmes de classification. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification. Certaines méthodes, comme la régression logistique, sont à la fois des méthodes de régression au sens où il s'agit de prédire la probabilité d'appartenir à chacune des classes et des méthodes de classification[1].

Histoire

Le terme provient de la régression vers la moyenne observée par Francis Galton au XIXe siècle : les enfants de personnes de grande taille avaient eux-mêmes une taille supérieure à celle de la population en moyenne, mais inférieure à celle de leurs parents (toujours en moyenne), sans que la dispersion de taille au sein de la population totale soit réduite pour autant[2],[3]. Les techniques développées pour quantifier ce phénomène ont engendré des outils de mesure précieux dans tous les champs d’application des statistiques.

Contexte

On considère une population d’individus (êtres humains, animaux, pays, biens de consommation…) qui peuvent être décrits selon plusieurs critères appelés variables. Il peut s’agir de variables quantitatives (grandeurs numériques telles que la taille, l’âge, le prix, un pourcentage…) ou qualitatives (sexe, catégorie socio-professionnelle, saison, type de produit…)

Certaines variables peuvent être plus difficiles à mesurer que d’autres, pour des raisons techniques, des raisons d’accès (données publiques contre données privées), ou encore du fait d’un délai important entre la mise en place d’une expérience et son aboutissement. Il arrive donc que l’on souhaite estimer ces variables (dites expliquées) à partir des données plus faciles à obtenir (dites explicatives). On trouve aussi parfois les appellations variables dépendantes et indépendantes, mais elles présentent des risques de confusion avec la notion d’indépendance en probabilités, or les variables explicatives ne sont pas forcément mutuellement indépendantes[4].

La construction de la régression repose d’une part sur une modélisation des variables statistiques par des variables aléatoires (réelles ou non), d’autre part sur un recueil de données croisées, c’est-à-dire que pour un même échantillon de population, on dispose d’observations des différentes variables mesurées avec une imprécision éventuelle.

La régression consiste alors à formuler un indicateur sur les valeurs de la variable expliquée dépendant uniquement des valeurs des variables explicatives. Cet indicateur pourra ensuite être utilisé sur une population pour laquelle on ne connait que les valeurs des variables explicatives, afin d’estimer les valeurs de la variable expliquée.

Principe général

On distingue essentiellement deux cas selon la nature de la variable expliquée, représentée ici par une variable aléatoire Y. Les variables explicatives seront notées X1, … , Xn. Si certaines d’entre elles sont qualitatives, il est parfois judicieux de vectoriser leurs modalités[5] en distinguant une modalité de référence représentée par le vecteur nul, et en représentant les autres modalités par les vecteurs de base d’un espace euclidien. Sous certaines conditions, on peut aussi quantifier les modalités de ces variables.

Cas quantitatif

Pour une variable expliquée quantitative, c’est-à-dire lorsque Y est une variable aléatoire réelle, la fonction de régression est définie par un indicateur de la loi de Y conditionnellement aux valeurs des autres variables. Il s’agit le plus souvent de l’espérance conditionnelle[6] , mais on peut aussi considérer d’autres indicateurs de distribution conditionnelle comme la médiane ou d’autres quantiles, le mode, la variance[7]...

C’est donc une fonction numérique, dont les arguments sont des valeurs possibles des variables explicatives. Il est possible d’étendre cette définition au cas où certaines variables explicatives admettent une fonction de densité[8] conjointe avec la variable expliquée.

Cependant, la définition probabiliste ne suffit pas en général pour décrire la construction de l’indicateur à partir d’un jeu de données statistiques. En effet, les observations ne fournissent pas toujours toutes les combinaisons de modalités dans le cas de variables explicatives discrètes, et ne peuvent être exhaustives dans le cas de variables explicatives continues. La régression s’appuie alors sur un modèle de fonction avec un ou plusieurs paramètres, par exemple une fonction affine dans le cas de la régression linéaire ou multilinéaire. Mais d’autres modèles sont possibles.

On parle de modèle linéaire lorsque les paramètres apparaissent comme les coefficients d’une combinaison linéaire de fonctions de référence, comme dans le cas de la régression polynomiale ou pour des fonctions puissances ou exponentielles, quitte à passer par un changement de variable[9]… Mais certains modèles ne sont pas réductibles à un modèle linéaire et leur évaluation peut nécessiter des algorithmes spécifiques, voire recourir à une estimation non paramétrique[10].

Cas qualitatif

Pour une variable expliquée qualitative, la régression s’apparente aux problèmes de classification, au sens où l’on cherche à déterminer une modalité à partir des valeurs des autres variables.

La fonction de régression correspond dans ce cas à un partage de l’espace des valeurs des variables explicatives, par des méthodes géométriques ou par régression logistique.

Qualité de la régression

La variable expliquée ne s’identifie à la fonction de régression que dans le cas particulier d’une dépendance fonctionnelle. Dans le cas général, on peut interpréter la différence[11] comme une erreur aléatoire, souvent notée avec la lettre grecque ε (epsilon) : .

Si la fonction de régression est définie par l’espérance conditionnelle, le théorème de l'espérance totale assure alors que l’erreur est centrée. Le théorème de la variance totale donne l’égalité , ce qui permet de montrer que le rapport de corrélation défini par est inférieur à 1, et d’autant plus proche de 1 que la variance de Y conditionnellement à X est faible en moyenne, ce qui en fait un bon indicateur de la qualité de la régression. Inversement, lorsque le rapport de corrélation est proche de 0, cela signifie que la fonction de régression est pratiquement constante, donc que les variables explicatives apportent peu d’information sur l’espérance de la variable expliquée.

Le cas particulier d’une fonction de régression affine (avec une seule variable X) correspond à l’égalité entre le rapport de corrélation et le coefficient de corrélation linéaire .

Principaux modèles de régression

Le modèle de régression le plus connu est le modèle de régression linéaire.

Lorsque le modèle n'est pas linéaire, on peut effectuer une régression approchée par des algorithmes itératifs, on parle de régression non linéaire.

Si on s'intéresse au quantile conditionnel de la distribution de la variable aléatoire sachant le vecteur de variables aléatoires , on utilise un modèle de régression quantile[12],[13].

Si la variable expliquée est une variable aléatoire binomiale, il est courant d'utiliser une régression logistique ou un modèle probit.

Si la forme fonctionnelle de la régression est inconnue, on peut utiliser un modèle de régression non paramétrique.

Voir aussi

Références

  1. James et al. 2013, p. 28
  2. (en) Robert G. Mogull, Second-Semester Applied Statistics, Kendall/Hunt Publishing Company, (ISBN 0-7575-1181-3), p. 59
  3. Galton 1989
  4. Saporta 2011, p. 407
  5. Saporta 2011, §18.4 Discrimination sur variables quantitatives, p. 461
  6. Saporta 2011, p. 72
  7. Manski 1991
  8. Saporta 2011, §3.2 Extension à des variables quelconques, p. 77
  9. Saporta et 2011 p.389, §16.2 Ajustement sur des données
  10. Saporta 2011, §16.6 Régression non paramétrique, p. 404
  11. Dans certains cas, il est préférable de relier la variable expliquée avec la fonction de régression par un facteur multiplicatif, ce qui se ramène au cas additif par composition avec une fonction logarithme.
  12. (en) Roger Koenker et G. Bassett, « Regression quantiles », Econometrica,‎ , p. 33-50
  13. (en) Roger Koenker, Quantile Regression, Cambridge University Press,

Bibliographie

Read other articles:

Pour les autres membres de la famille, voir Famille Della Rovere. François-Marie Ier della Rovere François Marie Ier della Rovere, portrait par Le Titien (1536/38)galerie des Offices, Florence. Titre duc d'Urbino 1508 – 1538(30 ans) Couronnement 1508 Prédécesseur Guidobaldo Ier de Montefeltro Successeur Guidobaldo II della Rovere Biographie Dynastie Famille Della Rovere Date de naissance 25 mars 1490 Lieu de naissance Senigallia Date de décès 20 octobre 1538 (à 48 ans) Lieu de…

Questa pagina sull'argomento tennis sembra trattare argomenti unificabili alla pagina Association of Tennis Professionals. Commento: contenuti interamente già presenti nell'altra pagina Puoi contribuire unendo i contenuti in una pagina unica. Commenta la procedura di unione usando questa pagina di discussione. Segui i suggerimenti del progetto di riferimento. L'ATP Tour (già noto come ATP World Tour dal 2009 al 2018) è il circuito professionistico mondiale di tennis maschile organiz…

Земская почтаУезды Алатырский Александрийский Ананьевский Ардатовский Арзамасский Аткарский Ахтырский Балашовский Бахмутский Бежецкий Белебеевский Белозерский Бердянский Бобровский Богородский Богучарский Борисоглебский Боровичский Бронницкий Бугульминский Бугу…

Menara DZ Bank di Frankfurt Sebuah akronim untuk Deustche Zentralgenossenschaftbank atau Bank Koperasi Sentral Jerman, DZ Bank AG merupakan sebuah bank komersial dan, bersama dengan WGZ-Bank, administrasi pusat untuk sekitar 1,400 bank koperasi mencakup lebih dari tiga perempat semua Volksbank dan Raiffeisenbank (bank koperasi) di Jerman dan Austria, yang juga menggunakan nama AG. Bank koperasi di Jerman diwakili oleh Bundesverband der Deutschen Volksbanken und Raiffeisenbanken (BVR). DZ Bank be…

17th-century Lorrain soldier of the Holy Roman Empire Johann Wilhelm von HunolsteinJohann Wilhelm, Vogt von HunolsteinBorn(1599-04-24)24 April 1599Château-Voué, Duchy of LorraineDied29 July 1664(1664-07-29) (aged 65)Wrocław, SilesiaAllegiance Holy Roman Empire Duchy of Lorraine Electorate of BavariaYears of service1623–1660RankGeneralfeldzeugmeisterBattles/warsThirty Years' War Siege of Höxter, 1640 Siege of Neunburg, 1641 Siege of Magdeburg, 1644 Siege of Krems, 1646 S…

Proliga Putri 2024AsosiasiPBVSILigaProligaOlahragaBola voliDurasi25 April – 20 Juli 2024 (2024-7-20)Tim peserta7Penyiar Moji Voli TV Vidio Musim Proliga ← 2023 Proliga Putri 2024 merupakan musim kompetisi putri ke-22 Proliga, kompetisi bola voli profesional Indonesia. Kompetisi ini berlangsung sejak 25 April 2024 hingga selesai pada 20 Juli 2024.[1] Bandung BJB Tandamata adalah juara bertahan dari musim sebelumnya. Tim Tujuh tim bola voli menjadi peserta Prol…

2014 film by Joe Dante Burying the ExTheatrical release posterDirected byJoe DanteWritten byAlan TrezzaProduced by Carl Effenson Kyle Tekiela Frankie Lindquist Mary Cybriwsky Alan Trezza David Johnson Starring Anton Yelchin Ashley Greene Alexandra Daddario Oliver Cooper CinematographyJonathan HallEdited byMarshall HarveyMusic byJoseph LoDucaProductioncompaniesVoltage Pictures Elevated Productions Act 4 Entertainment Scooty Woop Entertainment ArtImage EntertainmentDistributed byImage Entertainmen…

2001 video gameKuru Kuru KururinEuropean box artDeveloper(s)EightingPublisher(s)NintendoDirector(s)Hiroshi SatoMasato ToyoshimaProducer(s)Shinji HatanoDesigner(s)Hironobu FumitaMasahiro YugeKenji KawakitaYuki YoneiProgrammer(s)Yasunari WatanabeArtist(s)Shinichi ŌnishiYoichi KotabeComposer(s)Atsuhiro MotoyamaSeriesKururinPlatform(s)Game Boy AdvanceReleaseJP: March 21, 2001PAL: June 22, 2001Genre(s)PuzzleMode(s)Single-player, multiplayer Kuru Kuru Kururin[a] is a puzzle video game develop…

County in Texas, United States Not to be confused with Cameron, Texas. Parts of this article (those related to politics, government, and the economy) need to be updated. Please help update this article to reflect recent events or newly available information. (March 2019) County in TexasCameron CountyCountyThe Cameron County Courthouse in Brownsville Administration Building SealLogoLocation within the U.S. state of TexasTexas's location within the U.S.Coordinates: 26°09′N 97°27′W / …

Soviet reconnaissance satellite (Zenit 2-59) Kosmos 205A Zenit reentry capsuleNamesZenit 2-59Mission typeOptical imagingOperatorSoviet space programCOSPAR ID1968-016A[1]SATCAT no.3140Mission duration8 days Spacecraft propertiesSpacecraft typeZenit-2Launch mass4,000 kg (8,800 lb) Start of missionLaunch date5 March 196812:30 UTCRocketVoskhod 11A57Launch sitePlesetsk 41/1 End of missionDecay date13 March 1968 Orbital parametersReference systemGeocentricRegimeLow EarthEcc…

عنتالمسيح في الديانات الإبراهيمية في الإسلام في المسيحية في اليهودية

This article is about the entertainer. For the Roman Catholic bishop, see Alfred Jolson. Lithuanian-American entertainer (1886–1950) Al JolsonJolson in 1929BornAsa YoelsonMay 26, 1886Sredniki, Kovno Governorate, Russian EmpireDiedOctober 23, 1950(1950-10-23) (aged 64)San Francisco, California, U.S.Resting placeHillside Memorial GardenOther namesJolieOccupations Singer comedian actor vaudevillian Years active1897–1950Political partyRepublicanSpouses Henrietta Keller ​ …

Academic journalPhysics-UspekhiDisciplinePhysicsLanguageEnglishEdited byValery RubakovPublication detailsFormer name(s)Uspekhi Fizicheskikh Nauk, Soviet Physics UspekhiHistory1918-present (in Russian); 1958-present (in English)PublisherIOP Publishing (Russia/United Kingdom)FrequencyMonthlyImpact factor3.361 (2020)Standard abbreviationsISO 4 (alt) · Bluebook (alt1 · alt2)NLM (alt) · MathSciNet (alt )ISO 4Phys.-UspekhiIndexingCODEN (alt …

Selar batang Alepes kleinii Status konservasiRisiko rendahIUCN20256067 TaksonomiKerajaanAnimaliaFilumChordataKelasActinopteriOrdoPerciformesFamiliCarangidaeGenusAlepesSpesiesAlepes kleinii Bloch, 1793 Tata namaSinonim takson Scomber kleinii Bloch, 1793 Caranx kleinii (Bloch, 1793) Caranx para Cuvier, 1833 Alepes para (Cuvier, 1833) Caranx microchir Cuvier, 1833 Caranx kalla, Cuvier, 1833 Alepes kalla, (Cuvier, 1833) Selar megalaspis, (Bleeker, 1853) Alepes megalaspis, (Bleeker, 1853) Micropteryx…

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Piala Negara OFC – berita · surat kabar · buku · cendekiawan · JSTOR Piala Negara OFCLogo Piala OseaniaMulai digelar1996WilayahOseania (OFC)Jumlah tim11Juara bertahan Selandia Baru (gelar ke-5)Tim ters…

إنديبيندنس     الإحداثيات 37°13′42″N 95°42′41″W / 37.2283°N 95.7114°W / 37.2283; -95.7114   [1] تاريخ التأسيس 1869  تقسيم إداري  البلد الولايات المتحدة[2][3]  التقسيم الأعلى مقاطعة مونغومري  عاصمة لـ مقاطعة مونغومري  خصائص جغرافية  المساحة 19.72741 كيلومتر م…

Peter HeywoodLahir(1772-06-06)6 Juni 1772Douglas, Isle of ManMeninggal10 Februari 1831(1831-02-10) (umur 58)London, InggrisPendidikanSt Bees School, InggrisPekerjaanPerwira Royal NavySuami/istriFrances Joliffe.AnakSatu putriOrang tuaPeter John dan Elizabeth Heywood Peter Heywood (6 Juni 1772 – 10 Februari 1831) adalah seorang perwira angkatan laut Inggris yang bertugas di HMS Bounty ketika terjadi peristiwa dahagi pada 28 April 1789. Ia kemudian ditangkap di Tahiti, dia…

American alternative rock band This article is about the band. For the band's first album, see They Might Be Giants (album). For the 1971 film, see They Might Be Giants (film). They Might Be GiantsJohn Flansburgh (left) and John Linnell (right) in 2020Background informationAlso known as TMBG El Grupo De Rock and Roll OriginBrooklyn, New York, U.S.Genres Alternative rock art rock power pop children's music geek rock[1][2][3][4] DiscographyThey Might Be Giants disco…

Gran Premio di SingaporeSport Automobilismo CategoriaFormula 1 FederazioneFIA Paese Singapore LuogoSingapore Street Circuit OrganizzatoreFédération Internationale de l’Automobile CadenzaAnnuale FormulaGran Premio di Formula 1Gara disputata in notturna StoriaFondazione1966 (valido per il mondiale dal GP 2008) Numero edizioni22 (di cui 14 valevoli per il mondiale di Formula 1) Detentore Carlos Sainz Jr. Ultima edizioneGP 2023 Modifica dati su Wikidata · Manuale Il Gran Premio di Sin…

Pour les articles homonymes, voir Terreur blanche et Terreur blanche de 1795. Terreur blanche de 1815 Épisode de la Terreur blanche (1815), par Fernand Pelez de Cordova, vers 1885. Date Juin - septembre 1815 Lieu Midi de la France Victimes Bonapartistes, républicains et protestants Morts 300 à 500[1] Auteurs Royalistes modifier  La Terreur blanche de 1815 est une période de troubles allant de juin à septembre 1815 dans la vallée du Rhône et le Midi de la France, lors de la chute déf…