Análisis de la regresión

En estadística, el análisis de la regresión es un proceso estadístico para entender cómo una variable depende de otra variable. Por ejemplo, si se requiere entender cómo la edad de una persona afecta a su salario, se puede usar la regresión para encontrar una relación entre las dos variables. En términos simples, la regresión es una línea que se traza en un gráfico que muestra la relación entre dos variables. La línea se ajusta a los puntos de datos para mostrar la tendencia general entre las dos variables. Por ejemplo, si la edad y el salario están relacionados, la línea de regresión mostrará cómo el salario aumenta a medida que la edad de una persona aumenta. La regresión es una herramienta valiosa porque permite a los científicos de datos entender cómo dos variables están relacionadas y predecir valores futuros. Por ejemplo, si tienes la edad de una persona, puedes usar la línea de regresión para predecir su salario futuro.

Incluye muchas técnicas para el modelado y análisis de diversas variables, cuando la atención se centra en la relación entre una variable dependiente y una o más variables independientes (o predictoras). Más específicamente, el análisis de regresión ayuda a entender cómo el valor de la variable dependiente varía al cambiar el valor de una de las variables independientes, manteniendo el valor de las otras variables independientes fijos. Más comúnmente, el análisis de regresión estima la esperanza condicional de la variable dependiente dadas las variables independientes - es decir, el valor promedio de la variable dependiente cuando se fijan las variables independientes. Con menor frecuencia, la atención se centra en un cuantil, u otro parámetro de localización de la distribución condicional de la variable dependiente dadas las variables independientes. En todos los casos, el objetivo de la estimación es una función de las variables independientes llamada la función de regresión. En el análisis de regresión, también es de interés caracterizar la variación de la variable dependiente en torno a la función de regresión, la cual puede ser descrita por una distribución de probabilidad.

El análisis de regresión es ampliamente utilizado para la predicción y previsión, por su sencillez es una de las primeras herramientas matemáticas que se usa en el campo de aprendizaje automático. El análisis de regresión se utiliza también para comprender cuáles de las variables independientes están relacionadas con la variable dependiente, y explorar las formas de estas relaciones. En circunstancias limitadas, el análisis de regresión puede utilizarse para inferir relaciones causales entre las variables independientes y dependientes. Sin embargo, esto puede llevar a ilusiones o relaciones falsas, por lo que se recomienda precaución,[1]​ por ejemplo, la correlación no implica causalidad.

Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión. Métodos familiares tales como la regresión lineal y la regresión por cuadrados mínimos ordinarios son paramétricos, en que la función de regresión se define en términos de un número finito de parámetros desconocidos que se estiman a partir de los datos. La regresión no paramétrica se refiere a las técnicas que permiten que la función de regresión consista en un conjunto específico de funciones, que puede ser de dimensión infinita.

El desempeño de los métodos de análisis de regresión en la práctica depende de la forma del proceso de generación de datos, y cómo se relaciona con el método de regresión que se utiliza. Dado que la forma verdadera del proceso de generación de datos generalmente no se conoce, el análisis de regresión depende a menudo hasta cierto punto de hacer suposiciones acerca de este proceso. Estos supuestos son a veces comprobables si una cantidad suficiente de datos está disponible. Los modelos de regresión para la predicción son frecuentemente útiles aunque los supuestos sean violados moderadamente, aunque no pueden funcionar de manera óptima. Sin embargo, en muchas aplicaciones, sobre todo con pequeños efectos o las cuestiones de causalidad sobre la base de datos observacionales, los métodos de regresión pueden dar resultados engañosos.[2][3]

Historia

La primera forma de regresión fue el método de mínimos cuadrados, que fue publicado por Legendre en 1805,[4]​ y por Gauss en 1809.[5]​ Legendre y Gauss aplicaron el método para el problema de determinar, a partir de observaciones astronómicas, las órbitas de los cuerpos alrededor del Sol (principalmente cometas, pero también más tarde los entonces recién descubiertos planetas menores). Gauss publicó un desarrollo posterior de la teoría de los mínimos cuadrados en 1821,[6]​ incluyendo una versión del teorema de Gauss-Markov.

El término "regresión" fue acuñado por Francis Galton en el siglo XIX para describir un fenómeno biológico. El fenómeno fue que las alturas de los descendientes de ancestros altos tienden a regresar hacia abajo, hacia un promedio normal (un fenómeno conocido como regresión hacia la media ).[7][8]​ Para Galton, la regresión sólo tenía este significado biológico,[9][10]​ pero su trabajo fue extendido más tarde por Udny Yule y Karl Pearson a un contexto estadístico más general.[11][12]​ En la obra de Yule y Pearson, la distribución conjunta de la variable respuesta y las variables explicativas se supone que es Gaussiana. Esta suposición fue debilitada por Ronald Fisher en sus obras de 1922 y 1925.[13][14][15]​ Fisher supone que la distribución condicional de la variable respuesta es Gaussiana, pero la distribución conjunta no necesario que lo sea. A este respecto, la asunción de Fisher está más cerca de la formulación de Gauss de 1821.

En los años 1950 y 1960, los economistas utilizaron calculadoras electromecánicas para calcular las regresiones. Antes de 1970, a veces tomaba hasta 24 horas para recibir el resultado de una regresión.[16]

Los métodos de regresión siguen siendo un área de investigación activa. En las últimas décadas, nuevos métodos han sido desarrollados para regresión robusta, regresión que implica respuestas correlacionadas, tales como series de tiempo y las curvas de crecimiento, regresión en la que los predictores (variable independiente) o las variables de respuesta son curvas, imágenes, gráficos y otros objetos de datos complejos, métodos de regresión que aceptan varios tipos de datos faltantes, regresión no paramétrica, métodos de regresión bayesianos, regresión en la que las variables predictoras son medidas con error, regresión con más variables predictoras que observaciones y la inferencia causal con regresión.

Modelo de regresión

En la práctica, los investigadores seleccionan primero un modelo que les gustaría estimar y, a continuación, utilizan el método elegido (por ejemplo, mínimos cuadrados ordinarios) para estimar los parámetros de dicho modelo. Los modelos de regresión incluyen los siguientes componentes:

  • Los parámetros desconocidos, a menudo denotados como un escalar o vector. .
  • Las variables independientes, que se observan en los datos y a menudo se denotan como un vector (donde denota una fila de datos).
  • La variable dependiente, que se observa en los datos y a menudo se denota mediante el escalar .
  • Los términos de error, que no se observan directamente en los datos y a menudo se denotan utilizando el escalar .

En varios campos de aplicación, se utilizan diferentes terminologías en lugar de variables dependientes e independientes.

La mayoría de los modelos de regresión proponen que es una función de y , con representando un término de error aditivo que puede representar determinantes no modelados de o ruido estadístico aleatorio:

El objetivo de los investigadores es estimar la función que más se ajusta a los datos. Para llevar a cabo un análisis de regresión, es necesario especificar la forma de la función . A veces, la forma de esta función se basa en un conocimiento sobre la relación entre y que no depende de los datos. Si no se dispone de tal conocimiento, se elige una forma flexible o conveniente para . Por ejemplo, una simple regresión univariante puede proponer , sugiriendo que el investigador cree que es una aproximación razonable para el proceso estadístico que genera los datos.

Una vez que los investigadores determinan su modelo estadístico preferido, diferentes formas de análisis de regresión proporcionan herramientas para estimar los parámetros . Por ejemplo, mínimos cuadrados (incluida su variante más común, mínimos cuadrados ordinarios) encuentra el valor de que minimiza la suma de errores al cuadrado . Un método de regresión dado proporcionará en última instancia una estimación de , normalmente denotada para distinguir la estimación del verdadero valor del parámetro (desconocido) que generó los datos. A partir de esta estimación, el investigador puede utilizar el "valor ajustado" para predecir o evaluar la precisión del modelo a la hora de explicar los datos. Que el investigador esté intrínsecamente interesado en la estimación o en el valor predicho dependerá del contexto y de sus objetivos. Como se describe en mínimos cuadrados ordinarios, los mínimos cuadrados se utilizan ampliamente porque la función estimada se aproxima a la expectativa condicional . .[5]​ Sin embargo, las variantes alternativas (por ejemplo, mínimas desviaciones absolutas o regresión cuantílica) son útiles cuando los investigadores quieren modelar otras funciones .

Es importante señalar que debe haber datos suficientes para estimar un modelo de regresión. Por ejemplo, supongamos que un investigador tiene acceso a filas de datos con una variable dependiente y dos independientes: . Supongamos además que el investigador desea estimar un modelo lineal bivariante mediante mínimos cuadrados: . Si el investigador sólo tiene acceso a puntos de datos, entonces podría encontrar infinitas combinaciones que expliquen los datos igualmente bien: se puede elegir cualquier combinación que satisfaga , todas las cuales conducen a

y por tanto son soluciones válidas que minimizan la suma de residuos al cuadrado. Para entender por qué hay infinitas opciones, nótese que el sistema de ecuaciones debe resolverse para 3 incógnitas, lo que hace que el sistema sea subdeterminado. Alternativamente, se pueden visualizar infinitos planos tridimensionales que pasan por puntos fijos.

De forma más general, para estimar un modelo de mínimos cuadrados con parámetros distintos, hay que tener puntos de datos distintos. Si , generalmente no existe un conjunto de parámetros que se ajuste perfectamente a los datos. La cantidad aparece a menudo en el análisis de regresión, y se denomina grados de libertad en el modelo. Además, para estimar un modelo de mínimos cuadrados, las variables independientes deben ser linealmente independientes: no se debe poder reconstruir ninguna de las variables independientes sumando y multiplicando las restantes variables independientes. Como se discute en mínimos cuadrados ordinarios, esta condición asegura que es una matriz invertible y, por tanto, que existe una solución única .

Modelos de regresión

Regresión Lineal Simple

Este modelo está conformado por dos variables estadísticas llamadas y . Asumiremos que la variable es influida por la variable , de esta forma, podemos referirnos a y a como Variable Independiente o Regresora y Variable Dependiente o Respuesta respectivamente.

Para la Regresión Lineal se asume que y se relacionan mediante

donde

  • es una variable estadística no determinista.
  • es una variable estadística determinista.
  • es una variable estadística no determinista y no observable.
  • son constantes desconocidas.
  • y .
  • si .

Los parámetros y son conocidos como coeficientes de regresión y estos pueden ser estimados mediante el método de Mínimos cuadrados o por el método de Máxima verosimilitud.

Regresión no lineal

Véase también

Referencias

  1. Armstrong, J. Scott (2012). «Illusions in Regression Analysis». International Journal of Forecasting (forthcoming) 28 (3): 689. doi:10.1016/j.ijforecast.2012.02.001. 
  2. David A. Freedman, Statistical Models: Theory and Practice, Cambridge University Press (2005)
  3. R. Dennis Cook; Sanford Weisberg Criticism and Influence Analysis in Regression, Sociological Methodology, Vol. 13. (1982), pp. 313–361
  4. A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
  5. a b C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
  6. C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  7. Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 0-7575-1181-3. 
  8. Galton, Francis (1989). «Kinship and Correlation (reprinted 1989)». Statistical Science (Institute of Mathematical Statistics) 4 (2): 80-86. JSTOR 2245330. doi:10.1214/ss/1177012581. 
  9. Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492–495, 512–514, 532–533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)
  10. Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton uses the term "regression" in this paper, which discusses the height of humans.)
  11. Yule, G. Udny (1897). «On the Theory of Correlation». Journal of the Royal Statistical Society (Blackwell Publishing) 60 (4): 812-54. JSTOR 2979746. doi:10.2307/2979746. 
  12. Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee,Alice (1903). «The Law of Ancestral Heredity». Biometrika (Biometrika Trust) 2 (2): 211-236. JSTOR 2331683. doi:10.1093/biomet/2.2.211. 
  13. Fisher, R.A. (1922). «The goodness of fit of regression formulae, and the distribution of regression coefficients». Journal of the Royal Statistical Society (Blackwell Publishing) 85 (4): 597-612. JSTOR 2341124. doi:10.2307/2341124. 
  14. Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth edición). Edinburgh: Oliver and Boyd. ISBN 0-05-002170-2. 
  15. Aldrich, John (2005). «Fisher and Regression». Statistical Science 20 (4): 401-417. JSTOR 20061201. doi:10.1214/088342305000000331. 
  16. Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? March 2006. Accessed 2011-12-03.

Enlaces externos

Read other articles:

此條目需要补充更多来源。 (2021年7月4日)请协助補充多方面可靠来源以改善这篇条目,无法查证的内容可能會因為异议提出而被移除。致使用者:请搜索一下条目的标题(来源搜索:美国众议院 — 网页、新闻、书籍、学术、图像),以检查网络上是否存在该主题的更多可靠来源(判定指引)。 美國眾議院 United States House of Representatives第118届美国国会众议院徽章 众议院旗帜…

2020年夏季奥林匹克运动会马来西亚代表團马来西亚国旗IOC編碼MASNOC马来西亚奥林匹克理事会網站olympic.org.my(英文)2020年夏季奥林匹克运动会(東京)2021年7月23日至8月8日(受2019冠状病毒病疫情影响推迟,但仍保留原定名称)運動員30參賽項目10个大项旗手开幕式:李梓嘉和吳柳螢(羽毛球)[1][2]閉幕式:潘德莉拉(跳水)[3]獎牌榜排名第74 金牌 銀牌 銅牌 …

American football player and coach (1878–1951) Irving O. HuntBiographical detailsBorn(1878-01-30)January 30, 1878Providence, Rhode Island, U.S.DiedJune 17, 1951(1951-06-17) (aged 73)Kingston, Pennsylvania, U.S.Playing career1897–1898Brown1901Homestead Library & Athletic Club Coaching career (HC unless noted)1899–1900South Carolina Administrative career (AD unless noted)1899–1901South Carolina Head coaching recordOverall5–7 Irving Hunt, in the middle with a football sweater and…

Dalam matematika, metode penghabis[1][2] (Latin: methodus exhaustionibus) adalah suatu cara kuno untung menghitung luas, volume, dan panjang dari bentuk geometri melengkung, seperti lingkaran. Gagasan tentang metode ini mulanya dicetuskan oleh Antifon, namun pengembangan dan penerapannya dilakukan oleh Eudoksos dari Knidos Istilah metode penghabis mula digunakan oleh Grégoire de Saint-Vincent di tahun 1647, yang mana sebelumnya metode ini tidak dinamai khusus. Metode penghabis s…

Ini adalah nama India; nama Natarajan merupakan patronimik, bukan nama keluarga, dan tokoh ini dipanggil menggunakan nama depannya, Chandrasekaran . Natarajan ChandrasekaranNatarajan Chandrasekaran pada sekitar tahun 2013Nama asalநடராஜன் சந்திரசேகரன்LahirNatarajan Chandrasekaran2 Juni 1963 (umur 61)Mohanur, Distrik Namakkal, Tamil Nadu, IndiaPendidikanInstitut Teknologi Coimbatore NIT TiruchirappalliPekerjaanKetua Tata GroupAnggota dewanTata Sons I…

Beberapa peluru artileri dari Perang Dunia Pertama yang terbelah. Dari kiri ke kanan: pecahan peluru artileri 90 mm, peluru pembakar babi logam (pig iron) 120 mm, model 77/14 - peluru artileri 75 mm daya ledak tinggi, model 16-75 mm peluru artileri pecah Ilmuwan AS dengan model peluru artileri skala penuh berbagai potongan dari W48 155 milimeter nuklir artileri , senjata nuklir taktis yang sangat kecil dengan bahan peledak setara dengan 72 ton TNT (0.072 kiloton). Bisa ditembakkan dari setiap ho…

First siege of the Vikings to the capital of the kingdom of the West Franks For other sieges of Paris, see Siege of Paris (disambiguation). Siege of Paris (845)Part of the Viking expansionA Viking siege of Paris, 19th-century portrayalnote: The ramparts here depicted did not exist in 845.Date845, siege began on 28/29 MarchLocationParis, West FranciaResult Viking victory • Viking plunder and occupation of Paris; departed for 7,000 livres (2.6 tonnes) of silver and goldBelligerents Vikings (main…

Sub-segment of electronic signage Not to be confused with Online advertising or Virtual advertising. This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Digital signage – news · ne…

Voce principale: Follonica Hockey 1952. Pro Follonica HockeyStagione 1970Sport hockey su pista Squadra Pro Follonica Allenatore? Presidente? Serie A7º posto Coppa ItaliaEliminata 1969 1971 Questa voce raccoglie le informazioni riguardanti il Pro Follonica Hockey nelle competizioni ufficiali della stagione 1970. Maglie e sponsor 1ª divisa Bibliografia Annuario dello Sport 1971 edito dalle Edizioni S.E.S.S. - La Gazzetta dello Sport, Milano le classifiche finali della stagione 1970. Hockey …

This article is about the four-star rank. For the broader U.S. military usage, see General officers in the United States. For other uses, see General (disambiguation). Military rank in US armed forces GeneralFour-star insignia of the rank of general. Style and method of wear may vary between different uniforms and different service branches. Shoulder boardsCountry United StatesService branchArmyMarine CorpsAir ForceSpace ForceAbbreviationGEN (Army)Gen (Marine Corps, Air Force, and Space For…

Crisis between the Russian presidency and parliament Not to be confused with 1991 Soviet coup d'état attempt or October Revolution. 1993 Russian constitutional crisisPart of the post-Soviet conflictsThe White House in October 1993, soon after the assault of government troops supported by tanksDate21 September – 4 October 1993(1 week and 6 days)LocationMoscow, RussiaResult Victory of pro-Yeltsin forces: Presidential rule by decree imposed New constitution adopted Supreme Soviet, Cong…

Peta menunjukan lokasi Mambusao Mambusao adalah munisipalitas yang terletak di provinsi Capiz, Filipina. Pada tahun 2000, munisipalitas ini memiliki populasi sebesar 36.793 jiwa atau 7.421 rumah tangga. Pembagian wilayah Secara politis Mambusao terbagi menjadi 26 barangay, yaitu: Atiplo Balat-an Balit Batiano Bating Bato Bato Baye Bergante Bunga Bula Bungsi Burias Caidquid Cala-agus Libo-o Manibad Maralag Najus-an Pangpang Norte Pangpang Sur Pinay Poblacion Proper Poblacion Tabuc Sinondojan Tuga…

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (أغسطس 2022) حريق مخيم اللاجئين في تايلاند 2013 المكان محافظة ماي هونغ سون  البلد تايلاند  التاريخ 22 مارس 2013  تعديل مصدري - تعديل   حريق مخيم اللاجئين في تايلاند 2013 ف…

Football stadium in Rosario, Argentina Ludueña StadiumEstadio LudueñaFortínPlotted entrance to the stadium, 2013AddressCasilda y MatienzoRosario, Santa FeArgentinaOwnerC.A. Tiro Federal ArgentinoTypeStadiumCapacity10,000Field size105 x 68 m [1]SurfaceGrassConstructionOpened1956; 68 years ago (1956)Renovated2001Expanded2001TenantsTiro Federal (1956–present) Estadio Ludueña (mostly known for its nickname Fortín de Ludueña)[2][3] is a football stadi…

American rock musician (born 1978) Tim McIlrathMcIlrath performing in 2015Background informationBirth nameTimothy James McIlrathAlso known asJames KasparBorn (1978-11-03) November 3, 1978 (age 45)Indianapolis, Indiana, U.S.OriginChicago, Illinois, U.S.Genres Melodic hardcore punk rock hardcore punk metalcore post-hardcore Occupation(s) Musician singer songwriter Instrument(s) Vocals guitar bass Years active1995–presentMember of Rise Against Formerly of Baxter Arma Angelus The Killing Tree…

Условное графическое обозначение пневмораспределителя, управляющего потоком сжатого воздуха, направляемого к пневмоцилиндру.. Сжатый воздух — воздух, который находится под давлением, превышающим атмосферное. В странах Европы около 10 % электроэнергии расходуется п…

Pub at Sandridge, St. Albans, Hertfordshire, UK. The Queens Head is a public house in the village of Sandridge to the north of St Albans, Hertfordshire, England. The Queen's Head is located in Church End near St Leonard's Church. The timber framed building is weather-boarded. It is listed as grade II by Historic England and is dated as C17 and earlier.[1] The nearby medieval church and its 20th century lychgate are also listed buildings. References ^ Historic England. Queens Head Public …

Indigenous ethnic group of Indonesia Ethnic group KorowaiKosenirowai, KolufoA Korowai manTotal population4000-4400 [1] [2]Regions with significant populations Indonesia (South Papua, Highland Papua)LanguagesKorowai, IndonesianRelated ethnic groupsKombai people The Korowai, also called the Kolufo, are the people who live in southeastern Papua in the Indonesian provinces of South Papua and Highland Papua. Specifically their tribal area is split by the borders of Boven Digoel R…

Perbentengan Vauban kelompokgroup of structures or buildings (en) TempatNegaraPrancis GeografiLuas wilayah1.153,16 ha [convert: unit tak dikenal] Perbentengan Vauban adalah Situs Warisan Dunia UNESCO yang terdiri dari 12 bangunan benteng di sepanjang perbatasan Prancis. Benteng-benteng ini dirancang oleh Vauban (1633–1707) dan diakui sebagai Situs Warisan Dunia pada tahun 2008.[butuh rujukan] Daftar situs Lokasi situs Arras, Pas-de-Calais: Benteng Vauban Besançon, Doubs: benteng,…

For the figure of speech in the law-based context, see Clean hands. For the biblical passage, see Pontius Pilate. Act of cleaning one's hands Hand washingHand washing with soap and water at a sinkOther namesHandwashing, hand hygiene[edit on Wikidata] Hand washing (or handwashing), also known as hand hygiene, is the act of cleaning one's hands with soap or handwash and water to remove viruses/bacteria/microorganisms, dirt, grease, and other harmful or unwanted substances stuck to the hands. D…