Korrelation

Korrelation anger inom statistiken styrkan och riktningen av ett samband mellan två eller flera variabler. Korrelationen anges ofta med en korrelationskoefficient. En metod för att bestämma korrelationen mellan två variabler är bivariat analys.

Korrelationskoefficienten har ett värde mellan 1 och -1, där 0 anger inget samband, 1 anger maximalt positivt samband och -1 anger maximalt negativt samband. För att ta ett exempel, säg att vi vill uttrycka sambandet mellan rikedom och lycka, och att vi har lyckats mäta dessa företeelser i en numerisk skala. En stark positiv korrelation, till exempel 0,9, betyder då att ju rikare man är, desto lyckligare är man. Det kan även uttryckas omvänt; ju lyckligare man är, desto rikare är man. En stark negativ korrelation, som -0,9, betyder i stället att ju rikare man är, desto mindre lycklig är man. En korrelationskoefficient på eller nära 0 betyder att det inte finns någon korrelation mellan de två variablerna. Det kan ändå finnas ett samband, vilket kan exemplifieras med sambandet mellan smaklighet och sälta i mat. Om både mycket låga och höga värden på mängd salt ger låga värden på bedömd smak, medan värden däremellan ger höga värden på bedömd smak, finns ett icke-linjärt, eller "krökt", samband. Korrelationsvärdet skulle dock vara nära 0. I föregående exempel skulle detta gälla om både höga och låga värden på rikedom hade samband med höga värden på lycka. Det innebär att även om samband och korrelation ibland används som synonymer, så är egentligen korrelation en specialsituation av samband och bara användbar när det finns anledning att förutsätta ett linjärt samband.

En korrelation säger ingenting om orsakssamband/kausalitet. I det första exemplet ovan anger en starkt positiv korrelation inte att någon är lycklig på grund av av rikedom. Det kan lika gärna vara så att någon är rik på grund av lycka, eller att en tredje variabel (till exempel social bakgrund) orsakar både lycka och rikedom.

Pearsons produktmomentkorrelationskoefficient

Flera uppsättningar av punkter (xy), med Pearsons korrelationskoefficient av x och y för varje uppsättning. Notera att korrelationen avspeglar brusmängd och riktning av ett linjärt förhållande (översta raden), men inte lutningen av det förhållandet (mitten), och inte heller flera aspekter av icke-linjära förhållanden (nedersta raden). Figuren i mitten har lutningen 0 men i det fallet är korrelationskoefficienten odefinierad eftersom variansen för Y är noll.

Det finns många olika sätt att beräkna korrelationen och den lämpligaste formen att använda beror bland annat på vilken skala variablerna är angivna. Den mest välkända och vanligaste formen är Pearsons produktmomentkorrelationskoefficient (eller "Pearsons korrelationskoefficient"), där korrelationen beräknas som kovariansen mellan de två variablerna dividerat med de båda variablernas standardavvikelse. Metoden är döpt efter statistikern Karl Pearson, men beskrevs först av Francis Galton. Denna korrelation, som i allmänhet betecknas ρX, Y, mellan två stokastiska variabler X och Y definieras som

där

  • är kovariansen
  • är medelvärdet av
  • är medelvärdet av
  • är standardavvikelsen av
  • är standardavvikelsen av

Ett specialfall av Pearsons korrelation ges av Spearmans rangkorrelation, som är Pearsons korrelation uträknat på rangen av X- och Y-värdena. En annan form av korrelation ges av Kendalls tau, som beräknas som en funktion av antal konkordanta och diskordanta par av observationer i materialet.

Se även