Benfords lag
Benfords lag beskriver hur olika siffror är fördelade som förstasiffror i statistik. Lagen säger till exempel att siffran 1 bör vara förstasiffra i 30,1% av fallen, siffran 2 i 17,6% av fallen och siffran 9 i 4,6% av fallen i en mycket stor datamängd. Om en stor datamängd avviker mycket från Benfords lag kan det vara en indikation på att siffrorna kan vara påhittade eller manipulerade. Detta gör lagen praktiskt användbar för kontroll inom många skilda områden. Som exempel är lagen tillämplig vid ekonomisk redovisning, prislistor, antal röster vid omröstningar mellan ett stort antal alternativ, samt folkmängd i städer. Lagen är tillämplig vid tal som har så stor varians att de kan tillhöra flera olika dekader, till exempel där N-siffriga tal är vanligast, men är ungefär lika vanliga som tal bestående av N+1 siffror och N-1 siffror. Lagen är således inte giltig vid skostorlekar, telefonnummer, postnummer, med mera. Sannolikheterna kan beräknas med ett logaritmiskt uttryck. Lagen gäller oavsett vilken bas man räknar i, men sannolikheterna blir olika för olika baser. Matematiskt utseendeBenfords lag säger att sannolikheten för att förstasiffran är x i basen 10 (siffrorna 0 till 9) ges av följande formel: Om man använder formeln ovan för alla heltal från 1 till 9 får man följande resultat:
Oberoende av basBenfords lag är sådan till naturen att oavsett vilken bas vi använder för att ange våra mätdata i så kommer resultatet att följa Benfords lag. Ett relativt enkelt exempel är att Benfords lag kommer gälla för längden av olika sträckor oavsett vilken enhet vi har valt att mäta dessa sträckor i. Den allmänna formeln för Benfords lag, alltså formeln i basen b: Benfords lag genom årenÄven om lagen heter Benfords lag så var den förste att uppmärksamma detta fenomen en matematiker vid namn Simon Newcomb, redan 1881 lade han märke till det fenomen som sedan Benford undersökte vidare.[1] Det Newcomb noterade var att logaritmtabeller med låga siffror var mer använda än övriga, han lade som förslag fram den formel som idag kallas Benfords lag. Näste person att uppmärksamma denna något underliga sannolikhetsfördelning var fysikern Frank Benford. 60 år senare, 1938, visade han resultatet av en undersökning där han hade samlat listor såsom sportresultat, prislistor m.m. innehållande 20 229 olika tal. Han fann att nästan vart tredje tal började med siffran 1, mindre än vart femte tal började med siffran 2, och färre än en tjugondel av siffrorna började med siffran 9.[2] Benfords resultat visade att Newcomb hade haft rätt i sitt antagande angående formelns utseende. Man bör notera att varken Newcomb eller Benford bevisade de resultat de upptäckt, Benford nöjde sig med att visa att hans lag stämde för ett stort antal undersökningar. Den amerikanske matematikern Theodore Hill har bevisat Benfords lag för vissa "grupper" av statistiska siffror. Användningsområden för Benfords lagHal Varian föreslog 1972 att Benfords lag skulle kunna användas för att upptäcka skattefusk. Om man undersöker siffrorna i skattedeklarationer med mera bör man se att dessa följer Benfords lag, genom att jämföra de faktiska resultaten man får från deklarationerna med den sannolikhetsfördelning som Benfords lag visar bör gälla kan man således upptäcka eventuella skattefuskare. Detta bygger givetvis på att en skattefuskare hittar på siffror helt på måfå och att siffrorna i hans deklaration eller liknande därför har en annan stokastisk fördelning än Benfords fördelning. Begränsningar för Benfords lagBenfords lag gäller i många fall men det finns vissa gånger som den inte gäller. Det krävs nämligen att alla tal finns med som möjliga förstasiffror och att fördelningen av dem i alla fall verkar vara slumpvis, till exempel bör inte skostorlekar följa Benfords lag eftersom skostorlekar med förstasiffrorna 6, 7, 8 och 9 är väldigt sällsynta medan storlekar runt 30 och 40 är betydligt vanligare. På samma sätt fungerar det inte att mäta längden hos människor eftersom de flesta är mellan 1 och 2 meter långa, personer på 30 centimeter eller 3 meter är extremt sällsynta. Man måste därför vara noga med att de data man utgår ifrån har en stor varians, och inte är begränsade till eller i huvudsak koncentrerade inom enbart en eller två tiopotenser.[3] Se ävenReferenser
Noter
Källor
Externa länkar
|
Portal di Ensiklopedia Dunia