T-toetsEen t-toets is een parametrische statistische toets die onder andere gebruikt kan worden om na te gaan of het (populatie)gemiddelde van een normaal verdeelde grootheid afwijkt van een bepaalde waarde, dan wel of er een verschil is tussen de gemiddelden van twee groepen in de populatie. Met behulp van een t-toets kan men dan een overschrijdingskans of een betrouwbaarheidsinterval bepalen. OntstaansgeschiedenisDe t-toets (en de bijbehorende t-verdeling) is ontwikkeld door William Sealy Gosset die werkte onder het pseudoniem 'Student'. De toets wordt daarom ook regelmatig als Students t-toets aangeduid. Gosset was werkzaam voor Guinness, waar hij de kwaliteit van het gebrouwen bier in de gaten hield. Hij publiceerde zijn resultaten in 1908 in het statistische tijdschrift Biometrika. Zijn werkgever eiste dat hij dat onder een pseudoniem deed, omdat het gebruik van statistische methoden als 'bedrijfsgeheim' gezien werd. BasisideeHet basisidee van de t-toets is het volgende: om na te gaan of van een normale verdeling met standaardafwijking de verwachtingswaarde een bepaalde waarde heeft, neemt men een steekproef van omvang uit die verdeling en berekent men het steekproefgemiddelde . Onder de nulhypothese is dit gemiddelde ook normaal verdeeld met verwachting en standaardafwijking . Het gestandaardiseerde steekproefgemiddelde is onder de nulhypothese standaardnormaal verdeeld, zodat eenvoudig nagegaan kan worden of een steekproefuitkomst significant is. In veel praktische gevallen is echter niet alleen de verwachtingswaarde onbekend, maar ook de standaardafwijking. Het ligt nu voor de hand om de standaardafwijking te schatten door de steekproefstandaardafwijking en te berekenen: Het gevolg is dat de toetsingsgrootheid onder de nulhypothese niet meer standaardnormaal verdeeld, maar een t-verdeling heeft, die wat breder is dan de standaardnormale. GebruikDe t-toets wordt onder andere in de volgende situaties gebruikt:
VoorwaardenEen t-toets kan gebruikt worden als aan bepaalde voorwaarden is voldaan. Bij de t-toets voor één steekproef moet gelden dat de betrokken steekproef een aselecte steekproef is uit een normale verdeling, met eventueel onbekende variantie. In het geval van twee steekproeven dienen beide steekproeven uit een normale verdeling te komen. De twee steekproeven moeten óf onafhankelijk van elkaar zijn, óf zogenaamd gepaard zijn. In het geval van twee onafhankelijke steekproeven dienen bij toepassing van de standaard t-toets de beide populaties dezelfde variantie te hebben. Wanneer beide populaties een verschillende variantie hebben, kan een aangepaste t-toets gebruikt worden. Het geval van gepaarde waarnemingen komt neer op een t-toets voor de enkele steekproef van de verschillen. Schendingen van deze assumpties hebben gevolgen voor de robuustheid en het onderscheidend vermogen van de t-toets. Met behulp van een F-toets kan getoetst worden of de varianties in beide groepen significant van elkaar verschillen. De normaliteit van de populaties kan getoetst worden met behulp van de Kolmogorov-Smirnovtoets. Als aan de voorwaarden van de centrale limietstelling voldaan is, kan de t-toets benaderend toegepast worden voor grote steekproeven. De voor de berekening van de toetsingsgrootheid benodigde steekproefgemiddelden zijn dan immers bij benadering normaal verdeeld. t-toets voor één steekproefDefinitieZij een aselecte steekproef uit een normale verdeling met onbekende verwachting en eventueel onbekende standaardafwijking. De t-toets voor het toetsen van de nulhypothese:
is gebaseerd op de toetsingsgrootheid:
waarin het steekproefgemiddelde is en de steekproefstandaardafwijking. Onder de nulhypothese heeft een t-verdeling met vrijheidsgraden. De t-toets voor één groep kan men toepassen op een enkele steekproef, waarbij men toetst of het populatiegemiddelde afwijkt van een bepaalde waarde. Men past de t-toets in deze vorm ook toe op de verschilscores van twee afhankelijke groepen, als deze verschillen een aselecte steekproef vormen die voldoet aan de genoemde voorwaarden. Voorbeeld 1Zit er wel gemiddeld 250 g margarine in een kuipje zoals de fabrikant beweert? Om dat na te gaan wordt een steekproef van kuipjes genomen en wordt hun inhoud gewogen. Als steekproefgemiddelde wordt g gevonden, en als standaardafwijking g. Er moet getoetst worden op een significantieniveau van 5%. Veronderstellende dat de inhoud van de kuipjes normaal verdeeld is met verwachting en standaardafwijking , kan getoetst worden: tegen De toetsingsgrootheid T is dus: Uit de steekproef volgt voor een waarde: De nulhypothese wordt verworpen voor te kleine waarden van . Om na te gaan of de gevonden waarde te klein is, zijn er twee benaderingen mogelijk. De eerste methode vergelijkt met de kritieke waarde die bij het gegeven significantieniveau van 5% hoort. De nulhypothese wordt verworpen als . Nu kan zo bepaald worden opdat: Uit de tabel van de t-verdeling kan worden afgelezen, gebruikmakend van de symmetrie:
zodat gevonden wordt: Aangezien , dient de nulhypothese verworpen te worden. Er kan geconcludeerd worden dat de kuipjes systematisch te weinig margarine bevatten. Bij de tweede methode wordt de (linker) overschrijdingskans van berekend en de nulhypothese wordt verworpen als . Uit een tabel van de t-verdeling met vrijheidsgraden kan afgelezen worden dat kleiner is dan 5%. De nulhypothese dient dus verworpen te worden en er kan geconcludeerd worden dat de kuipjes systematisch te weinig margarine bevatten. De waarde van kan met statistische software of programma's als Office Excel berekend worden en is ongeveer 0,00072. t-toets voor twee steekproevenZoals eerder gemeld, zijn er twee situaties voor de t-toets voor twee steekproeven:
Definitie bij gepaarde steekproevenLaat een aselecte steekproef zijn van gepaarde waarnemingen uit een simultane verdeling met verwachtingswaarden en , zo dat de verschillen normaal verdeeld zijn. Voor het toetsen van de nulhypothese: gebruikt men de t-toets voor de enkelvoudige steekproef van de verschillen en toetst: Voorbeeld 2Is een afslankproduct wel effectief zoals de fabrikant beweert? Om dat na te gaan worden proefpersonen gevolgd. Elk worden ze gewogen voor ze aan de kuur beginnen en erna. In de onderstaande tabel staan de resultaten.
Er is sprake van gepaarde waarnemingen. De beide gewichten van een en dezelfde proefpersoon kunnen niet als onafhankelijk worden beschouwd. Ook is het niet aannemelijk dat de gewichten voor de kuur en evenzo na de kuur uit een normale verdeling komen. Voor de verschilscores kan wel veilig aangenomen worden dat ze een aselecte steekproef uit een normale verdeling vormen. Als het middel geen effect heeft is de verwachting van de verschilscore 0. Er wordt dus getoetst: tegen De toetsingsgrootheid is dus:
Uit de steekproef volgt voor een waarde: De nulhypothese wordt verworpen voor te grote waarden van . Om na te gaan of de gevonden waarde te groot is bepalen wordt de (rechter) overschrijdingskans van bepaald. Uit een tabel van de t-verdeling met vrijheidsgraden kan afgelezen worden dat de p-waarde van deze uitkomst kleiner is dan 1%. Ook in dit voorbeeld wordt de nulhypothese verworpen (op 5% niveau) en wordt aangenomen aan dat het middel effectief is of dat er een placebo-effect is. Definitie bij onafhankelijke steekproevenLaat en twee onafhankelijke aselecte steekproeven zijn uit respectievelijk een - en een -verdeling met onbekende verwachtingswaarden en onbekende maar gelijke varianties. De t-toets voor het toetsen van de nulhypothese: is een toets gebaseerd op de toetsingsgrootheid:
waarin en de steekproefgemiddelden zijn en de zgn. gepoolde variantie is, gegeven door:
die het gewogen gemiddelde is van de beide afzonderlijke steekproefvarianties en . Onder de nulhypothese heeft een t-verdeling met vrijheidsgraden. Afhankelijk van het gekozen alternatief verwerpt men de nulhypothese eenzijdig dan wel tweezijdig. Er is bij deze definitie aangenomen dat beide populatievarianties aan elkaar gelijk zijn. Wanneer dit niet het geval is, moet er een aangepaste t-toets uitgevoerd worden. Voorbeeld 3Zijn vrouwen van 40 jaar gemiddeld zwaarder dan vrouwen van 30 jaar? Om dat na te gaan wordt een aselecte steekproef genomen van vrouwen van 30 en een aselecte steekproef van vrouwen van 40, onafhankelijk van de eerste steekproef. Elke vrouw wordt gewogen. In de onderstaande tabel staan de resultaten.
Er is sprake van twee onafhankelijk steekproeven. De beide gewichten die in de tabel boven elkaar staan, hebben niets met elkaar te maken. Er wordt aangenomen dat beide steekproeven afkomstig zijn uit normale verdelingen met gelijke varianties, en verwachtingswaarden respectievelijk en . Er wordt getoetst: tegen De toetsingsgrootheid is dus: Uit de steekproef volgt: dus Voor wordt dus de volgende waarde gevonden: De nulhypothese wordt verworpen voor te kleine waarden van . Om na te gaan of de gevonden waarde te klein is, wordt de (linker) overschrijdingskans van bepaald. Uit een tabel van de t-verdeling met vrijheidsgraden kan de p-waarde van deze uitkomst afgelezen worden. Deze overschrijdingskans is te groot om reden te geven tot verwerping van de nulhypothese. Weliswaar waren de vrouwen van 40 in de steekproef gemiddeld 4 kg zwaarder dan de vrouwen van 30, maar dit verschil is niet significant gezien de spreiding binnen de groepen. SoftwareDe t-toets is een van de meest gebruikte toetsen in de statistiek, en zit daarom in de meeste statistische en data-verwerkingsprogramma's. Zo kan men in de statistische programmeertaal R de t-toets uitvoeren met behulp van de functie t.test. In Python is de t-toets beschikbaar in de SciPy bibliotheek. In de rekenbladen van Microsoft Excel en LibreOffice Calc is er de functie ttoets resp. T.TOETS of "T.TEST". In MATLAB wordt gebruikgemaakt van het commando ttest voor de t-toets en ttest2 voor twee onafhankelijke steekproeven. Een veelgebruikt programma voor dergelijke statistische toetsen is SPSS. |