Klassische TesttheorieDie Klassische Testtheorie (KTT) ist die meistverbreitete psychometrische Testtheorie. Der Schwerpunkt des Modells der klassischen Testtheorie liegt auf der Genauigkeit einer Messung bzw. auf der Größe des jeweiligen Messfehlers. Daher wird sie oft auch als Messfehlertheorie bezeichnet. Die klassische Testtheorie versucht zu klären, wie, ausgehend von einem Testwert einer Person, auf die wahre Ausprägung des zu messenden Persönlichkeitsmerkmals geschlossen werden kann. Axiome
Je größer der Messfehler, desto geringer ist der wahre Merkmalsanteil und desto weniger zuverlässig misst ein Test. Aus den ersten beiden Axiomen folgt zudem: Dies besagt, dass der Messfehler verschwindet, wenn entweder ein Test an vielen Individuen angewandt wird oder ein Test mehrfach bei ein und derselben Person angewandt wird. ReliabilitätDas zentrale Konzept der klassischen Testtheorie ist die Reliabilität, das ist die Zuverlässigkeit bzw. Genauigkeit (Freiheit von Messfehlern), mit der ein Testwert den wahren Wert erfasst. Die Reliabilität wird theoretisch als das Verhältnis der Varianz der wahren Werte zur Varianz der Testwerte definiert: mit als Varianz des messfehlerfreien Testwerts und als Varianz des Messfehlers. Aus dieser Darstellung wird eine zunächst paradoxe Schlussfolgerung anschaulich: Eine Erhöhung der Variabilität systematischer Fehler (Verzerrungen) führt zu einer Erhöhung der Reliabilität, da sie nicht zu , sondern zu hinzugerechnet werden. Schätzverfahren zur Ermittlung der ReliabilitätDie Reliabilität kann, da man die wahren Werte nicht kennt, nur geschätzt werden. Ein Verfahren ist die sogenannte Split-Half-Reliabilität, bei der der Test auf Itemebene in zwei gleich große Teile aufgespalten wird, die dann jeweils miteinander korreliert werden. Dieses Verfahren ist im Grunde genommen nur noch von historischer Bedeutung.[1] Wesentlich geläufiger ist heutzutage eine Methode, die als Verallgemeinerung der Split-Half-Reliabilität beschrieben werden kann. Jedes Item wird als eigener Testteil aufgefasst und mit den anderen Items der Subskala korreliert. Man verwendet hierfür häufig das Cronbachsche Alpha, das auch als Maßzahl für die interne Konsistenz gilt. Der Alpha-Koeffizient gilt hierbei als Untergrenze der Reliabilitätsschätzung. Das Cronbachsche Alpha setzt Homogenität der Items voraus, ohne diese Annahme zu prüfen. Deswegen wird statt diesem Koeffizienten zunehmend die kongenerische Reliabilität bestimmt, die diese Homogenität nicht voraussetzt. Ein weiteres wichtiges Schätzverfahren ist die Test-Retest-Reliabilität, die die Korrelation desselben Tests zu zwei unterschiedlichen Zeitpunkten darstellt. Die Test-Retest-Reliabilität ist wertlos, wenn nicht das Intervall zwischen den beiden Testzeitpunkten angegeben ist. Unsinnig ist die Anwendung der Retest-Reliabilität bei sich verändernden Konstrukten (so würde die Retest-Reliabilität eines Tests, der Hunger als Konstrukt erfasst nicht die Reliabilität des Tests erfassen, sondern nur die Flüchtigkeit des Hungergefühls). Dies führt zu einer Unterschätzung der Reliabilität. Problematisch sind ebenso zu kurze Zeiträume zwischen den Tests, da Erinnerungseffekte zu einer Überschätzung der Reliabilität führen können. Ein weiteres Verfahren ist die Konstruktion von parallelen Tests. Das sind Tests, von denen man annimmt, dass sie die gleichen wahren Werte messen. Die Reliabilität kann dann durch die Korrelation zweier paralleler Tests X1 und X2 geschätzt werden. Man nennt dies auch Paralleltest-Reliabilität. Der Vorteil der Paralleltest-Reliabilität liegt darin, dass weder Item-Homogenität wie beim Cronbachschen Alpha, noch eine zeitliche Stabilität wie bei der Retest-Reliabilität vorausgesetzt wird, weshalb man sie von der Theorie her als Königsweg bezeichnen könnte. Praktisch gesehen ist es jedoch äußerst schwierig, parallele Testformen zu konstruieren, die voraussetzen, dass die korrespondierenden Items sich in Mittelwert, Itemschwierigkeit, Trennschärfe und sogar Fremdtrennschärfe nicht unterscheiden. Das trägt dazu bei, dass diese Form der Reliabilitätsschätzung recht selten angewandt wird. Bei gewissen Leistungstests wie z. B. IQ-Tests müssen jedoch aufgrund der Gefahr des Abschreibens ohnehin parallele Testformen vorliegen. Hier kann als günstiger Nebeneffekt die Paralleltest-Reliabilität mitberichtet werden. Erwähnenswert ist noch die Interrater-Reliabilität. Sie wird insbesondere bei den Messverfahren Interview und Beobachtung zur Schätzung der Reliabilität eingesetzt. Für nominalskalierte Daten steht hierfür Cohens Kappa zur Verfügung. Für metrisch skalierte Daten wird die Intraklassen-Korrelation verwendet. Für ordinalskalierte Daten ist der Spearman’sche Rangkorrelationskoeffizient (Spearman’sches Rho) ein anwendbares Maß. ObjektivitätDie Objektivität spielt in der klassischen Testtheorie eine untergeordnete Rolle. Die KTT ist eine Theorie, deren Axiome sich hauptsächlich auf Messfehler beziehen. Sie ist damit eine Theorie der Messfehler – und damit indirekt eine Theorie der Reliabilität, die ja als Freiheit von (unsystematischen) Messfehlern definiert ist. Objektivität lässt sich hierbei als Unteraspekt von Reliabilität auffassen, da Objektivität das Ausmaß betrifft, in dem sich die Varianz des Testwerts nicht auf eine Varianz ausgehend vom Versuchsleiter bzw. den Testbedingungen zurückführen lässt (z. B. Versuchsleitereffekt). Objektivität schließt also Messfehler, die durch den Untersuchungsleiter und die -bedingungen zustande kommen aus (ebenso wie die Reliabilität) und lässt sich in verschiedene Aspekte unterteilen:
Besonders bei den letzten beiden Punkten wird die Verwandtschaft zur Reliabilität deutlich. Theoretisch ließen sich die beiden Aspekte durchaus quantitativ durch die Interrater-Übereinstimmung erfassen. In der Praxis werden jedoch überwiegend Bedingungen sichergestellt, von denen man ausgeht, dass sie Objektivität herbeiführen. So wird ein möglichst standardisierter Test mit festen Interpretationshilfen im Manual als Garant für Auswertungs- und Interpretationsobjektivität betrachtet. Standardisierte Untersuchungsbedingungen hingegen sollen Durchführungsobjektivität gewährleisten. Hier wird meist nur unterschieden zwischen gegeben und nicht gegeben. ValiditätAnalog zur Reliabilität kann die Validität in der klassischen Testtheorie aufgefasst werden als der Anteil der Varianz, der ausschließlich auf das zu messende Konstrukt und nicht auf unsystematische, zufällige Fehler oder systematische Verzerrungen zurückgeht. mit als Varianz, die ausschließlich auf das zu untersuchende Konstrukt zurückzuführen ist, als Varianz der systematischen Verzerrungen (englisch bias) und als Varianz des Messfehlers. Im Gegensatz zur Reliabilität führt hier eine Erhöhung des systematischen Fehlers zu einer Verminderung, was intuitiv nachvollziehbar ist. Schätzverfahren zur Ermittlung der ValiditätDie Validität eines Tests ist ungleich schwieriger zu schätzen als die Reliabilität. Das liegt zum einen daran, dass Validität anders als die Reliabilität ein sehr uneinheitlicher Begriff ist, der in der Praxis durch sehr viele verschiedene Arten von Kennziffern geschätzt werden kann. Auf der anderen Seite gibt es aber auch Aspekte der Validität, die sich quantitativ nicht erfassen lassen bzw. dies ist in der Praxis der Testkonstruktion so nicht üblich. Für die Testkonstruktion relevant sind drei Oberformen der (psychometrischen) Validität:
Vorteile
Kritik
Alternative psychometrische ModelleDie Auswertung psychometrischer Daten kann auch durch Latent-Trait Theorien (z. B. Rasch-Modell) erfolgen. Diese können einige der Probleme, die mit der KTT einhergehen, lösen, schaffen aber auch neue (siehe auch Probabilistische Testtheorie). Literatur
WeblinksEinzelnachweise
|