Korrespondenzanalyse

Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Die Korrespondenzanalyse (englisch correspondence analysis, abgekürzt CA), auch einfache Korrespondenzanalyse, ist ein Verfahren der multivariaten Statistik, mit dem die Beziehungen der Variablen einer Kontingenztafel graphisch repräsentiert werden. Die Spalten- und Reihenprofile einer Matrix werden dabei durch Punkte in einem Raum repräsentiert, dessen Koordinatenachsen durch die jeweiligen Merkmale gebildet werden. Sie wird auch als Hauptkomponentenanalyse mit kategorialen Daten bezeichnet.

Bei der kanonischen Korrespondenzanalyse (englisch canonical correspondence analysis, CCA) handelt es sich um eine Erweiterung der CA durch Ter Braak. Die abgeleiteten Ordinationsachsen sind dabei Linearkombinationen der Umweltvariablen, die durch ein multiples lineares Regressionsmodell erzeugt werden.[1]

Neben der (einfachen) Korrespondenzanalyse gibt es auch die multiple Korrespondenzanalyse (auch Mehrfachkorrespondenzanalyse), die es ermöglicht, drei oder mehr kategoriale Variablen auf Basis einer Kontingenztafel zu analysieren.

Idee der Korrespondenzanalyse

Die Idee der Korrespondenzanalyse ist es, die Struktur von Kreuztabellen (auch Kontingenztabellen oder Kontingenztafeln genannt) für zwei oder mehr kategorialen Variablen zu visualisieren und zu verstehen. Ziel der Korrespondenzanalyse ist es, diese Tabellen so zu analysieren, dass Muster oder Beziehungen zwischen den kategorialen Variablen aufgedeckt werden.

Konkret versucht die Korrespondenzanalyse, die Beziehungen zwischen den Zeilen und Spalten der Kreuztabelle in einem niedrigdimensionalen Raum darzustellen, normalerweise einem zweidimensionalen Raum. Dazu wird die Kreuztabelle in eine Art Koordinatensystem überführt, in dem die Zeilen und Spalten zueinander in Beziehung stehen. Dies geschieht durch die Berechnung von Eigenwerten und Eigenvektoren der Kreuzproduktmatrix der Daten. Die Eigenwerte und Eigenvektoren geben an, wie viel Variation in den Daten durch die verschiedenen Dimensionen repräsentiert wird.

Die Ergebnisse der Korrespondenzanalyse können in Form von Biplot-Diagrammen dargestellt werden, die die Beziehung zwischen den Zeilen und Spalten der Kontingenztabelle in einem zweidimensionalen Raum zeigen.

Die Idee besteht darin, die Struktur der Daten auf einfache Weise zu erklären, damit Muster oder Assoziationen zwischen den kategorialen Variablen sichtbar werden. Auf diese Weise können komplexe Datenstrukturen verständlich gemacht und interpretiert werden. Die Korrespondenzanalyse ist besonders nützlich, um zu verstehen, wie verschiedene Kategorien miteinander verbunden sind und welche Muster in den Daten vorliegen.

Beispiel

Klasse Mathe Deutsch Englisch Kunst Summe
5 20 15 10 5 50
6 25 20 8 7 60
7 18 22 12 6 58
8 12 18 15 10 55
Summe 75 75 45 28 223

In einer Schule wurden Daten zu den Lieblingsfächern und der Klassenstufe erhoben und mit Hilfe der Korrespondenzanalyse der nebenstehende Biplot erzeugt.

1. Position der Klassenstufen: Die verschiedenen Klassenstufen (5, 6, 7, 8) werden als Punkte im Biplot dargestellt. Die Position der Punkte zeigt, wie ähnlich oder unterschiedlich sich die Klassenstufen in Bezug auf ihre Lieblingsfächer verhalten. Wenn zwei Klassenstufen nahe beieinander liegen, bedeutet dies, dass ihre Lieblingsfächer ähnliche Muster aufweisen.

Klasse 5 und Klasse 6 haben also ähnliche Lieblingsfächer.

2. Position der Lieblingsfächer: Ebenso werden die verschiedenen Lieblingsfächer (Mathe, Deutsch, Englisch, Kunst) als Punkte (Dreiecke) im Biplot dargestellt. Die Position der Punkte zeigt, wie stark bestimmte Fächer mit bestimmten Klassenstufen verbunden sind. Wenn die Pfeile, die von einer Klassenstufe zu einem bestimmten Fach zeigen, lang sind, deutet dies darauf hin, dass dieses Fach von dieser Klassenstufe bevorzugt wird.

Klasse 5 und 6 sind also stark verbunden mit Mathematik, während in Klasse 7 Deutsch bevorzugt wird und in Klasse 8 Kunst und Englisch.

3. Richtung und Länge der Pfeile: Die Richtung und Länge der Pfeile von den Klassenstufen und Lieblingsfächern zum Ursprungspunkt (0,0) zeigt, wie stark sie zur Variation der Daten beitragen. Lange Pfeile zeigen eine hohe Beitrag zur Variation, während kurze Pfeile eine geringere Beitrag anzeigen.

Die Fächer Mathe, Kunst und Englisch sowie die Klassenstufe 8 liefern einen großen Beitrag zur Variation.

Durch die Analyse des Biplots kann man Muster erkennen, wie z. B. ob bestimmte Klassenstufen dazu neigen, bestimmte Fächer zu bevorzugen, oder ob es Unterschiede zwischen den Klassenstufen in Bezug auf ihre Lieblingsfächer gibt.

Anwendungsgebiete

Die Korrespondenzanalyse wurde in der Empirischen Sozialforschung maßgeblich durch Pierre Bourdieus Studie „Die feinen Unterschiede“ populär gemacht. Auch in der Marktforschung ist die Korrespondenzanalyse verbreitet. In der Archäologie kann sie zur Ordnung von Tabellen dienen, die die Fundkombination von Typen in geschlossenen Funden erfassen. Nach einer solchen Ordnung – auch Seriation genannt – weisen die Typen und Fundkomplexe häufig eine zeitliche Abfolge auf.

Einzelnachweise

  1. Ilona Leyer, Karsten Wesche: Multivariate Statistik in der Ökologie: Eine Einführung. 1., Aufl. 2007. Korr. Nachdruck. Springer, Berlin, 2009, ISBN 3-540-37705-0, S. 91.

Literatur