Hierarchisch strukturierte Daten

In der Statistik und in den Wirtschaftswissenschaften spricht man von hierarchisch strukturierten Daten (oder genesteten Daten; englisch nested data) wenn die Beobachtungen eines Datensatzes sich hierarchisch übergeordneten Einheiten zuordnen lassen. Solche Hierarchie-Zusammenhänge können mehrstufig sein.[1]

Für die Analyse genesteter Daten sind spezielle Verfahren notwendig, die diese Datenstruktur berücksichtigen. Beispiele sind die Paneldatenanalyse und Mehrebenenanalyse.[2][3] Auch robuste Schätzungen, die diese Datenstruktur berücksichtigen, werden angewandt.

Allgemeines

In der Soziologie wird Wert darauf gelegt, dass soziales Handeln nicht nur von individuellen Merkmalen wie Geschlecht, Bildung oder Persönlichkeit abhängt, sondern auch vom sozialen Kontext, in den der Akteur eingebettet ist.[4] Liegen Kontext-Informationen in sozialwissenschaftlichen Datensätzen vor, handelt es sich um hierarchisch strukturierte Daten. Von einer hierarchischen Datenstruktur wird ausgegangen, wenn sowohl Elemente der Mikroebene (Mikrodaten) jeweils genau einem Element der Makroebene (Makrodaten) zugeordnet sind als auch die Makroebene sich ausschließlich aus Elementen der Mikroebene zusammensetzt.[5] Diese hierarchischen Datenstrukturen können mit der Mehrebenenanalyse ausgewertet werden.

Einteilung

Je nach Fachgebiet können unter anderem folgende Mikro- und Makroebenen unterschieden werden:

Fachgebiet Mikroebene Makroebene
Bildungswesen Schüler Schule
Demografie Person
Migrant
Einwohnerzahl
Migration
Finanzanalyse Aktienanalyse einer Aktie
Kreditanalyse eines Kredits
Portfolioanalyse (Aktienmarkt)
Analyse eines Kreditportfolios
Soziologie Individuum
Gruppe
Bevölkerung
Schicht
Wirtschaft Beschäftigter
Arbeitsentgelt
Güter
Arbeitsmarkt
Volkseinkommen
Gütermarkt, Weltmarkt

Der einzelne Schüler gehört zur Mikroebene, seine Schulklasse zur Mesoebene und die Schule zur Makroebene. Besteht beispielsweise ein Datensatz aus Schülern und enthält Informationen zu den Schulen, so würde eine Schätzung, welche die genestete Struktur der Daten nicht berücksichtigt, die Streuung der Merkmale unterschätzen. Durch Berücksichtigung der genesteten Struktur wird die Schätzungenauigkeit berücksichtigt.[6]

Beispiele

Hierarchisch strukturierte Daten gibt es in den Sozialwissenschaften sehr häufig.[7] So bilden einzelne Schüler die Mikroebene, darüber sind die Schulen als Makroebene angesiedelt. Unter dieser Voraussetzung lässt sich beispielsweise die Schulnote im Schulzeugnis eines einzelnen Schülers (Mikrodaten) zu einer Durchschnittsnote in der gesamten Schule, in einem Bundesland und in Deutschland (Makrodaten) aggregieren. Auf diese Weise ergibt sich beispielsweise der Abiturdurchschnitt,[8] der für ein Studium an einer Universität von Bedeutung ist.

Die Analyse hierarchisch strukturierter Daten anhand einer einfachen Regression ohne Berücksichtigung der Mehrebenenstruktur ist statistisch und interpretatorisch oft problematisch.[9]

Siehe auch

Literatur

  • M. K. Anand, S. Bowers, T. McPhillips, B. Ludäscher: Efficient provenance storage over nested data collections. In: Proceedings of the 12th International Conference on Extending Database Technology: Advances in Database Technology. ACM, New York, März 2009, S. 958–969.
  • A. Kawaguchi, D. Lieuwen, I. Mumick, K. Ross: Implementing incremental view maintenance in nested data models. In: Database Programming Languages. Springer, Berlin/Heidelberg, August 1997, S. 202–221.
  • K. F. Widaman: Hierarchically nested covariance structure models for multitrait-multimethod data. In: Applied Psychological Measurement. 9(1), 1985, S. 1–26.

Einzelnachweise

  1. Ita G. G. Kreft: Multilevel models for hierarchically nested data: Potential applications in substance abuse prevention research, in: NIDA research monograph 142, 1994, S. 140 ff.
  2. Georg Rudinger: Analyse von Daten aus Längsschnittstudien: Eine Einführung, in: Forschung und Beratung-das Zentrum für Evaluation und Methoden 3, 2009, S. 285.
  3. Giorgio A. Tasca/Vanessa Illing/Anthony S. Joyce/John S. Ogrodniczuk: Three-level multilevel growth models for nested change data: A guide for group treatment researchers in: Psychotherapy Research 19(4-5), 2009, S. 453–461.
  4. Johannes Kopp/Daniel Lois, Sozialwissenschaftliche Datenanalyse, 2012, S. 191
  5. Andreas Herz, Strukturen transnationaler sozialer Unterstützung, 2012, S. 200
  6. Cornelia Gräsel: I Was ist Empirische Bildungsforschung?, in: Empirische Bildungsforschung. Springer Fachmedien, Wiesbaden, 2015, S. 15–30.
  7. Cornelia Frings, Soziales Vertrauen, 2010, S. 241
  8. in NRW zählen die Halbjahresnoten aus Grundkursen einfach, Halbjahresnoten aus Leistungskursen doppelt und aus Abiturprüfungen fünffach
  9. Irene Corvacho del Toro, Fachwissen von Grundschullehrkräften: Effekt auf die Rechtschreibleistung von Grundschülern, 2013, S. 189